MarksRemarks
1 285
Suscriptores
+124 horas
-17 días
+430 días
- Suscriptores
- Cobertura postal
- ER - ratio de compromiso
Carga de datos en curso...
Tasa de crecimiento de suscriptores
Carga de datos en curso...
Photo unavailableShow in Telegram
Мы строили, строили и наконец-то построили :) Книга «Охота на электроовец: большая книга искусственного интеллекта» вышла из печати и доступна к заказу. Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: http://markoff.science#book
«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»
🔥 18❤ 3👍 1🌚 1
Photo unavailableShow in Telegram
Очень приятно получать такие сообщения 👉🏼👈🏼
⚡ 15❤ 9👍 5
00:09
Video unavailableShow in Telegram
Ставь лайк если жиза 😄
IMG_4131.MP41.57 MB
30❤ 15😁 1🤡 1
Photo unavailableShow in Telegram
Всем привет! Давно сюда не писал, существую щас в бешенном ритме 😅
Небольшие апдейты за последние пару недель:
1️⃣ Жесткий факап на ЦП ЮФО 👨🦳
2️⃣ Победа на ЦП ЦФО 🔼
Давайте начнем по порядку. На ЮФО мы участвовали в кейсе "Семантическая классификация документов". Там нужно было реализовать сервис по проверке документов перед отправкой (классификация). Оценивалось все по формуле Количество Баллов * Score. В чем же заключается факап? Количество баллов у нас было около максимальным, а вот score получился 0.6. Суть в том, что получив тренировочный датасет и построив правильно валидацию, я смог получить на ней 99% качества. Расслабившись, я перешел к другим задачам. Но как потом оказалось, тестовый датасет состоял совсем из других документов (из другого распределения) и моя модель давала на нем перфоманс в 60%, а переобучать модель уже не было времени, потому что на предикт отводилось всего 1 час. В итоге первое место заняла команда с TF-IDF 🫠 (как оказалось этот алгоритм хорошо работает с разными данными). Ну а мы вместо 1 места заняли 7. Мораль: Теперь в будущих проектах я всегда буду иметь бейзлайны на руках для непредвиденных случаев.
В ЦФО мы участвовали в кейсе по рекомендации обучающих курсов от компании GeekBrains. Кейс был настолько легким, что я за неделю до начала уже раздал задания (парсинг данных, АПИ, Презентация, анализ рынка, фронт) своей команде, чтобы уже во время хакатона оставалось доделать чуть-чуть. Мы построили RAG систему с уклоном в рекомендации. Мы заняли 1 место и обогнали команду со 2 места на 7 баллов! 🔥
🔥 37👍 8❤ 4
Repost from эйай ньюз
Photo unavailableShow in Telegram
🔥LLaMa 3 - дождались: Новая SOTA в open-source!
Сегодня день больших релизов от Meta, в которых и я и моя команда принимала прямое участие.
Зарелизили в опенсорс LLaMa-3 8B и 70B:
🔳LLaMa-3 8B – лучшая в своем классе модель, и сопоставима с LLaMa-2 70B, хоть и в 10 раз меньше.
🔳LLaMa-3 70B – тоже самая мощная в режиме 70 млрд параметров, достигает 82 на MMLU бенчмарке (показывает уровень общих знаний в разных областях). Для сравнения, недавняя Mixtral 8x22B с 141B параметров достигает только MMLU 77.8. Ну, и ждем результатов на арене.
C новыми моделями можно початиться на meta.ai
Блог
Подробности
Скачать веса модели
@ai_newz
🔥 18❤ 2
Совсем не реклама, сам хотел поучаствовать, но сотрудникам Сбера нельзя 😞
Крутой Хакатон DEEPHACK.AGENTS от команды GigaChat и Центра ИИ МФТИ.
Задача: на основании возможностей, которые предоставляют GigaСhat и его SDK GigaChain, разработать собственного ИИ-ассистента, помогающего в научной деятельности.
Когда: 24-28 Апреля
Команда: 2-3 человека
Призы: 250к, 150к, 100к
Формат: Онлаин/Офлаин (Москва)
Регистрация: До 22 Апреля
DeepHack.Agents
Разработай собственного ИИ-ассистента для науки на базе GigaChain!
👍 9⚡ 2👎 2🗿 2
🔵Разобрал статью с конференции EACL 2024: Leak, Cheat, Repeat: Data Contamination and Evaluation Malpractices in Closed-Source LLMs
🔴Основная мысль: Научное сообщество с халатностью относится к оценке моделей в своих исследованиях, что приводит к утечке данных и не справедливым оценкам. Авторы взяли 255 статей за прошлый год и очень подробно их проанализировали.
🔵Во время анализа они столкнулись с большим количеством проблем и на их основе создали рецепт для будущих исследований который поможет сделать оценки объективными, меньше тормозить научный прогресс и также повысить воспроизводимость результатов.
🔴Можно сказать что их выводы это база, но почему-то никто ее не соблюдает. Своим исследованием они еще раз подчеркнули важную проблему, на которую большинство забивают.
🔵Только 23 статьи из 255 (<10%) оказались достаточно чистыми, что подвергает в шок. Подробнее можно ознакомиться по ссылке. 🚀
Ну и давно я вас об этом не просил, помочь каналу можно по ссылке – https://t.me/boost/kaggle_fucker
👍 18
Repost from Dealer.AI
LLM отправили на олимпиаду по матише. 🧑🎓
Новый сорев по NLP на kaggle. Над решать олимпиадные задачки при помощи LLM. Вопреки тренду тут и тут, train сетик имеется 🤙 Да еще даже есть указание откуда он взялся, те можно наскрапать поболее датки.
Что тут можно посоветовать:
1. Юзать модель LLEMMA и идеи из статьи.
2. Обратить внимание на статьи могут ли LLM решать мат задачки, быть калькуляторами и как: раз, два, три и думаю еще найдете.
3. Обратить внимание на токенизатор в ваших LLM, порой полезны модели с single цифрой на token , те токенизация по 0,1,2...,9.
4. Работать в few shot режиме, но хитро, используя RAG систему. По принципу: обкачал этот ресурс, закэшил, сверху взял ретривер и по задаче из теста возвращаешь топК задач из кэша с условием и ответом. Далее по примеру текущей задачи кидаем в промт выгруженные похожие задачи с индекса и просим по аналогии решить текущую тестовую аля: "смотри LLM вот 1+1=2, 3+3=6, а тогда скок будет 4+5=?" Естествннно там будет пример сложнее, надеюсь, концепт поняли.
5. Пункт дополняет 4ый. Нагенерить синту из известных задач с разными параметрами и ответами, от них зависящими. Было 1+1=2 стало 3+3=6 и тп. Как? Думайте сами)
UPD.
6.Совсем забыл про MultiHop и Chain of thought) Можно разумеется юзать техники пошагового рассуждения статьи: раз, два.
+ два сета от NVIDIA спасибо @tsimboyolga
-https://huggingface.co/datasets/TIGER-Lab/MathInstruct
-https://huggingface.co/datasets/nvidia/OpenMathInstruct-1
Успехов)
🔥 8👍 3❤ 1
Мало кто знает, но сегодня отмечается День Математика!
Поэтому меня и других коллег с профессиональным празником!) 🤑
PS это не шутка если что 🤨
😁 27🎉 6
Elige un Plan Diferente
Tu plan actual sólo permite el análisis de 5 canales. Para obtener más, elige otro plan.