cookie

Sizning foydalanuvchi tajribangizni yaxshilash uchun cookie-lardan foydalanamiz. Barchasini qabul qiling», bosing, cookie-lardan foydalanilishiga rozilik bildirishingiz talab qilinadi.

avatar

Dealer.AI

Жоский ИИ дядя. Твой личный поставщик AI 💊💉🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys. Для связи @dealer_ai Habr @Andriljo

Ko'proq ko'rsatish
Reklama postlari
5 068
Obunachilar
+1524 soatlar
+747 kunlar
+18630 kunlar
Post vaqtlarining boʻlagichi

Ma'lumot yuklanmoqda...

Find out who reads your channel

This graph will show you who besides your subscribers reads your channel and learn about other sources of traffic.
Views Sources
Nashrni tahlil qilish
PostlarKo'rishlar
Ulashishlar
Ko'rish dinamikasi
01
🚀 @SBERLOGASCI webinar on data science: 👨‍🔬 Сергей Фиронов "Обзор идей АльфаГо, АльфаЗеро" ⌚️ Понедельник, 10 июня, 19.00 (по Москве) АльфаГо, АльфаЗеро революционизировали подходы на основе машинного обучения к сложным комбинаторным задачам. То, что казалось недостижимым в ближайшие десятилетия - было достигнуто DeepMind. В данном докладе один лучших дата-сайнтистов, Каггл грагдмастер Сергей Фиронов, расскажет обзор этих работ. Разберем репозиторий и практическое применение AlphaZero от DeepMind к своим задачам на конкретном примере, как и что надо имплементировать и учесть, а так же попробуем подумать на тему применения к сборке рубиков. В работах АльфаГо, АльфаЗеро произошел отказ от идей Q-алгоритма, и происходит прямое обучение сетки предсказывающей ходы и позиции. Однако, таргеты для сетки рассчитываются на основе MCTS алгоритма, что является принципиально новым подходом в области. Тот же MCTS используется и для инференса , в сочетании с расчетом сетки. В исходной работе использовалась сверточная сетка из 40 слоев. Обучение в АльфаЗеро идет только на основе игры с собой, без использования каких-либо внешних знаний. AlphaGo: "To efficiently combine MCTS with deep neural networks, AlphaGo uses an asynchronous multi-threaded search that executes simulations on CPUs, and computes policy and value networks in parallel on GPUs. The final version of AlphaGo used 40 search threads, 48 CPUs, and 8 GPUs. We also implemented a distributed version of AlphaGo that exploited multiple machines, 40 search threads, 1202 CPUs and 176 GPUs. The Methods section provides full details of asynchronous and distributed MCTS." Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
79014Loading...
02
Саш, привет А можешь скинуть к себе https://t.me/sberlogabig/422 Доклад Фиронова
10Loading...
03
Заходите, в понедельник разложат за RL в шахматах и Go
9130Loading...
04
Media files
1 1862Loading...
05
Media files
10Loading...
06
норм упало, ажн в Дубайске у Дурова отскачидл
1 2156Loading...
07
Повторенье - мать ученья. Или почему DPO, а не reward+ppo. Крч, на днях, дядя обнаружил, что запамятовал суть DPO, да и наркоз стал отпускать. Самое время пойти на архив в папир. Знаете, PPO в RLHF - это как подростковый секс, все о нем говорят, что завели и все круто летит, но мало кто знает и умеет. Так вот - DPO, шкет, это твое спасение на пути в RLHF. Оказывается от этих 4ех буков, останется ток две последние это из human feedback оно превращается в preferences tuning без всякого RL. Как это происходит? Давай вспомним, как заводят первый роман PPO: 1. Сначало собирают предпочтения кожаных мешков на генерациях с LLM. 2. Далее размечают попарно какие генерации лучше какие хужи для одной и той же затравки. 3. Потом учат reward модельку этому ранжированию, те проксируют предпочтения человеков, через модельку. Для этого, важно, юзают loss = -E{log(sigmoid[ rank(yi/x) -rank(yj/x)]))} , yi - предпочитаемая yj-му генерация для каждого промпта из x. И вот тут - стоп. Далее не пойдем. Там будет после обучения процедура PPO, а ты еще молодой, у тебя вся жизнь впереди, не надо оно тебе Там эта модель награды используется для получения оценок генерации, мы максимизируем мат ожидание оценок на батче и прочий нестабильный изврат. Вот тут на сцену выйдет DPO. Челики авторы умные сели подумали, а зачем нам эти прокси модельки награды, нестабильный РРО. Когда можно сразу в этап файнтюна закинуть предпочтения как +1ый шаг и главное дифференцируемое е2е. Следим за руками, объясняю на пальцах: вот у нас есть P(x)-вероятность следующего токена порождаемое моделью LLM при промпте Х. И мы хотим, чтобы при генерации у нас было максимальное правдопобие P(yi/x). Те мы хотим, чтобы вероятнее был токен Yi, чем Yj. Значит, мы просто хотим напрямую от модели выполнить адаптацию к нашим предпочтениям. А как это можно сделать без этих наград и тп, но с оглядкой на хинты PPO и reward? Да просто, давайте, возьмём loss такой, что он будет давать предпочтение распределению вероятостей над Yi по отношению к Yj. Как это сделать? Да также как с рангами оценки в reward. Так мы получим loss=log(sigmoid[P(yi/x) - P(yj/x)]), но нам чет не хватает. В процедуре РРО для RLHF еще была важная фича. Это регуляризация на reference модель, т.е. на поведение предка (LLM на предыдущем шаге обучения). И выглядело это как вот такая компонента в лоссе: lambda*KLD(P/Pref). Ну один момент, давайте тоже красиво это вставим в промежуточный лосс DPO: Loss=log(sigm[Betta*log(Pi/Pi-ref)-Betta*log(Pj/Pj-ref)]), где Pi, j-ref это это вероятности токенов i,j для референсной модели при промпте X. Всë, мы получили искомый DPO лось, с штрафом/оглядкой на поведение референс модели и даже коэфициентик переняли. Зачем нам это? Для того, чтобы наследовать поведение модели предка в некоторой доле по связности изложения, знаниям и тп. Почему для обеих компонент лосса, так это ж оценка на одной и тойже модели, значит и штраф в обоих случаях. Конечно, это пояснение на пальцах, в статье есть целая выкладка в аппендиксе, которая доказывает, что такая функция ошибок действительно является дифференцируемой аппроксимацией над предпочтениями и вообще эквивалентна тому же что и в PPO+reward. Но это вы уже сами почитаете.
1 86658Loading...
08
Да что вы знаете про настоящий найм и упорство HR!?!? 🤙
1 66050Loading...
09
PureAI = 100 spartanians filippines.
1 59616Loading...
10
Media files
1 6483Loading...
11
Жизнь за орду метрики. Говорят, что: NV-Embed-v1 немного обманщики, они выиграли лидерборд просто из-за того что получили прирост 7 пунктов в категории классификация, который попал в их трейн (с) от подписчика. На самом деле, почитав статью про e5 можно обноружить некоторые сеты (3 шт), что есть и в MTEB.
1 5624Loading...
12
Внимание, вакансия! Ищу себе в команду опытного продакт-дизайнера, с которым вместе будем развивать стрим «Поиск и изучение». Это карточка товара, листинги, фильтры и поиск. А еще админки, где это всё настраивается. Крутая команда, все возможности роста, интересные задачи — в общем, не вакансия, а мечта. ⚡️ https://dm-tech.notion.site/Middle-Product-Designer-f121b53fda0e489695ea69889c9108a9
1 6126Loading...
13
мой бро ищет творческую натуру в тиму👇
1 5430Loading...
14
Мечтает ли GPT-4o о сегментации картинок...? Рассказал на Habr найденный способ как заставить GPT-4o работать с детекцией объектов на картинке и выдавать координаты (bounding boxes), с которыми можно работать. Внутри много деталей о том, с какими препятствиями и нюансами мы сталкиваемся в Vibe AI при парсинге сообщений со скриншотов переписки. Приятного прочтения, буду благодарен вашей обратной связи, лайкам, репостам ❤️
1 44732Loading...
15
интересное 👇
1 9040Loading...
16
Сегодня твиттер взорвался. Экс-сотрудник OpenAI из команды Superalignment опубликовал 165-страничный документ о будущем ИИ. Там много деталей, фактов, индукции и вполне разумных прогнозов, поэтому прежде чем строчить гневные и безумные комментарии крайне советую прочитать сам документ. - AGI к 2027 году более чем вероятен. - После AGI переход к ASI (сверхинтеллекту) за счет самообучения будет очень быстрым, почти мгновенным - AGI — это самый существенный геополитический ресурс, куда важнее, чем ядерное оружение и страны пойдут на многое, чтобы получить его первым. В статье приводятся примеры того как китайцы шпионят за ИИ-компаниями в США. - сегодня большой дата-центр это единицы или десятки мегаватт, но с ИИ потребность вырастет на, как минимум, 4 порядка (x 10,000) - мы увидим единый вычислительный кластер стоимостью в триллион долларов в течении пяти лет. самая рациональная инвестиция со стороны state actors и big tech — это compute, атомная энергия и инфраструктура для первых двух. - NVIDIA, MSFT, AMZN, GOOG уже сегодня планируют капекс в $100B в квартал на датацентры только для ИИ - к 2030 году ежегодно и глобально будет инвестироваться $8T в ИИ (включая чипы и компьют), а так же только для ИИ будет потребляться больше чем 100% э/э генерируемой в США сегодня - к 2026 году выручка одной из big tech компаний от ИИ превысит $100B - это не безумно, и сравнимые расходы и сдвиги происходили во время Манхеттенского проекта или Промышленной революции и строительства ж/д Завтра продолжу со второй частью Если вам лень читать, то можете послушать вышедший сегодня 4-часовой подкаст о том же самом: https://www.dwarkeshpatel.com/p/leopold-aschenbrenner
2 246230Loading...
17
Галя у нас отмена (с) https://habr.com/ru/news/819081/
2 45234Loading...
18
Че есть по языкам.
2 3213Loading...
19
Ru
2 25913Loading...
20
ChatBot LLM Arena-сезон multilingual. LMSYS выдали мультилингв арену, в тч с Ру языком. Топ-1 на Russian пока Opus Claude 3. https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
2 28737Loading...
21
Media files
2 24618Loading...
22
Тут мы хорошо поболтали под постом Есть решение на базе pandas + LLM. В целом пойнт не писать код, а писать промпт по сути текст, а код тоже в тч текст улыбает.
2 23422Loading...
23
Хинт с архетиктурой
2 2088Loading...
24
NV embed - новый царь горы на MTEB.🌿 NV-embed от NVIDIA на базе уже известного mistral-7b. Рецепт успеха прост: 1. Хорошая базовая pretrained модель в лице крупы-7b. 2. Грамотный contrastive two stage finetune: сначала QA ассиметричный retrieval, далее уже классик парафразинг/поиск. 3. Хинт на уровне архитектуры - добавление доп KV головы с вниманием для обучения целевых векторных представлений (см. скрин ниже).
2 45046Loading...
25
Твоя mom оценит 👇
1 9411Loading...
26
Нейронки теперь воспитывают детей: многодетная мать сгенерировала фейковый выпуск новостей, в котором ведущий показал вопиющий беспорядок в их детской комнате. В шоке от увиденного малые сразу бросились собирать свои игрушки. Вот, что значит современные родители. @killerfeat
2 021130Loading...
27
Спасибо, Павлу, что на примере нашей модельки сделал клевый мануал. ru-SBERT жив(с)
2 9160Loading...
28
Всем привет! В моём блоге на Дзен появилась свежая публикация под названием "Как конвертировать модель семейста BERT в формат GGUF?", если вы хотите узнать, как запускать модели-эмбеддеры на слабом железе или эффективно использовать ресурсы сервера, то эта публикация для вас. Юпитерианский блокнот в котором я сравнил PyTorch к GGUF версии модели ai-forever/sbert_large_nlu_ru Желаю приятного прочтения! #gguf #bert #nlp #embedding
3 07781Loading...
29
Для справки (не шутка) - запустили прокси до докера. Называется Хуёкер
4 534184Loading...
30
лол 🫡 https://habr.com/ru/news/818177/
3 66266Loading...
31
лол https://files.sberdisk.ru/s/JB9X9epxDTGKJOA
10Loading...
32
Когда дяде говорят, что он будет вести V-team по очередному AI/ML проекту.
2 7783Loading...
33
простити
2 5160Loading...
34
13% НДФЛ - лютейшая нищета на грани выживания 15% НДФЛ - обычная нищета, ипотека на 20 лет, кино и рестораны раз в неделю, еда из ашана 18% НДФЛ - нормальная жизнь, ипотека на 10 лет, машина среднего класса (B, C) 20% НДФЛ - хорошая жизнь, ипотека на 5 лет, путешествия 22% НДФЛ - достаточно хорошая жизнь, ипотека на 2 года, машина бизнес класса, девушка
2 59891Loading...
35
удивительно, опять маленькие сетки на задачу лучше чем декодеры. никто не догадывался
2 1684Loading...
36
Лютая база от бро. 🕺
2 5721Loading...
37
Яндекс завез выравнивание на кожанных. https://habr.com/ru/companies/yandex/articles/817391/
62121Loading...
38
начали ж уже?)
5631Loading...
39
Пятничный юмор. ИИ заберет твою работу(с) Art by Adam Douglas
3 79228Loading...
Photo unavailableShow in Telegram
🚀 @SBERLOGASCI webinar on data science: 👨‍🔬 Сергей Фиронов "Обзор идей АльфаГо, АльфаЗеро" ⌚️ Понедельник, 10 июня, 19.00 (по Москве) АльфаГо, АльфаЗеро революционизировали подходы на основе машинного обучения к сложным комбинаторным задачам. То, что казалось недостижимым в ближайшие десятилетия - было достигнуто DeepMind. В данном докладе один лучших дата-сайнтистов, Каггл грагдмастер Сергей Фиронов, расскажет обзор этих работ. Разберем репозиторий и практическое применение AlphaZero от DeepMind к своим задачам на конкретном примере, как и что надо имплементировать и учесть, а так же попробуем подумать на тему применения к сборке рубиков. В работах АльфаГо, АльфаЗеро произошел отказ от идей Q-алгоритма, и происходит прямое обучение сетки предсказывающей ходы и позиции. Однако, таргеты для сетки рассчитываются на основе MCTS алгоритма, что является принципиально новым подходом в области. Тот же MCTS используется и для инференса , в сочетании с расчетом сетки. В исходной работе использовалась сверточная сетка из 40 слоев. Обучение в АльфаЗеро идет только на основе игры с собой, без использования каких-либо внешних знаний. AlphaGo: "To efficiently combine MCTS with deep neural networks, AlphaGo uses an asynchronous multi-threaded search that executes simulations on CPUs, and computes policy and value networks in parallel on GPUs. The final version of AlphaGo used 40 search threads, 48 CPUs, and 8 GPUs. We also implemented a distributed version of AlphaGo that exploited multiple machines, 40 search threads, 1202 CPUs and 176 GPUs. The Methods section provides full details of asynchronous and distributed MCTS." Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
Hammasini ko'rsatish...
👍 9🔥 2👎 1
Саш, привет А можешь скинуть к себе https://t.me/sberlogabig/422 Доклад Фиронова
Hammasini ko'rsatish...
(sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGASCI webinar on data science: 👨‍🔬 Сергей Фиронов "Обзор идей АльфаГо, АльфаЗеро" ⌚️ Понедельник, 10 июня, 19.00 (по Москве) АльфаГо, АльфаЗеро революционизировали подходы на основе машинного обучения к сложным комбинаторным задачам. То, что казалось недостижимым в ближайшие десятилетия - было достигнуто DeepMind. В данном докладе один лучших дата-сайнтистов, Каггл грагдмастер Сергей Фиронов, расскажет обзор этих работ. Разберем репозиторий и практическое применение AlphaZero от DeepMind к своим задачам на конкретном примере, как и что надо имплементировать и учесть, а так же попробуем подумать на тему применения к сборке рубиков. В работах АльфаГо, АльфаЗеро произошел отказ от идей Q-алгоритма, и происходит прямое обучение сетки предсказывающей ходы и позиции. Однако, таргеты для сетки рассчитываются на основе MCTS алгоритма, что является принципиально новым подходом в области. Тот же MCTS используется и для инференса , в сочетании с расчетом сетки. В исходной работе использовалась сверточная сетка из 40 слоев. Обучение в АльфаЗеро идет только на основе игры с собой, без использования каких-либо внешних знаний. AlphaGo: "To efficiently combine MCTS with deep neural networks, AlphaGo uses an asynchronous multi-threaded search that executes simulations on CPUs, and computes policy and value networks in parallel on GPUs. The final version of AlphaGo used 40 search threads, 48 CPUs, and 8 GPUs. We also implemented a distributed version of AlphaGo that exploited multiple machines, 40 search threads, 1202 CPUs and 176 GPUs. The Methods section provides full details of asynchronous and distributed MCTS." Zoom link will be in @sberlogabig just before start. Video records:

https://www.youtube.com/c/SciBerloga

- subscribe !

Заходите, в понедельник разложат за RL в шахматах и Go
Hammasini ko'rsatish...
Photo unavailableShow in Telegram
😁 21
Photo unavailableShow in Telegram
норм упало, ажн в Дубайске у Дурова отскачидл
Hammasini ko'rsatish...
😁 18
Повторенье - мать ученья. Или почему DPO, а не reward+ppo. Крч, на днях, дядя обнаружил, что запамятовал суть DPO, да и наркоз стал отпускать. Самое время пойти на архив в папир. Знаете, PPO в RLHF - это как подростковый секс, все о нем говорят, что завели и все круто летит, но мало кто знает и умеет. Так вот - DPO, шкет, это твое спасение на пути в RLHF. Оказывается от этих 4ех буков, останется ток две последние это из human feedback оно превращается в preferences tuning без всякого RL. Как это происходит? Давай вспомним, как заводят первый роман PPO: 1. Сначало собирают предпочтения кожаных мешков на генерациях с LLM. 2. Далее размечают попарно какие генерации лучше какие хужи для одной и той же затравки. 3. Потом учат reward модельку этому ранжированию, те проксируют предпочтения человеков, через модельку. Для этого, важно, юзают loss = -E{log(sigmoid[ rank(yi/x) -rank(yj/x)]))} , yi - предпочитаемая yj-му генерация для каждого промпта из x. И вот тут - стоп. Далее не пойдем. Там будет после обучения процедура PPO, а ты еще молодой, у тебя вся жизнь впереди, не надо оно тебе Там эта модель награды используется для получения оценок генерации, мы максимизируем мат ожидание оценок на батче и прочий нестабильный изврат. Вот тут на сцену выйдет DPO. Челики авторы умные сели подумали, а зачем нам эти прокси модельки награды, нестабильный РРО. Когда можно сразу в этап файнтюна закинуть предпочтения как +1ый шаг и главное дифференцируемое е2е. Следим за руками, объясняю на пальцах: вот у нас есть P(x)-вероятность следующего токена порождаемое моделью LLM при промпте Х. И мы хотим, чтобы при генерации у нас было максимальное правдопобие P(yi/x). Те мы хотим, чтобы вероятнее был токен Yi, чем Yj. Значит, мы просто хотим напрямую от модели выполнить адаптацию к нашим предпочтениям. А как это можно сделать без этих наград и тп, но с оглядкой на хинты PPO и reward? Да просто, давайте, возьмём loss такой, что он будет давать предпочтение распределению вероятостей над Yi по отношению к Yj. Как это сделать? Да также как с рангами оценки в reward. Так мы получим loss=log(sigmoid[P(yi/x) - P(yj/x)]), но нам чет не хватает. В процедуре РРО для RLHF еще была важная фича. Это регуляризация на reference модель, т.е. на поведение предка (LLM на предыдущем шаге обучения). И выглядело это как вот такая компонента в лоссе: lambda*KLD(P/Pref). Ну один момент, давайте тоже красиво это вставим в промежуточный лосс DPO: Loss=log(sigm[Betta*log(Pi/Pi-ref)-Betta*log(Pj/Pj-ref)]), где Pi, j-ref это это вероятности токенов i,j для референсной модели при промпте X. Всë, мы получили искомый DPO лось, с штрафом/оглядкой на поведение референс модели и даже коэфициентик переняли. Зачем нам это? Для того, чтобы наследовать поведение модели предка в некоторой доле по связности изложения, знаниям и тп. Почему для обеих компонент лосса, так это ж оценка на одной и тойже модели, значит и штраф в обоих случаях. Конечно, это пояснение на пальцах, в статье есть целая выкладка в аппендиксе, которая доказывает, что такая функция ошибок действительно является дифференцируемой аппроксимацией над предпочтениями и вообще эквивалентна тому же что и в PPO+reward. Но это вы уже сами почитаете.
Hammasini ko'rsatish...
Direct Preference Optimization: Your Language Model is Secretly a...

While large-scale unsupervised language models (LMs) learn broad world knowledge and some reasoning skills, achieving precise control of their behavior is difficult due to the completely...

👍 26🔥 6🤡 2😐 2🤪 2
Да что вы знаете про настоящий найм и упорство HR!?!? 🤙
Hammasini ko'rsatish...
😁 63 7
Photo unavailableShow in Telegram
PureAI = 100 spartanians filippines.
Hammasini ko'rsatish...
😁 16 3
Photo unavailableShow in Telegram