Data Science by ODS.ai 🦜

رفتن به کانال در Telegram

First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev

نمایش بیشتر

شبکه:Machinelearning روسيا16 053 فناوری و برنامه‌ها3 401...

📈 تحلیل کانال تلگرام Data Science by ODS.ai 🦜

کانال Data Science by ODS.ai 🦜 (@opendatascience) در بخش زبانی انگلیسی بازیگری فعال است. در حال حاضر جامعه شامل 39 839 مشترک است و جایگاه 3 401 را در دسته فناوری و برنامه‌ها و رتبه 16 053 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 39 839 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 26 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر -492 و در ۲۴ ساعت گذشته برابر -16 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

وضعیت تأیید: تأیید نشده
نرخ تعامل (ER): میانگین تعامل مخاطب 4.77% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 2.28% واکنش نسبت به کل مشترکان کسب می‌کند.
دسترسی پست‌ها: هر پست به طور میانگین 1 899 بازدید دریافت می‌کند. در اولین روز معمولاً 910 بازدید جمع‌آوری می‌شود.
واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 7 است.
علایق موضوعی: محتوا بر موضوعات کلیدی مانند контекст, llm, claude, nvidia, api تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
“First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev”

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 27 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

39 839

مشترکین

-1624 ساعت

-1057 روز

-49230 روز

1 899

نمایش های پست

~ 91024 ساعت

~ 1 03848 ساعت

4.77%

نرخ مشارکت

~ 1

پست های در روز

Ads index

beta

در حال بارگیری داده...

کانال‌های مشابه

gonzo-обзоры ML статей

10.6K

DeepSchool

کانال‌های بیشتر

اشارات ورودی و خروجی

---

جذب مشترکین

ژوئن '26

+43

در 0 کانال‌ها

مه '26

+47

در 0 کانال‌ها

Get PRO

آوریل '26

+56

در 0 کانال‌ها

Get PRO

مارس '26

+71

در 0 کانال‌ها

Get PRO

فوریه '26

+99

در 2 کانال‌ها

Get PRO

ژانویه '26

+63

در 0 کانال‌ها

Get PRO

دسامبر '25

+86

در 0 کانال‌ها

Get PRO

نوامبر '25

+71

در 0 کانال‌ها

Get PRO

اکتبر '25

+73

در 0 کانال‌ها

Get PRO

سپتامبر '25

+73

در 3 کانال‌ها

Get PRO

اوت '25

+72

در 0 کانال‌ها

Get PRO

ژوئیه '25

+77

در 2 کانال‌ها

Get PRO

ژوئن '25

+78

در 0 کانال‌ها

Get PRO

مه '25

+55

در 0 کانال‌ها

Get PRO

آوریل '25

+83

در 0 کانال‌ها

Get PRO

مارس '25

+66

در 0 کانال‌ها

Get PRO

فوریه '25

+52

در 0 کانال‌ها

Get PRO

ژانویه '25

+65

در 1 کانال‌ها

Get PRO

دسامبر '24

+60

در 1 کانال‌ها

Get PRO

نوامبر '24

+109

در 0 کانال‌ها

Get PRO

اکتبر '24

+84

در 0 کانال‌ها

Get PRO

سپتامبر '24

+288

در 0 کانال‌ها

Get PRO

اوت '24

+172

در 1 کانال‌ها

Get PRO

ژوئیه '24

+267

در 0 کانال‌ها

Get PRO

ژوئن '24

+181

در 0 کانال‌ها

Get PRO

مه '24

+603

در 2 کانال‌ها

Get PRO

آوریل '24

+497

در 2 کانال‌ها

Get PRO

مارس '24

+453

در 0 کانال‌ها

Get PRO

فوریه '24

+481

در 0 کانال‌ها

Get PRO

ژانویه '24

+527

در 0 کانال‌ها

Get PRO

دسامبر '23

+585

در 0 کانال‌ها

Get PRO

نوامبر '23

+752

در 0 کانال‌ها

Get PRO

اکتبر '23

+719

در 1 کانال‌ها

Get PRO

سپتامبر '23

+992

در 0 کانال‌ها

Get PRO

اوت '23

+528

در 0 کانال‌ها

Get PRO

ژوئیه '23

+518

در 0 کانال‌ها

Get PRO

ژوئن '23

+380

در 0 کانال‌ها

Get PRO

مه '23

+447

در 0 کانال‌ها

Get PRO

آوریل '23

+557

در 0 کانال‌ها

Get PRO

مارس '23

+494

در 0 کانال‌ها

Get PRO

فوریه '23

+513

در 0 کانال‌ها

Get PRO

ژانویه '23

+655

در 0 کانال‌ها

Get PRO

دسامبر '22

+524

در 0 کانال‌ها

Get PRO

نوامبر '22

+435

در 0 کانال‌ها

Get PRO

اکتبر '22

+482

در 0 کانال‌ها

Get PRO

سپتامبر '22

+354

در 0 کانال‌ها

Get PRO

اوت '22

+670

در 0 کانال‌ها

Get PRO

ژوئیه '22

+554

در 0 کانال‌ها

Get PRO

ژوئن '22

+469

در 0 کانال‌ها

Get PRO

مه '22

+697

در 0 کانال‌ها

Get PRO

آوریل '22

+762

در 0 کانال‌ها

Get PRO

مارس '22

+755

در 0 کانال‌ها

Get PRO

فوریه '22

+419

در 0 کانال‌ها

Get PRO

ژانویه '22

+473

در 0 کانال‌ها

Get PRO

دسامبر '21

+447

در 0 کانال‌ها

Get PRO

نوامبر '21

+463

در 0 کانال‌ها

Get PRO

اکتبر '21

+678

در 0 کانال‌ها

Get PRO

سپتامبر '21

+945

در 0 کانال‌ها

Get PRO

اوت '21

+627

در 0 کانال‌ها

Get PRO

ژوئیه '21

+747

در 0 کانال‌ها

Get PRO

ژوئن '21

+652

در 0 کانال‌ها

Get PRO

مه '21

+837

در 0 کانال‌ها

Get PRO

آوریل '21

+636

در 0 کانال‌ها

Get PRO

مارس '21

+817

در 0 کانال‌ها

Get PRO

فوریه '21

+984

در 0 کانال‌ها

Get PRO

ژانویه '21

+1 687

در 0 کانال‌ها

Get PRO

دسامبر '20

+40 473

در 0 کانال‌ها

تاریخ	رشد مشترکین	اشارات	کانال‌ها
27 ژوئن	+3
26 ژوئن	0
25 ژوئن	+2
24 ژوئن	+4
23 ژوئن	+3
22 ژوئن	+1
21 ژوئن	+2
20 ژوئن	+4
19 ژوئن	+1
18 ژوئن	+4
17 ژوئن	+2
16 ژوئن	+2
15 ژوئن	+3
14 ژوئن	+1
13 ژوئن	+1
12 ژوئن	+2
11 ژوئن	+2
10 ژوئن	0
09 ژوئن	+1
08 ژوئن	+1
07 ژوئن	0
06 ژوئن	0
05 ژوئن	+1
04 ژوئن	+1
03 ژوئن	0
02 ژوئن	+1
01 ژوئن	+1

پست‌های کانال

Repost from ML Underhood

Ускорили перевод видео в Яндекс Браузере в 1,5 раза — задистиллировали диффузионный декодер TTS Делимся свежей хабростатьёй о том, как ускорили синтез речи при переводе видео в Яндекс Браузере. Зачем это понадобилось, где были подводные камни и что в итоге уехало в прод — рассказал ML-инженер команды TTS в Яндексе Цырен-Доржо Цыбиков. С чего стартовали Внутри TTS — каскад из трёх частей: 🔴языковая модель предсказывает аудиотокены по тексту; 🔴диффузионный декодер восстанавливает мел-спектрограмму из латентов; 🔴вокодер превращает её в звуковую волну. После того как оптимизировали языковую модель (она долго была самой тяжёлой), узким местом стал декодер латентов: его forward pass запускается на каждом шаге семплинга, а шагов — десятки. Его и взялись ускорять. Что сделали с аттеншном Прогнали инференс через torch.profiler и увидели, что время съедают рукописный QKVAttention и пересчёт RelativePositionBias на каждой итерации. Дальше — по нарастающей: 🔴перевели self-attention на SDPA (memory-efficient) и закешировали bias → 2,5× на уровне QKVAttention и почти вдвое меньше GPU-памяти, всё без переобучения; 🔴проверили гипотезу RoPE + FlashAttention — и честно её похоронили: на наших размерах тензоров она не обогнала кешированный baseline. Зато получили полезный отрицательный результат; 🔴как более сильную архитектуру посмотрели DiT (на него уже перешли F5-TTS, CosyVoice3): качество выше, латенси сопоставимое. Главный буст — дистилляция флоуматчинга Самое интересное — поверх флоуматчинг-декодера навесили две дистилляции: 🔴CFG-distill: вместо двух forward pass'ов на шаг (conditional + unconditional) student воспроизводит guided-предсказание за один проход; 🔴progressive distillation: student учится за один шаг делать то, что teacher делает за два, и число шагов итеративно уменьшается вдвое. Вместе это срезало число шагов семплинга с ~20 до 3 при паритете качества по SBS (наивное снижение шагов так не умеет — звук заметно проседает). Бонус progressive distillation — почти не пришлось трогать прод-код инференса, поменяли число шагов в конфиге. Итог Ускорение флоуматчинга дало 1,5× к скорости видеоперевода — теперь пользователи получают переведённое видео в полтора раза быстрее. Подробности, замеры и блок с выводами — на Хабре. ML Underhood

2	+2 📌 Ai2: Гибридные модели и трансформеры по-разному работают с текстом Институт Аллена опубликовал работу, в которой выяснили, как архитектура моделей влияет на понимание текста. Спойлер: гибридные модели лучше улавливают смысл, а классические трансформеры точнее копируют данные. Для эксперимента взяли 2 собственные языковые модели - Olmo 3 и Olmo Hybrid. Обе обучались абсолютно одинаково, отличалось лишь их внутреннее устройство. 🟢Olmo 3: классический decoder-only трансформер 🟠Olmo Hybrid: гибрид c чередованием слоев RNN и трансформеров в пропорции 3:1 Трансформеры используют механизм внимания на каждом слое. Модель может напрямую обращаться к любому из предыдущих токенов. Это требует вычислительных мощностей, зато позволяет идеально цитировать прочитанное. Гибрид сохраняет несколько слоёв внимания, а остальные заменяет рекуррентными. Они читают текст строго слева направо и сохраняют его в виде сжатой памяти. Такая память не даёт точно обратиться к конкретному предыдущему токену, зато затраты на обработку остаются постоянными независимо от длины текста. Чтобы измерить разницу, обеим моделям подавали статьи, страницы Wikipedia, книги, научные работы, а также код на Python, HTML и LaTeX. На выходе фиксировали, насколько точно каждая модель предсказывает следующий токен. 🟡Результат Гибрид лучше предсказывает смысловые слова (существительные, глаголы и прилагательные). Он также превосходит чистый трансформер там, где нужно глубокое понимание контекста. Но его преимущество почти исчезало в случаях, когда дело доходит до точного цитирования. Чем длиннее был повтор, тем меньше становился разрыв. Здесь точнее оказывался трансформер. В дополнительном прогоне с 3-мя моделями на 1В параметров (трансформером, гибридом и чистой рекуррентной моделью без внимания), выяснилось, что гибрид пасует перед точным повторением текста и закрывающими скобками в коде. 🟡Выводы Первый: единый усреднённый показатель ошибки слишком груб для сравнения архитектур - различия видны только при разборе отдельных типов токенов. Второй: преимущество гибрида на смысловых словах связано со способностью RNN-слоёв отслеживать меняющееся состояние текста. @ai_machinelearning_big_data #AI #ML #LLM #Research #Ai2	880
3	DeepEyesV2: Toward Agentic Multimodal Model В последний год в статьях всё чаще затрагивают идею агентного зрения, где VLM используют в решении задач не только язык, но и создают новые изображения с помощью внешних инструментов. Сегодня разбираем DeepEyesV2 — открытый бейзлайн мультимодального агентного ризонера. Авторы собирают его на основе опенсорсных данных в стадиях ColdStart и RL, и показывают рост по многим бенчмаркам. Бонусом — делятся данными неудачных подходов и проводят интересные ablation studies. RL без Cold Start В предыдущей DeepEyes (V1) авторы через RL обучали модель использовать специализированные инструменты — функции кропа картинок и зума. В V2 попробовали тот же подход на сложных инструментах (Python и картиночном поиске) — и получили негативный результат. Оказалось, что даже если до RL модель (в данном случае Qwen-2.5VL-7B) выполняла вызовы, после — разучивалась это делать (!). Причина в форматных ошибках: вызовы сложных инструментов требуют точного синтаксиса, в отсутствие которого модель получала штрафы от реворда форматирования. А при добавлении реворда на вызов, она обучалась хакать его — генерировать бессмысленные (но гарантированно корректные) вызовы Python, вроде: # There is no need to write code Авторы пришли к выводу, что для сложных инструментов необходимо сначала показать модели примеры правильных вызовов во время Cold Start. Сбор данных и обучение Авторы постарались выжать из опенсорсных данных сложный и разнообразный датасет. Собрав наборы вопросов, картинок и ответов, они выфильтровывают примеры, которые Qwen-2.5.VL-7B уже может решить без ошибок. На оставшихся примерах в качестве ground-truth собирают траектории фронтирных моделей. Для определения сложности семплов используют pass@k как с инструментами, так и без них, руководствуясь следующей логикой: 🔴если модель без инструментов решает задачу — задача не нужна в обучении; 🔴если модель с инструментами решает задачу редко — задача отправляется на RL-стадию; 🔴если модель с инструментами не решает задачу вовсе, то на RL она получит нулевой advantage, но траекторию решения полезно положить в ColdStart. В Cold Start авторы используют стандартный NLL, а в RL — DAPO с двумя ревордами: форматным (правильное форматирование CoT и вызова тулов) и на результат. Результаты Замеры показывают хороший рост на бенчмарках, особенно на CharXiv Reasoning (вопросы по инфографике), MathVerse (задачки по математике) и HRBench (поиск объектов на картинках с высоким разрешением) — около +5%, выше предыдущей версии и схожих конкурентов. С другой стороны, при сравнении с фронтирными моделями или топовыми китайскими VLM, разрыв остаётся огромным — в десятки процентов, а главный сценарий использования Python — Numerical Analysis (то есть продвинутый калькулятор). Аблейшены В статье есть ряд любопытных замеров. Например разбивка обучающих данных по категориям Perception/Reasoning/Search с тренировкой по разным сплитам. Интересный результат — на второй картинке: после RL количество вызовов становится меньше на тех же бенчмарках по сравнению с ColdStart. Это показывает, что на RL модель обучается выбирать инструмент «по сложности», а не детерминировано вызывать Python в любой ситуации. В итоге у авторов получилась хорошая база для дальнейших экспериментов на разных стадиях с открытыми данными, протоколом обучения и весами моделей. Разбор подготовил ❣ Борис Зимка CV Time	857
4	Задача credit assignment и подходы к её решению Когда модель успешно выполняет задачу, неплохо бы понимать, какие именно действия привели к положительному результату. Выяснить это — задача credit assignment, о чём существует немало статей. Есть несколько основных подходов к проблеме: • Temporal-difference (TD) — вклад текущего шага оценивается как разница оценки награды на текущем шаге и дисконтированной оценки на следующем. • Beginning/tail — предполагает апдейт только токенов в начале и конце роллаутов. • Энтропийный — предполагает использование в RL токенов с высокой энтропией и низкой вероятностью. Это не все подходы, но сегодня кратко поговорим о них и статьях, в которых они реализуются. Exploiting Tree Structure for Credit Assignment in RL Training of LLMs В статье предложили temporal-difference-метод TEMPO. Для группы роллаутов строится префиксное дерево, в котором для каждого префикса оценивается средняя награда V(s). Авторы модифицируют GRPO-advantage, добавляя TD=V(s+1)-V(s). TD отлична от нуля только в точках ветвления, которые составляют незначительную часть токенов. Улучшение на математических бенчмарках составляет от 2 до 7 пп. Token-Efficient RL for LLM Reasoning В статье реализуется аналогичный подход с TD. Авторы предлагают два метода. Первый — S-GRPO, в рамках которого обновляются только префиксы роллаутов и семплируются K токенов из продолжения, но последнее можно рассматривать как регуляризацию. Второй метод из статьи — T-SPMO. Он аналогичен TEMPO, но апдейт делается только в точках ветвления префиксного дерева. Подходы показывают хорошие приросты качества на бенчмарках с умножением трёхзначных чисел и задачах вербальной арифметики. Well Begun, Half Done: Reinforcement Learning with Prefix Optimization for LLM Reasoning Авторы отмечают, что старт генерации определяет итоговое качество. Поэтому предлагают оптимизировать только префикс, постепенно увеличивая его длину. Для снижения дисперсии для каждого префикса семплируют несколько продолжений, а затем усредняют по ним награду. Подход выигрывает у обычного GRPO на AIME на 8–16% в зависимости от модели. Эксперименты проводили на разных версиях Qwen3. GRPO-λ: Credit Assignment improves LLM Reasoning Предлагают умножать advantage на вес, зависящий от позиции в тексте. В статье рассматривают два варианта веса: both, при котором обновляются и начало, и конец роллаута; и recent, где с экспоненциальным затуханием обновляется только конец. Подход позволяет получить прибавку 3–4 пп по сравнению с обычным GRPO. Beyond High-Entropy Exploration: Correctness-Aware Low-Entropy Segment-Based Advantage Shaping for Reasoning LLMs Авторы делят роллауты на сегменты трёх типов: токены с высокой энтропией, короткие сегменты с низкой и длинные с низкой. Показана польза от оптимизации не только высокоэнтропийных токенов, но и низкоэнтропийных сегментов, стабильно встречающихся в положительных роллаутах. Метод даёт значительный прирост поверх GRPO на трёх математических бенчмарках. Разбор подготовил ❣ Георгий Иванов Душный NLP	1 045
5	⚡️ OpenAI создала собственный чип - Jalapeño, разработанный для инференса. На это ушло всего девять месяцев. Цитата из блога: «OpenAI спроектировала чип с нуля, опираясь на глубокое понимание фундаментальных принципов LLM и учитывая свою дорожную карту моделей, kernel-оптимизаций, serving-систем и продуктовых потребностей. В этом ей помогали партнёры Broadcom и Celestica, которые участвовали в индустриализации платформы: реализации чипа, проектировании плат, интеграции rack-систем, высокопроизводительных сетей и масштабируемых производственных процессов». https://openai.com/index/openai-broadcom-jalapeno-inference-chip/ @ai_machinelearning_big_data	1 185
6	Gryphon: A Unified Architecture for Semantic-ID Generation and Item-Level Scoring in Industrial Recommendations Разбираем статью о гибридной генеративно-ранжирующей модели в рекомендациях Яндекс Музыки. О ней на Data Fest рассказала Дарья Тихонович, руководитель Яндекс RND-команды, которая разрабатывает новые рекомендательные технологии. Генеративные рекомендации на базе Semantic IDs позволяют применять подход next token prediction к огромным каталогам, где невозможно напрямую выбирать следующий объект из миллионов вариантов. Вместо того чтобы предсказывать конкретный трек сразу, модель генерирует его поэтапно через последовательность семантических токенов. Например, сначала определяет жанр (русский рок), затем исполнителя («Сплин»), а потом конкретную композицию («Летучий Голландец»). Такие токены получают с помощью иерархической кластеризации контентных эмбеддингов объектов, где каждый уровень уточняет описание айтема. В результате каждый объект представлен компактным Semantic ID, а генеративная модель (например, TIGER от Google) предсказывает не сам объект, а последовательность его семантических токенов, благодаря чему возможно обучение и использование рексистем на многомиллионных каталогах. Но у генеративных рекомендательных моделей есть ряд проблем: 🔴Коллизии Semantic IDs — разные айтемы могут получать одинаковые семантические идентификаторы, из-за чего модель не различает их. 🔴Слой разрешения коллизий не масштабируется — работает офлайн, но не подходит для динамического каталога, который постоянно пополняется. 🔴Без разрешения коллизий падает качество — при удалении этого слоя качество может снижаться в разы. 🔴Нужно расширять пространство токенов — для лучшей уникализации нужны более крупные кодбуки и больше семантических токенов. 🔴Копятся ошибки генерации — ошибка в раннем токене ведёт к неверной оценке всей траектории. 🔴Потолок качества при длинных Semantic ID — увеличение числа токенов увеличивает уникализацию, но перестаёт улучшать качество рекомендаций. Gryphon: генерация + ранжирование в одной модели Gryphon — гибридная архитектура, которая объединяет генерацию кандидатов и их ранжирование. В основе encoder-decoder: по истории пользователя модель через beam search генерирует набор Semantic IDs. Чтобы избежать накопления ошибок при генерации (Semantic Drift), в beam search используется PRM (Process Reward Model), которая оценивает траектории генерации и помогает выбирать только релевантные пути для продолжения. После генерации все Semantic IDs отображаются в общем пуле айтемов-кандидатов, релевантность которых оценивается через ORM (Output Reward Model). В результате, генеративная часть отвечает за кандидатогенерацию на уровне Semantic ID, а ORM — за финальное ранжирование айтемов. PRM и ORM — это легковесные модули на основе cross-attention, которые переиспользуют выходы энкодера генеративной модели, и поэтому лишь незначительно растят общее количество параметров и стоимость инференса. При обучении ORM на задачу next-item-prediction в офлайне Gryphon показал +20% прироста Recal@1000 относительно Argus. Более того, модель опередила по качеству полный softmax по каталогу Яндекс Музыки. В A/B-тестах Gryphon полностью заменил стек кандидатогенерации и преранжирования Яндекс.Музыки (15+ моделей), сократив число кандидатов для финального ранкера с 3000 до 1000 без потери качества. В сравнении с генеративным бейзлайном модель дала +3,6% команд Like, сохранила продуктовые метрики и увеличила разнообразие рекомендаций. Модель работает в рантайме и регулярно дообучается. Семантический индекс строится на мультимодальных эмбеддингах (аудио, текст, метаданные), полученных с помощью Qwen 2.5 Omni и дополнительно обученных на коллаборативном InfoNCE-лоссе. Теперь у нас есть архитектура, которая объединяет генерацию и ранжирование и уже показывает качество значительно выше классических кандидатогенераторов и полного softmax. Сейчас Gryphon активно развивается в экспериментах с end-to-end-рекомендациями и кросс-доменными генеративными моделями Яндекса. @RecSysChannel Разбор подготовила ❣ Дарья Тихонович	1 129
7	Везём восемь статей на основной трек ICML! В этом году наши исследователи представят на ICML восемь работ в основной программе и ещё восемь — на воркшопах. На ICML 2026 было подано 23 918 работ — вдвое больше, чем в 2025 году. Из них приняли 6 352 статьи (26,6%), а статус Spotlight получили только 536 работ — 2,2% от всех поданных заявок. Это статьи, которые получили самые высокие оценки программного комитета. Начинаем серию постов о принятых работах со Spotlight-статьи On Efficient Scaling of GNNs via IO-Aware Layers Implementations, посвящённой эффективному масштабированию графовых нейросетей. Что исследовали Авторы — Дарья Фомина из команды ML-инфраструктуры, Вячеслав Ждановский из команды разработки инференса, Фёдор Великонивцев из Yandex Research и студенты ШАД — исследуют, как ускорить обучение и инференс Graph Neural Networks на GPU. Несмотря на популярность таких моделей, их производительность часто ограничивается не вычислениями, а неэффективной работой с памятью на GPU и большим объёмом передачи данных. Что получилось Исследователи разработали набор GPU-ядер для наиболее популярных семейств графовых нейросетей — от графовых свёрток и агрегирующих операторов до современных архитектур, таких как Graph Transformers и GATv2. Эксперименты на крупных графах показывают заметное ускорение работы и снижение потребления памяти по сравнению с существующими решениями. Кроме того, авторы изучили влияние переупорядочивания вершин графа в памяти GPU и показали, что его эффективность зависит как от структуры графа, так и от особенностей доступа к данным. Статья уже выложена на Arxiv, а код — на GitHub. #YaICML2026 ML Underhood	1 402
8	Привет! Встречайте новый выпуск "Капитанского мостика" 21.06.2026. Участники подкаста обсуждают последние новости индустрии искусственного интеллекта, влияние технологий на рынок и геополитические аспекты развития AI. Традиционно ведущие подкаста - Валентин Малых и Дмитрий Колодезев, в гостях у капитанов был Виталий Казунов. Смотрите видео на каналах ⤵️ ODS VK Video ODS YouTube 📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).	1 640
9	Occupancy Grid Prediction [1/2] Сегодня начнём серию постов о 3D occupancy perception. В первой части обсудим особенности подхода и общие тренды, а в следующей — разберём несколько актуальных работ. Для этого подхода сцену представляют плотной 3D-решёткой (вокселями) с семантикой и метками «занято» или «пусто». В отличие от BEV, в 3D occupancy perception явно моделируют высоту, что критично для сложных городских сцен. Например, для случаев, когда 3D occupancy справляется лучше, чем 2D: небольшие камни или куски мусора на дороге, которые проще пропустить между колёс, а не объезжать. Или края досок, вылезающие за пределы грузовика: если они достаточно высоко, легковой автономный автомобиль без проблем под ними проедет. В общих чертах стек охватывает технологии: 🔴 от 2D→3D-преобразований (проекция из 3D на камеру и обратно с предсказанием глубины, кросс-аттеншн); 🔴 до пространственно-временного фьюжна признаков с нескольких камер и мультимодальной интеграции камеры, лидара и радара. Среди популярных методов обучения — self-supervised, weak, strong. Среди метрик — IoU, MIoU и ray-MIoU (это IoU вдоль каждого луча камеры). Ключевыми датасетами считаются nuScenes, Waymo и SemanticKITTY. Тренд последних лет — стремительный рост vision-centric-методов. Камеры дешевеют, текстуры улучшаются, а за счёт продвинутого 2D→3D и temporal fusion разница в качестве предсказаний на основе данных камер и лидаров стремительно сокращается. Но лидар по-прежнему обеспечивает наилучшую геометрию, а мультимодальные схемы ещё не всегда стабильно опережают одномодальные — потенциал фьюжна до сих пор не раскрыт. При грамотной оптимизации (облегчённые головы, разреженные представления, ускорение инференса) можно получить ~10–13 FPS на Occ3D-nuScenes при MIoU около 40%. Это уже близко к практическим требованиям. Главные вызовы подхода: реальное время на бортовом железе, робастность к погодным условиям, окклюзиям и отказам сенсоров, а также обобщение без дорогой плотной 3D-разметки. На горизонте — occupancy flow для моделирования динамики, модель мира и использование occupancy как единого представления для восприятия, предсказания и планирования. В следующем посте разберём несколько актуальных работ, посвящённых 3D occupancy perception. Разбор подготовил ❣️ Иван Лунев 404 driver not found	1 908
10	GenRec: A Preference-Oriented Generative Framework for Large-Scale Recommendation Разбираем статью от команды JD App — крупного китайского маркетплейса. Работа небольшая, но в ней есть несколько интересных идей на тему генеративных рекомендаций. Обычный Next Item Prediction плохо соответствует тому, как пользователь в действительности взаимодействует со страницей. Юзер видит набор товаров, кликает, покупает, скроллит — и порядок этих действий не всегда отражает реальные намерения. Также есть проблемы логирования: события могут записываться не в том порядке, в котором пользователь их совершал. Авторы предлагают перейти от Next Item Prediction к Page-Wise Next Token Prediction. Вместо того чтобы обучаться на отдельных действиях, модель рассматривает сразу всю страницу и все действия пользователя на ней. Действия сортируются по важности: покупки, клики, показы. Дальше модель делает один forward pass и суммирует лог-пробы всех действий. За счёт этого сигнал становится плотнее, а проблема неконсистентности между действиями и их логированием уменьшается. Вторая часть работы посвящена сжатию длинных последовательностей. Каждый айтем представляют тремя семантическими id, поэтому без сжатия вычислительные затраты значительны. Чтобы сократить длину последовательности, используют Token Merger: конкатенируют три семантических токена и пропускают через линейную проекцию, получая один токен вместо трёх. Между семантиками одного айтема остаются разделительные токены, поэтому последовательность уменьшается не в три, а в два раза без сильной просадки качества. Сами семантики получают через мультимодальный Qwen2.5-VL, добавляют коллаборативный сигнал и затем применяют residual quantization с K-means, получая три кодбука семантических токенов. Третья часть — алайнмент через модификацию GRPO. Авторы используют preference model, которая оценивает айтемы из роллаутов и выдаёт реворд. Это нужно потому, что реальные пользовательские сигналы вроде кликов слишком спарсовые. Но при этом preference model может давать высокие скоры нерелевантным айтемам, поэтому добавляют gating-механизм, который зануляет реворд для нерелевантных пользователю рекомендаций. Если пользователь действительно кликал или покупал айтемы из роллаута, его реворд дополнительно повышается — таким объектам назначают максимальный скор внутри группы. Дальше эти реворды используют в обычной формуле GRPO для подсчёта advantage. Вместо KL-регуляризации используют NLL-регуляризацию. Основной прирост качества даёт именно Page-Wise-NTP. Когда сравнивают с LC-Rec на одинаковом backbone (Qwen2.5-3B) метрики выше. Token merger немного ухудшает качество, что логично — часть информации теряется при сжатии семантик. Интересный момент при скейлинге. При переходе от 1,5B к 3B качество сильно выросло, а дальше — почти нет. Авторы связывают это с тем, что для генеративных рекомендаций важнее глубина модели, чем увеличение hidden size. В онлайне получились большие приросты: около +9,5% по кликам и +8,7% по транзакциям. В аблейшнах видно, что основной вклад в RL-части даёт gating-механизм: без него reward alignment работает заметно хуже и больше галлюцинаций с невалидными айтемами. @RecSysChannel Разбор подготовила ❣ Вероника Иванова	1 687
11	🛎 Открыли регистрацию на Practical ML Conf 2026 Вы ждали и мы сделали — пора регистрироваться на главную конференцию по ML. На Practical ML Conf 2026 традиционно будем говорить о том, как машинное обучение влияет на бизнес и продукт и как разные практики можно применить в своей работе. 📆Встретимся 19 сентября в Москве и онлайн. Что в программе: ⚪️ Доклады независимых экспертов и разработчиков разных компаний ⚪️ Keynotes, о которых расскажем позже ⚪️ Мастер-классы крутых инженеров ⚪️ Знакомство с сервисами Яндекса, активности и подарки от них ⚪️ Дискуссии о трендах и будущем ML В этом году у нас случился абсолютный рекорд по количеству заявок от докладчиков, и прямо сейчас среди них мы выбираем лучшие. Точно можем сказать, что программа будет очень сильной! 🔳 Регистрируйтесь по ссылке — количество офлайн-мест ограничено, так что не откладывайте с этим. 🔗 Следите за новостями Practical ML Conf в канале конференции. Подписывайтесь: 💬 @Yandex4ML 📹 @YandexML	1 614
12	📌В DeepMind прикинули пути развития сверхинтеллекта Исследователи Google вместе с коллегами из нескольких университетов выкатили визионерский доклад, в котором пытаются понять, куда кривая вывезет, когда ИИ достигнет AGI и пойдет дальше в светлое ASI-будущее, отправляя целые коллективы топовых экспертов на обочину истории. В основе - оценка от Epoch AI: за последние 10 лет эффективный компьют рос примерно в 10 раз за год (и это еще консервативно). Отталкиваясь от этого, DeepMind выделяет 4 вектора перехода от AGI к ASI, которые вполне могут идти параллельно: 🟢Скейлинг: классическая накачка - больше вычислительных мощностей, огромные массивы данных и рост параметров моделей; 🟢Смена парадигмы: переход на принципиально новые алгоритмы, когда нынешние архитектуры упрутся в потолок; 🟢Рекурсивное самоулучшение: ИИ начинает сам оптимизировать свои алгоритмы, писать код и ускорять собственный R&D; 🟢Мульти-агентные системы: ASI станет результатом взаимодействия множества агентов. 🟡Нюанс в том, что этот праздник могут легко тормознуть Во-первых, качественные тексты для претрейна и дотюна тупо заканчиваются, а железо и сами исследования дорожают каждый месяц. Во-вторых, есть так называемый "барьер абстракции". Так как модели учатся на человеческих данных, далеко не факт, что они вообще способны порождать фундаментально новые концепты. Ну и регуляторы в любой момент могут прийти и заколотить гвозядми инициативу. 🟡Плюс ко всему, даже AGI не станет всезнающей сутью Его инференс и логика всё равно останутся зажаты законами физики, теорией сложности и математикой (привет проблеме остановки и теоремам Гёделя о неполноте). ИИ не сможет просто по щелчку пальцев выдать нам лекарство от старения или сшить квантовую механику с общей теорией относительности. Главный вывод в том, что надо готовиться к неопределенности. Да, 57 страниц - именно об этом. Не будет одной волшебной кнопки и резкого прыжка в матрицу. Нас ждет серия локальных трансформаций, а может статься и так, что AGI окажется просто очередной фичей с импактом не больше, чем у появления смартфона или интернета. @ai_machinelearning_big_data #AI #ML #AGI #ASI #Research #DeepMind	2 099
13	Reward-Driven Interaction: Enhancing Proactive Dialogue Agents through User Satisfaction Prediction Разбираем статью об улучшении диалоговых агентов с помощью «проактивности». Речь о способности системы в нужный момент задать уточняющий вопрос, если она понимает, что пользователь, скорее всего, останется недоволен ответом. Применяют обычный для голосового ассистента каскадный пайплайн: отдельный ASR, переформулировка запроса при необходимости, определение интента (намерения пользователя) и домена, формирование ответа-кандидата, TTS. Поверх этого работает диалог-менеджер, который решает, отдавать ответ сразу или сначала уточнить запрос. Для этого он пытается предсказать, будет ли пользователь недоволен на текущем шаге. Модель диалог-менеджера состоит из трёх веток, чьи представления конкатенируются и подаются в MLP-голову предсказания недовольства. Query-side. На вход: ASR-вывод, n-best гипотез и rewritten query. Для n-best гипотез считается attention pooling, чтобы собрать их в одно агрегированное представление. Эта ветка должна уловить расхождения между вариантами одного и того же запроса и тем самым помочь выявить возможные ASR-ошибки. Response-side. На вход: финальный запрос, ответ-кандидат и связанные с ним признаки. Эта ветка моделирует, насколько согласованы между собой пользовательский запрос и тот результат, который система собирается вернуть. Session-side. На вход: история взаимодействия и время отклика. Эта ветка извлекает признаки на уровне сессии — то есть паттерны, связанные с пользовательской неудовлетворенностью в ходе диалога. Проблема в том, что такой диалог-менеджер часто ошибается в обе стороны. Если он не задаёт уточняющий вопрос, где это нужно, пользователь получает плохой ответ. Если задаёт лишний — начинает раздражать. Когда модель выкатили в прод и посмотрели на реальные сессии, оказалось, что она хуже всего работает именно там, где обучающий сигнал слабее всего: 1) На ошибках ASR — распознавание часто даёт странные или редкие формулировки, которых мало в обучении, и диалог-менеджер плохо на них обобщается; 2) Редкие домены — на частых сценариях система работает лучше, а в QA и других long-tail-случаях заметно проседает. Авторы связывают это с тем, что здесь используются слабые метки, извлечённые из последующего поведения пользователя, а редких кейсов мало, чтобы основной сигнал сам научил модель устойчивым представлениям. Архитектуру авторы не меняют. Вместо этого усиливают обучение с помощью двух дополнительных задач. Первая — contrastive self-supervised learning. Схема, близка к SimCSE: один и тот же запрос дважды пропускается через энкодер с разным dropout, после чего полученные представления сближаются как positive pair, а остальные примеры в батче используются как negatives. За счёт этого модель становится устойчивее к ASR-шуму, редким вариантам запроса и вообще лучше переносит «кривые» формулировки. Вторая — классификация домена и интента. Для этого авторы берут сессионное представление, построенное по истории диалога, и учат отдельную голову предсказывать, к какому домену относится текущий запрос и какой у него интент. Эта задача нужна не сама по себе, а как дополнительный обучающий сигнал, заставляя модель лучше структурировать редкие сценарии и тем самым повышая качество в long-tail-доменах. В итоге всё обучается совместно: основной лосс на предсказание недовольства и два вспомогательных лосса с весами. Отдельный претрейн не требуется. Основной прирост возникает там, где у базовой модели были проблемы: в редких доменах и шумных запросах. В офлайне это особенно заметно в домене universal QA, где CLA растёт с 0,045 до 0,058. Онлайн-замер это подтверждает: в разборе тысячи сессий новая модель лучше выявляет ошибки ASR (38/119 против 30/119) и NLU (10/61 против 5/61). По сути, статья показывает практичный ход: если основной обучающий сигнал шумный и плохо покрывает редкие случаи, можно не усложнять архитектуру, а добавить вспомогательные задачи, которые делают представления устойчивее к ASR-ошибкам и полезнее для long-tail-доменов. Никита Боровко ❣ Специально для Speech Info	1 800
14	VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking Классические dense-подходы, применяемые поверх воксельных featuremap’ов требуют большого количества вычислений и пост-процессинга (например, NMS). Сегодня разберём статью о попытках оптимизировать это. Авторы предлагают решать задачу 3D-детекции на лидарных точках в fully-sparse режиме. Для построения такого детектора используют классический spconv-based лидарный бэкбон. Но с улучшениями: 🔴 В изначальный FPN добавили больше featuremap’ов в низком разрешении с последующим апсэмплом. Это значительно увеличило размер эффективного рецептивного поля. 🔴 В конец лидарного бэкбона добавили пуллинг по высоте. Вычислений стало меньше, но метрики не изменились. 🔴 Добавили spatially voxel pruning, «размазывающий» только воксели с достаточно большими магнитудами. 🔴 Кандидатов в боксы отбирали не NMS, а sparse-max-пуллингом. С точки зрения метрик это оказалось почти эквивалентной заменой. В статье много ablation’ов по всем предложенным изменениям. По результатам замеров на nuScenes, подход позволяет получить сравнимое с лидерами качество 3D-детекции при значительно лучшем latency. Разбор подготовил ❣️ Владимир Филипенко 404 driver not found	1
15	Привет! Представляем Вашему вниманию еженедельный выпуск подкаста "Капитанский мостик" 14.06.2026. Ведущие подкаста Валентин Малых и Дмитрий Колодезев обсуждают последние новости в области технологий, включая влияние США и Китая на развитие ИИ, регулирование и инвестиции в высокотехнологичные проекты, а также влияние глобальных долговых обязательств на мировой рынок. Смотрите видео на каналах ⤵️ ODS VK Video ODS YouTube 📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).	1 711
16	✔️ Moonshot AI и госбанк Китая выпустят карту с конвертацией трат в токены Разработчики Kimi совместно с неназванными государственным банком и платёжной системой открыли предрегистрацию на Kimi Credit Card. Вместо классического кэшбека держатели карты получат вычислительные квоты платформы Kimi. Баллы за покупки конвертируются в токены для оплаты работы агентов и доступа к платным функциям моделей. В качестве дополнительных бонусов владельцам карты обещают приоритетный доступ к тестированию новых релизов и приглашения на закрытые мероприятия. Запуск запланирован на июль 2026 года. @ai_machinelearning_big_data #news #ai #ml	1 703
17	Langswap становится Open Source! Как я уже много раз говорил, мы публикуем исходный код нашего перевода видео, который используется на сайте langswap.app. В коде в какой-то момент было много know-hows, но последняя итерация была больше на упрощение и на ускорение пайплайна. Сейчас под капотом там следующее: Сначала мы разделяем аудио на речь и фоновые звуки здесь https://github.com/langswap-app/langswap/blob/main/langswap/ml/speech_to_text_service/speech_to_text_manager.py Фоновые звуки (музыку, шум) нам нужно оставить как есть. Затем с помощью whisper распознаём всё что там есть. https://github.com/langswap-app/langswap/blob/main/langswap/ml/speech_to_text_service/asr_vad_client.py и уточняем границы распознанного с помощью VAD. Присваиваем сегментам спикера. Потом просим Gemma-4-E2B перевести нам всё и считаем гласные. Если сильно уехали по длине, просим гемму переделать 1-2 раза. https://github.com/langswap-app/langswap/blob/main/langswap/ml/translation_service/translator_llamacpp_client.py Потом, с новыми текстами, синтезируем речь через OmniVoice, используя исходный аудио сегмент как референс. https://github.com/langswap-app/langswap/blob/main/langswap/ml/text_to_speech_service/tts_omnivoice_client.py В конце, заменяем аудиодорожку на видео и добавляем watermark что переведено с помощью langswap и какой-то матери https://github.com/langswap-app/langswap/blob/main/langswap/ml/ffmpeg/__init__.py В целом, это довольно простой, казалось бы, пайплайн, но как же долго и много это раз переизобреталось, вносились новые ТТС системы, изобретались способы контроля длины речи. В последней итерации, я удалил большую часть кода, чтобы вам было проще ориентироваться и контрибьютить. https://github.com/langswap-app/langswap Обязательно ставьте лайк на репе! Мне это очень важно. Почитать про этот перевод на forbes: https://www.forbes.ru/tekhnologii/554358-masinal-naa-ozvucka-v-cem-zaklucautsa-problemy-ii-dublaza Спасибо что были подписаны всё это время!	1 949
18	VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking Классические dense-подходы, применяемые поверх воксельных featuremap’ов требуют большого количества вычислений и пост-процессинга (например, NMS). Сегодня разберём статью о попытках оптимизировать это. Авторы предлагают решать задачу 3D-детекции на лидарных точках в fully-sparse режиме. Для построения такого детектора используют классический spconv-based лидарный бэкбон. Но с улучшениями: 🔴 В изначальный FPN добавили больше featuremap’ов в низком разрешении с последующим апсэмплом. Это значительно увеличило размер эффективного рецептивного поля. 🔴 В конец лидарного бэкбона добавили пуллинг по высоте. Вычислений стало меньше, но метрики не изменились. 🔴 Добавили spatially voxel pruning, «размазывающий» только воксели с достаточно большими магнитудами. 🔴 Кандидатов в боксы отбирали не NMS, а sparse-max-пуллингом. С точки зрения метрик это оказалось почти эквивалентной заменой. В статье много ablation’ов по всем предложенным изменениям. По результатам замеров на nuScenes, подход позволяет получить сравнимое с лидерами качество 3D-детекции при значительно лучшем latency. Разбор подготовил ❣️ Владимир Филипенко 404 driver not found	1 965
19	+2 ⚡️Релиз Claude Fable 5 Бенчмарки выглядят очень солидно, верим ?) Молель уже доступна для пользователей. https://www.anthropic.com/news/claude-fable-5-mythos-5	2 106
20	Доброе утро! ☀️ Представляем Вашему вниманию двадцать второй выпуск подкаста "Капитанский мостик". Ведущие подкаста Валентин Малых и Дмитрий Колодезев обсуждают внедрение ИИ в программирование, влияние технологий на бизнес и общество, а также вопросы психического здоровья подростков с помощью чат-ботов. Смотрите видео на каналах ⤵️ ODS VK Video ODS YouTube 📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).	2 387

مشاهده همه پست‌ها