Data Science by ODS.ai 🦜
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Show more📈 Analytical overview of Telegram channel Data Science by ODS.ai 🦜
Channel Data Science by ODS.ai 🦜 (@opendatascience) in the English language segment is an active participant. Currently, the community unites 39 777 subscribers, ranking 3 418 in the Technologies & Applications category and 16 118 in the Russia region.
📊 Audience metrics and dynamics
Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 39 777 subscribers.
According to the latest data from 30 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -506 over the last 30 days and by -15 over the last 24 hours, overall reach remains high.
- Verification status: Not verified
- Engagement rate (ER): The average audience engagement rate is 4.73%. Within the first 24 hours after publication, content typically collects 2.20% reactions from the total number of subscribers.
- Post reach: On average, each post receives 1 882 views. Within the first day, a publication typically gains 874 views.
- Reactions and interaction: The audience actively supports content: the average number of reactions per post is 7.
- Thematic interests: Content is focused on key topics such as контекст, llm, claude, nvidia, api.
📝 Description and content policy
The author describes the resource as a platform for expressing subjective opinions:
“First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev”
Thanks to the high frequency of updates (latest data received on 01 July, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.
Трансформеры используют механизм внимания на каждом слое. Модель может напрямую обращаться к любому из предыдущих токенов. Это требует вычислительных мощностей, зато позволяет идеально цитировать прочитанное.
Гибрид сохраняет несколько слоёв внимания, а остальные заменяет рекуррентными. Они читают текст строго слева направо и сохраняют его в виде сжатой памяти. Такая память не даёт точно обратиться к конкретному предыдущему токену, зато затраты на обработку остаются постоянными независимо от длины текста.Чтобы измерить разницу, обеим моделям подавали статьи, страницы Wikipedia, книги, научные работы, а также код на Python, HTML и LaTeX. На выходе фиксировали, насколько точно каждая модель предсказывает следующий токен. 🟡Результат Гибрид лучше предсказывает смысловые слова (существительные, глаголы и прилагательные). Он также превосходит чистый трансформер там, где нужно глубокое понимание контекста. Но его преимущество почти исчезало в случаях, когда дело доходит до точного цитирования. Чем длиннее был повтор, тем меньше становился разрыв. Здесь точнее оказывался трансформер.
В дополнительном прогоне с 3-мя моделями на 1В параметров (трансформером, гибридом и чистой рекуррентной моделью без внимания), выяснилось, что гибрид пасует перед точным повторением текста и закрывающими скобками в коде.🟡Выводы Первый: единый усреднённый показатель ошибки слишком груб для сравнения архитектур - различия видны только при разборе отдельных типов токенов. Второй: преимущество гибрида на смысловых словах связано со способностью RNN-слоёв отслеживать меняющееся состояние текста. @ai_machinelearning_big_data #AI #ML #LLM #Research #Ai2
# There is no need to write codeАвторы пришли к выводу, что для сложных инструментов необходимо сначала показать модели примеры правильных вызовов во время Cold Start. Сбор данных и обучение Авторы постарались выжать из опенсорсных данных сложный и разнообразный датасет. Собрав наборы вопросов, картинок и ответов, они выфильтровывают примеры, которые Qwen-2.5.VL-7B уже может решить без ошибок. На оставшихся примерах в качестве ground-truth собирают траектории фронтирных моделей. Для определения сложности семплов используют pass@k как с инструментами, так и без них, руководствуясь следующей логикой: 🔴если модель без инструментов решает задачу — задача не нужна в обучении; 🔴если модель с инструментами решает задачу редко — задача отправляется на RL-стадию; 🔴если модель с инструментами не решает задачу вовсе, то на RL она получит нулевой advantage, но траекторию решения полезно положить в ColdStart. В Cold Start авторы используют стандартный NLL, а в RL — DAPO с двумя ревордами: форматным (правильное форматирование CoT и вызова тулов) и на результат. Результаты Замеры показывают хороший рост на бенчмарках, особенно на CharXiv Reasoning (вопросы по инфографике), MathVerse (задачки по математике) и HRBench (поиск объектов на картинках с высоким разрешением) — около +5%, выше предыдущей версии и схожих конкурентов. С другой стороны, при сравнении с фронтирными моделями или топовыми китайскими VLM, разрыв остаётся огромным — в десятки процентов, а главный сценарий использования Python — Numerical Analysis (то есть продвинутый калькулятор). Аблейшены В статье есть ряд любопытных замеров. Например разбивка обучающих данных по категориям Perception/Reasoning/Search с тренировкой по разным сплитам. Интересный результат — на второй картинке: после RL количество вызовов становится меньше на тех же бенчмарках по сравнению с ColdStart. Это показывает, что на RL модель обучается выбирать инструмент «по сложности», а не детерминировано вызывать Python в любой ситуации. В итоге у авторов получилась хорошая база для дальнейших экспериментов на разных стадиях с открытыми данными, протоколом обучения и весами моделей. Разбор подготовил ❣ Борис Зимка CV Time
На ICML 2026 было подано 23 918 работ — вдвое больше, чем в 2025 году. Из них приняли 6 352 статьи (26,6%), а статус Spotlight получили только 536 работ — 2,2% от всех поданных заявок. Это статьи, которые получили самые высокие оценки программного комитета.Начинаем серию постов о принятых работах со Spotlight-статьи On Efficient Scaling of GNNs via IO-Aware Layers Implementations, посвящённой эффективному масштабированию графовых нейросетей. Что исследовали Авторы — Дарья Фомина из команды ML-инфраструктуры, Вячеслав Ждановский из команды разработки инференса, Фёдор Великонивцев из Yandex Research и студенты ШАД — исследуют, как ускорить обучение и инференс Graph Neural Networks на GPU. Несмотря на популярность таких моделей, их производительность часто ограничивается не вычислениями, а неэффективной работой с памятью на GPU и большим объёмом передачи данных. Что получилось Исследователи разработали набор GPU-ядер для наиболее популярных семейств графовых нейросетей — от графовых свёрток и агрегирующих операторов до современных архитектур, таких как Graph Transformers и GATv2. Эксперименты на крупных графах показывают заметное ускорение работы и снижение потребления памяти по сравнению с существующими решениями. Кроме того, авторы изучили влияние переупорядочивания вершин графа в памяти GPU и показали, что его эффективность зависит как от структуры графа, так и от особенностей доступа к данным. Статья уже выложена на Arxiv, а код — на GitHub. #YaICML2026 ML Underhood
Available now! Telegram Research 2025 — the year's key insights 
