Data Science by ODS.ai 🦜
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Mostrar más📈 Análisis del canal de Telegram Data Science by ODS.ai 🦜
El canal Data Science by ODS.ai 🦜 (@opendatascience) en el segmento lingüístico de Inglés es un actor destacado. Actualmente la comunidad reúne a 39 777 suscriptores, ocupando la posición 3 418 en la categoría Tecnologías y Aplicaciones y el puesto 16 118 en la región Rusia.
📊 Métricas de audiencia y dinámica
Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 39 777 suscriptores.
Según los últimos datos del 30 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -506, y en las últimas 24 horas de -15, conservando un alto alcance.
- Estado de verificación: No verificado
- Tasa de interacción (ER): El promedio de interacción de la audiencia es 4.73%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 2.20% de reacciones respecto al total de suscriptores.
- Alcance de las publicaciones: Cada publicación recibe en promedio 1 882 visualizaciones. En el primer día suele acumular 874 visualizaciones.
- Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 7.
- Intereses temáticos: El contenido se centra en temas clave como контекст, llm, claude, nvidia, api.
📝 Descripción y política de contenido
El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev”
Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 01 julio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.
Трансформеры используют механизм внимания на каждом слое. Модель может напрямую обращаться к любому из предыдущих токенов. Это требует вычислительных мощностей, зато позволяет идеально цитировать прочитанное.
Гибрид сохраняет несколько слоёв внимания, а остальные заменяет рекуррентными. Они читают текст строго слева направо и сохраняют его в виде сжатой памяти. Такая память не даёт точно обратиться к конкретному предыдущему токену, зато затраты на обработку остаются постоянными независимо от длины текста.Чтобы измерить разницу, обеим моделям подавали статьи, страницы Wikipedia, книги, научные работы, а также код на Python, HTML и LaTeX. На выходе фиксировали, насколько точно каждая модель предсказывает следующий токен. 🟡Результат Гибрид лучше предсказывает смысловые слова (существительные, глаголы и прилагательные). Он также превосходит чистый трансформер там, где нужно глубокое понимание контекста. Но его преимущество почти исчезало в случаях, когда дело доходит до точного цитирования. Чем длиннее был повтор, тем меньше становился разрыв. Здесь точнее оказывался трансформер.
В дополнительном прогоне с 3-мя моделями на 1В параметров (трансформером, гибридом и чистой рекуррентной моделью без внимания), выяснилось, что гибрид пасует перед точным повторением текста и закрывающими скобками в коде.🟡Выводы Первый: единый усреднённый показатель ошибки слишком груб для сравнения архитектур - различия видны только при разборе отдельных типов токенов. Второй: преимущество гибрида на смысловых словах связано со способностью RNN-слоёв отслеживать меняющееся состояние текста. @ai_machinelearning_big_data #AI #ML #LLM #Research #Ai2
# There is no need to write codeАвторы пришли к выводу, что для сложных инструментов необходимо сначала показать модели примеры правильных вызовов во время Cold Start. Сбор данных и обучение Авторы постарались выжать из опенсорсных данных сложный и разнообразный датасет. Собрав наборы вопросов, картинок и ответов, они выфильтровывают примеры, которые Qwen-2.5.VL-7B уже может решить без ошибок. На оставшихся примерах в качестве ground-truth собирают траектории фронтирных моделей. Для определения сложности семплов используют pass@k как с инструментами, так и без них, руководствуясь следующей логикой: 🔴если модель без инструментов решает задачу — задача не нужна в обучении; 🔴если модель с инструментами решает задачу редко — задача отправляется на RL-стадию; 🔴если модель с инструментами не решает задачу вовсе, то на RL она получит нулевой advantage, но траекторию решения полезно положить в ColdStart. В Cold Start авторы используют стандартный NLL, а в RL — DAPO с двумя ревордами: форматным (правильное форматирование CoT и вызова тулов) и на результат. Результаты Замеры показывают хороший рост на бенчмарках, особенно на CharXiv Reasoning (вопросы по инфографике), MathVerse (задачки по математике) и HRBench (поиск объектов на картинках с высоким разрешением) — около +5%, выше предыдущей версии и схожих конкурентов. С другой стороны, при сравнении с фронтирными моделями или топовыми китайскими VLM, разрыв остаётся огромным — в десятки процентов, а главный сценарий использования Python — Numerical Analysis (то есть продвинутый калькулятор). Аблейшены В статье есть ряд любопытных замеров. Например разбивка обучающих данных по категориям Perception/Reasoning/Search с тренировкой по разным сплитам. Интересный результат — на второй картинке: после RL количество вызовов становится меньше на тех же бенчмарках по сравнению с ColdStart. Это показывает, что на RL модель обучается выбирать инструмент «по сложности», а не детерминировано вызывать Python в любой ситуации. В итоге у авторов получилась хорошая база для дальнейших экспериментов на разных стадиях с открытыми данными, протоколом обучения и весами моделей. Разбор подготовил ❣ Борис Зимка CV Time
На ICML 2026 было подано 23 918 работ — вдвое больше, чем в 2025 году. Из них приняли 6 352 статьи (26,6%), а статус Spotlight получили только 536 работ — 2,2% от всех поданных заявок. Это статьи, которые получили самые высокие оценки программного комитета.Начинаем серию постов о принятых работах со Spotlight-статьи On Efficient Scaling of GNNs via IO-Aware Layers Implementations, посвящённой эффективному масштабированию графовых нейросетей. Что исследовали Авторы — Дарья Фомина из команды ML-инфраструктуры, Вячеслав Ждановский из команды разработки инференса, Фёдор Великонивцев из Yandex Research и студенты ШАД — исследуют, как ускорить обучение и инференс Graph Neural Networks на GPU. Несмотря на популярность таких моделей, их производительность часто ограничивается не вычислениями, а неэффективной работой с памятью на GPU и большим объёмом передачи данных. Что получилось Исследователи разработали набор GPU-ядер для наиболее популярных семейств графовых нейросетей — от графовых свёрток и агрегирующих операторов до современных архитектур, таких как Graph Transformers и GATv2. Эксперименты на крупных графах показывают заметное ускорение работы и снижение потребления памяти по сравнению с существующими решениями. Кроме того, авторы изучили влияние переупорядочивания вершин графа в памяти GPU и показали, что его эффективность зависит как от структуры графа, так и от особенностей доступа к данным. Статья уже выложена на Arxiv, а код — на GitHub. #YaICML2026 ML Underhood
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
