Data Science by ODS.ai 🦜
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Ko'proq ko'rsatish📈 Telegram kanali Data Science by ODS.ai 🦜 analitikasi
Data Science by ODS.ai 🦜 (@opendatascience) Ingliz til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 39 777 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 3 418-o'rinni va Rossiya mintaqasida 16 118-o'rinni egallagan.
📊 Auditoriya ko‘rsatkichlari va dinamika
невідомо sanasidan buyon loyiha tez o‘sib, 39 777 obunachiga ega bo‘ldi.
30 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -506 ga, so‘nggi 24 soatda esa -15 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.
- Tasdiqlash holati: Tasdiqlanmagan
- Jalb etish (ER): Auditoriya o‘rtacha 4.73% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 2.20% ini tashkil etuvchi reaksiyalarni to‘playdi.
- Post qamrovi: Har bir post o‘rtacha 1 882 marta ko‘riladi; birinchi sutkada odatda 874 ta ko‘rish yig‘iladi.
- Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 7 ta reaksiya keladi.
- Tematik yo‘nalishlar: Kontent контекст, llm, claude, nvidia, api kabi asosiy mavzularga jamlangan.
📝 Tavsif va kontent siyosati
Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev”
Yuqori yangilanish chastotasi (oxirgi ma’lumot 01 Iyul, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.
Трансформеры используют механизм внимания на каждом слое. Модель может напрямую обращаться к любому из предыдущих токенов. Это требует вычислительных мощностей, зато позволяет идеально цитировать прочитанное.
Гибрид сохраняет несколько слоёв внимания, а остальные заменяет рекуррентными. Они читают текст строго слева направо и сохраняют его в виде сжатой памяти. Такая память не даёт точно обратиться к конкретному предыдущему токену, зато затраты на обработку остаются постоянными независимо от длины текста.Чтобы измерить разницу, обеим моделям подавали статьи, страницы Wikipedia, книги, научные работы, а также код на Python, HTML и LaTeX. На выходе фиксировали, насколько точно каждая модель предсказывает следующий токен. 🟡Результат Гибрид лучше предсказывает смысловые слова (существительные, глаголы и прилагательные). Он также превосходит чистый трансформер там, где нужно глубокое понимание контекста. Но его преимущество почти исчезало в случаях, когда дело доходит до точного цитирования. Чем длиннее был повтор, тем меньше становился разрыв. Здесь точнее оказывался трансформер.
В дополнительном прогоне с 3-мя моделями на 1В параметров (трансформером, гибридом и чистой рекуррентной моделью без внимания), выяснилось, что гибрид пасует перед точным повторением текста и закрывающими скобками в коде.🟡Выводы Первый: единый усреднённый показатель ошибки слишком груб для сравнения архитектур - различия видны только при разборе отдельных типов токенов. Второй: преимущество гибрида на смысловых словах связано со способностью RNN-слоёв отслеживать меняющееся состояние текста. @ai_machinelearning_big_data #AI #ML #LLM #Research #Ai2
# There is no need to write codeАвторы пришли к выводу, что для сложных инструментов необходимо сначала показать модели примеры правильных вызовов во время Cold Start. Сбор данных и обучение Авторы постарались выжать из опенсорсных данных сложный и разнообразный датасет. Собрав наборы вопросов, картинок и ответов, они выфильтровывают примеры, которые Qwen-2.5.VL-7B уже может решить без ошибок. На оставшихся примерах в качестве ground-truth собирают траектории фронтирных моделей. Для определения сложности семплов используют pass@k как с инструментами, так и без них, руководствуясь следующей логикой: 🔴если модель без инструментов решает задачу — задача не нужна в обучении; 🔴если модель с инструментами решает задачу редко — задача отправляется на RL-стадию; 🔴если модель с инструментами не решает задачу вовсе, то на RL она получит нулевой advantage, но траекторию решения полезно положить в ColdStart. В Cold Start авторы используют стандартный NLL, а в RL — DAPO с двумя ревордами: форматным (правильное форматирование CoT и вызова тулов) и на результат. Результаты Замеры показывают хороший рост на бенчмарках, особенно на CharXiv Reasoning (вопросы по инфографике), MathVerse (задачки по математике) и HRBench (поиск объектов на картинках с высоким разрешением) — около +5%, выше предыдущей версии и схожих конкурентов. С другой стороны, при сравнении с фронтирными моделями или топовыми китайскими VLM, разрыв остаётся огромным — в десятки процентов, а главный сценарий использования Python — Numerical Analysis (то есть продвинутый калькулятор). Аблейшены В статье есть ряд любопытных замеров. Например разбивка обучающих данных по категориям Perception/Reasoning/Search с тренировкой по разным сплитам. Интересный результат — на второй картинке: после RL количество вызовов становится меньше на тех же бенчмарках по сравнению с ColdStart. Это показывает, что на RL модель обучается выбирать инструмент «по сложности», а не детерминировано вызывать Python в любой ситуации. В итоге у авторов получилась хорошая база для дальнейших экспериментов на разных стадиях с открытыми данными, протоколом обучения и весами моделей. Разбор подготовил ❣ Борис Зимка CV Time
На ICML 2026 было подано 23 918 работ — вдвое больше, чем в 2025 году. Из них приняли 6 352 статьи (26,6%), а статус Spotlight получили только 536 работ — 2,2% от всех поданных заявок. Это статьи, которые получили самые высокие оценки программного комитета.Начинаем серию постов о принятых работах со Spotlight-статьи On Efficient Scaling of GNNs via IO-Aware Layers Implementations, посвящённой эффективному масштабированию графовых нейросетей. Что исследовали Авторы — Дарья Фомина из команды ML-инфраструктуры, Вячеслав Ждановский из команды разработки инференса, Фёдор Великонивцев из Yandex Research и студенты ШАД — исследуют, как ускорить обучение и инференс Graph Neural Networks на GPU. Несмотря на популярность таких моделей, их производительность часто ограничивается не вычислениями, а неэффективной работой с памятью на GPU и большим объёмом передачи данных. Что получилось Исследователи разработали набор GPU-ядер для наиболее популярных семейств графовых нейросетей — от графовых свёрток и агрегирующих операторов до современных архитектур, таких как Graph Transformers и GATv2. Эксперименты на крупных графах показывают заметное ускорение работы и снижение потребления памяти по сравнению с существующими решениями. Кроме того, авторы изучили влияние переупорядочивания вершин графа в памяти GPU и показали, что его эффективность зависит как от структуры графа, так и от особенностей доступа к данным. Статья уже выложена на Arxiv, а код — на GitHub. #YaICML2026 ML Underhood
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
