Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
显示更多📈 Telegram 频道 Machinelearning 的分析概览
频道 Machinelearning (@ai_machinelearning_big_data) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 297 888 名订阅者,在 技术与应用 类别中位列第 323,并在 俄罗斯 地区排名第 1 258 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 297 888 名订阅者。
根据 12 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -7 173,过去 24 小时变化为 -216,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 7.91%。内容发布后 24 小时内通常能获得 5.86% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 23 559 次浏览,首日通常累积 17 463 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 181。
- 主题关注点: 内容集中在 openai, claude, api, gemini, контекст 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
凭借高频更新(最新数据采集于 13 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
Gated DeltaNet - это RNN с расширением в виде отрицательных значений матрицы переходов. Это небольшое изменение в правиле обновления внутреннего состояния позволяет слоям Gated DeltaNet реализовывать динамику попарной перестановки элементов и за счет этого решать задачи отслеживания состояния, недоступные чистым трансформерам.В OLMo Hybrid Ai2 показали, что гибридные модели выразительнее суммы своих частей. Существует класс задач (назовем их отслеживание состояния с обращением к памяти), которые не решают ни чистые трансформеры, ни чистые RNN, но гибрид справляется с ними уже при одинарном чередовании типов слоев. Абляционные эксперименты от 60M до 1B параметров показали, что GDN стабильно лучше Mamba2 как в чистом, так и в гибридном варианте, равномерное чередование слоев лучше концентрации внимания в середине сети, а соотношение 3:1 - оптимальный баланс между качеством и вычислительной стоимостью на средних и крупных масштабах. 🟡Тесты 🟢На MMLU OLMo Hybrid достигает той же точности, что OLMo 3 7B, используя на 49% меньше токенов; на срезе Common Crawl - на 35% меньше. 🟢Коэффициент эффективности использования данных у гибрида равен 83,7 против 94,9 у трансформера. 🟢Экономия данных растет с размером модели: примерно в 1,3 раза на 1B параметров и в 1,9 раза на 70B. После дообучения и адаптации к длинному контексту OLMo Hybrid обходит OLMo 3 во всех категориях оценки. На RULER при 64k токенах - 85,0 против 70,9 у базовой модели. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Набор моделей 🟡Техотчет @ai_machinelearning_big_data #AI #ML #LLM #OLMoHybrid #Ai2
Чтобы не быть голословными, авторы измерили это напрямую: косинусное сходство градиентов между разнородными задачами устойчиво отрицательно, среднее около −0.30, то есть задачи буквально тянут веса в противоположные стороны.HY-WU предлагает условную генерацию параметров. Модель-генератор (8B параметров) принимает на вход совместное представление изображения и текстового запроса через энкодер SigLIP2, после чего генерирует LoRA-матрицы (~0.72B) и инжектирует их в базовую модель. Обучение сквозное, только через downstream-loss, без предварительно собранных чекпойнтов адаптеров. 🟡Тесты и результаты Для тестов выбрали задачу редактирования изображения текстовым запросом - в нем конфликты неизбежны и визуально очевидны. 🟢В попарном human evaluation (GSB) HY-WU выигрывает у всех топовых open-source редакторов с большим отрывом: 67–78% против Step1X, Qwen, LongCat и FLUX; 🟢Среди закрытых систем модель обошла Seedream 4.5 (55.6%) и GPT Image 1.5 (55.5%). 🟠Единственные, кто пока впереди - Nano Banana 2 и Nano Banana Pro.
Tencent проверили: прирост качества дается именно условной маршрутизацией, а не просто увеличением числа параметров. Когда генератор использовали с перемешанными или усредненными условиями, результат проваливался до уровня базовой модели. Полный SFT с намного большим числом обучаемых параметров давал сопоставимый результат с обычным Shared LoRA, так как в обоих случаях в инференсе применяется одна фиксированная точка в пространстве весов.Выпущенная работа - первая часть серии исследований по функциональной памяти для генеративных моделей. В планах: 🟢сравнить функциональную память с retrieval-подходами и понять, когда каждый из них уместен; 🟢разработать протоколы онлайн-обучения, при которых модель усваивает новые задачи без деградации на старых; 🟢исследовать масштабирование модели-генератора отдельно от базовой модели. Помимо этого, в планах выйти за пределы LoRA на другие операторные интерфейсы, распространить метод на видео и агентные системы, а также проработать возможность точечно удалять поведение модели через управление состоянием генератора. Кроме этого архиполезного исследования Tencent выложили связку из модели-генератора и базовой модели HY-Image-3.0-Instruct, поверх которой она и работает. Поиграться этой красотой можно, если под рукой простаивает 8х40 GB или 4х80 GB VRAM. 📌Лицензирование: Tencent Hunyuan Community License. 🟡Страница проекта 🟡Prompt Handbook (китайский) 🟡Модель 🟡Техотчет 🖥Github @ai_machinelearning_big_data #AI #ML #ImageEdit #HYWU #Tencent
Условность в том, то Codex Security одобряется вручную. OpenAI объясняет это возможностями GPT-5.4, команда рассматривает каждую заявку отдельно, чтобы убедиться, что инструмент применяется осознанно.OpenAI формулирует требования к просителям программы размыто:
core maintainer с write access к широко используемому публичному проекту. Что считается широко используемым - не уточняется.
Если проект не вписывается в стандартные критерии, OpenAI все равно рекомендует подавать заявку с объяснением роли проекта в экосистеме.
Неделю назад Antropic запустила похожую тему поддержки опен-сорса.
@ai_machinelearning_big_data
#news #ai #mlИнтерактивный музей, где посетители попадают внутрь знаменитых картин. От спальни Ван Гога до миров, вдохновленных Вермеером и Матиссом, каждое произведение искусства превращается в полностью исследуемую 3D-среду.2-е место: Jar of Marbles
Интерфейс для организации миров Marble с использованием семантического понимания. Генерации сгруппированы в кластеры, где исследуются с помощью управления жестами компьютерного зрения, используя движения тела.3-е место: Augmented Virtuality Room Explorer
Среда моделирования для агентов и робототехники. Робот исследует окружающую среду с помощью лидара, строит семантическую карту с использованием моделей зрения и дает комментарии об окружающей среде в реальном времени.Отдельно отметили проект Marble Estates, который строит виртуальные 3D-туры по сгенерированному объекту недвижимости на основе 2D-плана. @ai_machinelearning_big_data #news #ai #ml
На внутреннем бенчмарке OpenAI по инвестиционному банкингу модель набрала 87,3% против 43,7% у GPT-5. Тест проверяет реальные задачи (например, построение трехчастной финансовой модели с форматированием и ссылками на источники).Параллельно OpenAI открыла интеграции с финансовыми провайдерами прямо в ChatGPT: Moody's, Dow Jones Factiva, MSCI, Third Bridge, MT Newswire. Через них можно тянуть рыночные, корпоративные данные и внутренние документы в единый рабочий процесс без переключения между вкладками и ручного копирования. Итог экспортируется в PDF или Word с автоматическими ссылками на источники. Для тех, кто хочет подключить собственные данные, доступен MCP. С ним можно строить собственные приложения поверх ChatGPT с проприетарными источниками. Доступ пока открыт для пользователей Business, Enterprise, Edu, Pro и Plus в США, Канаде и Австралии. В корпоративных аккаунтах аддон по умолчанию выключен, его включают администраторы через ролевые права. Версия для Google Sheets анонсирована, но без конкретных сроков. @ai_machinelearning_big_data #news #ai #ml
Кстати, предыдущий эксперимент той же команды с Pong занял больше года.На этом месте рядовая новость про лабораторные эксперименты обычно заканчивается, но Cortical Labs открыли облачный доступ к CL1, вовсю пилят SDK и планируют продавать биокомпьютер как устройство. Команда позиционирует платформу как инструмент для медицинских исследований: моделирование нейродегенеративных заболеваний, тестирование препаратов, изучение механизмов восстановления нейронных функций. 🟡 Здесь же возникают вопросы. Нейроны не обладают сознанием (по крайней мере, в Cortical Labs на это рассчитывают), но они происходят от живых людей и демонстрируют поведение, которое очень похоже на обучение. Граница между биологической моделью и чем-то большим пока не определена ни юридически, ни этически. Никто всерьез не обсуждает, где эта граница проходит и, самое главное, что делать, когда системы станут сложнее. Пока это первые шаги, но направление задано. @ai_machinelearning_big_data #news #ai #ml
Чем сильнее энкодер, тем хуже результат: в экспериментах замена DINOv2-B на более мощный DINOv3-H+ стойко ухудшала FID. Модель привязывалась к фиксированным внешним представлениям и переставала масштабироваться. На видео и аудио выравнивание с энкодерами V-JEPA2 и MERT вообще давало результат хуже ванильного flow matching.🟡Self-Flow предлагает механизм Dual-Timestep Scheduling В стандартном flow matching все токены нойзятся одинаково, поэтому модель решает задачу локально и не учится строить глобальные связи. Self-Flow сэмплирует 2 разных уровня шума и случайно назначает их разным токенам (часть входа зашумлена сильнее, часть чище). Это создает асимметрию: чтобы восстановить сильно зашумленные токены, модель вынуждена опираться на чистые и строить глобальный контекст. Поверх этого работает самообучение по принципу дистилляции. Обучаются одновременно 2 копии модели: модель-ученик видит смешанный зашумленный вход, модель-учитель - более чистую версию (EMA-копия с экспоненциальным скользящим средним). Ученик учится предсказывать признаки учителя из зашумленного входа, и это вынуждает его развивать сильные семантические представления без какого-либо внешнего энкодера. 🟡Результаты тестов 🟢На ImageNet 256×256 Self-Flow показал FID 5.70 против 5.89 у REPA;
Это, кстати, первый случай, когда self-supervised метод превзошел внешнее выравнивание на этом бенче🟢На text-to-image: FID 3.61 против 3.92 у REPA; 🟢По видео: FVD 47.81 против 49.75 у REPA; 🟢По аудио: лучшие FAD-оценки среди всех вариантов. При этом на масштабировании (с 290M до 1B) разрыв с REPA увеличивается: модель Self-Flow на 625M параметров обходит REPA на 1B. Метод универсален для модальностей - он работает одинаково на картинках, видео и аудио, что намекает на применение для мультимодального обучения. В репозитории проекта есть код инференса на основе SiT-XL/2 с per-token timestep conditioning, чекпоинт на основе ImageNet 256×256 и скрипты для генерации сэмплов под FID-оценку через ADM evaluation suite. Поддерживаются режимы SDE и ODE, мульти-GPU через torchrun. 🟡Статья 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI #ML #Multimodal #Framework #BFL
— Prefill / Decode Split. Prefill-ноды ускоряют прогон длинных контекстов (TTFT↓), decode-ноды стабилизируют генерацию и поддерживают низкий TBT. — Иерархия KV-кэшей – GPU → CPU RAM → распределённый слой. — Переиспользование KV-кешей. KV-кэши передаются между серверами прямо во время обработки запроса, в реальном времени — фактически гигабайты данных, которые нужно доставлять между GPU за очень короткое время. — Cache-aware балансировка. Маршрутизирует запросы с учётом расположения кэшей в кластере, чтобы максимизировать Cache Hit Rate в многошаговых сессиях.🟡Безопасность и тарификация Появились управляемые правила модерации. Можно контролировать допустимость запросов и ответов моделей на основе политики безопасности, категорий контента и созданных словарей. Добавили возможность по запросу подключать выделенный сетевой канал и частные эндпоинты для работы с моделями без выхода в публичный интернет.
Добавлены два новых типа токенов: • токены инструментов — нововведение от Яндекса. Токены срабатывают при вызове встроенных тулов (File Search, Web Search, MCP, Code Interpreter). Стоят дешевле обычных входящих / исходящих; • токены кеширования — уже отраслевой стандарт за рубежом, который только приходит на российский рынок. Часть контекста повторно используется при повторении, модель отрабатывает побыстрее, а денег тратит поменьше.🟡Что еще рассказывают Стек для оптимизации инференса: • Dynamo как оркестрация/балансировка, • MoonCake как распределённый KV-store, • SGLang как Inference Engine. Законтрибьютили 20+ патчей в опенсорс, чтобы довести решение до эксплуатационного качества. @ai_machinelearning_big_data #AI #ML #LLM #inference #DeepSeek
Серия испытаний Abstraction and Reasoning Corpus (ARC), созданная Франсуа Шолле, стала главным инструментом для проверки того, умеют ли алгоритмы решать логические задачи, а не просто воспроизводить заученные паттерны.Ожидается, что запуск ARC-AGI-3 предложит ML-сообществу обновленные наборы задач, которые бросят вызов современным моделям и помогут точнее измерить реальный прогресс на пути к AGI. На мероприятии будут Грег Камрадт, Франсуа Шолле и Сэм Альтман. @ai_machinelearning_big_data #news #ai #ml
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
