Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Больше📈 Аналитический обзор Telegram-канала Machinelearning
Канал Machinelearning (@ai_machinelearning_big_data) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 297 888 подписчиков, занимая 323 место в категории Технологии и приложения и 1 258 место в регионе Россия.
📊 Показатели аудитории и динамика
С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 297 888 подписчиков.
Согласно последним данным от 12 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -7 173, а за последние 24 часа — -216, при этом общий охват остаётся высоким.
- Статус верификации: Не верифицирован
- Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 7.91%. В первые 24 часа после публикации контент обычно набирает 5.86% реакций от общего числа подписчиков.
- Охват публикаций: В среднем каждый пост получает 23 559 просмотров. В течение первых суток публикация набирает 17 463 просмотров.
- Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 181.
- Тематические интересы: Контент сосредоточен на ключевых темах, таких как openai, claude, api, gemini, контекст.
📝 Описание и контентная политика
Автор описывает ресурс как площадку для выражения субъективного мнения:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
Благодаря высокой частоте обновлений (последние данные получены 13 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.
Gated DeltaNet - это RNN с расширением в виде отрицательных значений матрицы переходов. Это небольшое изменение в правиле обновления внутреннего состояния позволяет слоям Gated DeltaNet реализовывать динамику попарной перестановки элементов и за счет этого решать задачи отслеживания состояния, недоступные чистым трансформерам.В OLMo Hybrid Ai2 показали, что гибридные модели выразительнее суммы своих частей. Существует класс задач (назовем их отслеживание состояния с обращением к памяти), которые не решают ни чистые трансформеры, ни чистые RNN, но гибрид справляется с ними уже при одинарном чередовании типов слоев. Абляционные эксперименты от 60M до 1B параметров показали, что GDN стабильно лучше Mamba2 как в чистом, так и в гибридном варианте, равномерное чередование слоев лучше концентрации внимания в середине сети, а соотношение 3:1 - оптимальный баланс между качеством и вычислительной стоимостью на средних и крупных масштабах. 🟡Тесты 🟢На MMLU OLMo Hybrid достигает той же точности, что OLMo 3 7B, используя на 49% меньше токенов; на срезе Common Crawl - на 35% меньше. 🟢Коэффициент эффективности использования данных у гибрида равен 83,7 против 94,9 у трансформера. 🟢Экономия данных растет с размером модели: примерно в 1,3 раза на 1B параметров и в 1,9 раза на 70B. После дообучения и адаптации к длинному контексту OLMo Hybrid обходит OLMo 3 во всех категориях оценки. На RULER при 64k токенах - 85,0 против 70,9 у базовой модели. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Набор моделей 🟡Техотчет @ai_machinelearning_big_data #AI #ML #LLM #OLMoHybrid #Ai2
Чтобы не быть голословными, авторы измерили это напрямую: косинусное сходство градиентов между разнородными задачами устойчиво отрицательно, среднее около −0.30, то есть задачи буквально тянут веса в противоположные стороны.HY-WU предлагает условную генерацию параметров. Модель-генератор (8B параметров) принимает на вход совместное представление изображения и текстового запроса через энкодер SigLIP2, после чего генерирует LoRA-матрицы (~0.72B) и инжектирует их в базовую модель. Обучение сквозное, только через downstream-loss, без предварительно собранных чекпойнтов адаптеров. 🟡Тесты и результаты Для тестов выбрали задачу редактирования изображения текстовым запросом - в нем конфликты неизбежны и визуально очевидны. 🟢В попарном human evaluation (GSB) HY-WU выигрывает у всех топовых open-source редакторов с большим отрывом: 67–78% против Step1X, Qwen, LongCat и FLUX; 🟢Среди закрытых систем модель обошла Seedream 4.5 (55.6%) и GPT Image 1.5 (55.5%). 🟠Единственные, кто пока впереди - Nano Banana 2 и Nano Banana Pro.
Tencent проверили: прирост качества дается именно условной маршрутизацией, а не просто увеличением числа параметров. Когда генератор использовали с перемешанными или усредненными условиями, результат проваливался до уровня базовой модели. Полный SFT с намного большим числом обучаемых параметров давал сопоставимый результат с обычным Shared LoRA, так как в обоих случаях в инференсе применяется одна фиксированная точка в пространстве весов.Выпущенная работа - первая часть серии исследований по функциональной памяти для генеративных моделей. В планах: 🟢сравнить функциональную память с retrieval-подходами и понять, когда каждый из них уместен; 🟢разработать протоколы онлайн-обучения, при которых модель усваивает новые задачи без деградации на старых; 🟢исследовать масштабирование модели-генератора отдельно от базовой модели. Помимо этого, в планах выйти за пределы LoRA на другие операторные интерфейсы, распространить метод на видео и агентные системы, а также проработать возможность точечно удалять поведение модели через управление состоянием генератора. Кроме этого архиполезного исследования Tencent выложили связку из модели-генератора и базовой модели HY-Image-3.0-Instruct, поверх которой она и работает. Поиграться этой красотой можно, если под рукой простаивает 8х40 GB или 4х80 GB VRAM. 📌Лицензирование: Tencent Hunyuan Community License. 🟡Страница проекта 🟡Prompt Handbook (китайский) 🟡Модель 🟡Техотчет 🖥Github @ai_machinelearning_big_data #AI #ML #ImageEdit #HYWU #Tencent
Условность в том, то Codex Security одобряется вручную. OpenAI объясняет это возможностями GPT-5.4, команда рассматривает каждую заявку отдельно, чтобы убедиться, что инструмент применяется осознанно.OpenAI формулирует требования к просителям программы размыто:
core maintainer с write access к широко используемому публичному проекту. Что считается широко используемым - не уточняется.
Если проект не вписывается в стандартные критерии, OpenAI все равно рекомендует подавать заявку с объяснением роли проекта в экосистеме.
Неделю назад Antropic запустила похожую тему поддержки опен-сорса.
@ai_machinelearning_big_data
#news #ai #mlИнтерактивный музей, где посетители попадают внутрь знаменитых картин. От спальни Ван Гога до миров, вдохновленных Вермеером и Матиссом, каждое произведение искусства превращается в полностью исследуемую 3D-среду.2-е место: Jar of Marbles
Интерфейс для организации миров Marble с использованием семантического понимания. Генерации сгруппированы в кластеры, где исследуются с помощью управления жестами компьютерного зрения, используя движения тела.3-е место: Augmented Virtuality Room Explorer
Среда моделирования для агентов и робототехники. Робот исследует окружающую среду с помощью лидара, строит семантическую карту с использованием моделей зрения и дает комментарии об окружающей среде в реальном времени.Отдельно отметили проект Marble Estates, который строит виртуальные 3D-туры по сгенерированному объекту недвижимости на основе 2D-плана. @ai_machinelearning_big_data #news #ai #ml
На внутреннем бенчмарке OpenAI по инвестиционному банкингу модель набрала 87,3% против 43,7% у GPT-5. Тест проверяет реальные задачи (например, построение трехчастной финансовой модели с форматированием и ссылками на источники).Параллельно OpenAI открыла интеграции с финансовыми провайдерами прямо в ChatGPT: Moody's, Dow Jones Factiva, MSCI, Third Bridge, MT Newswire. Через них можно тянуть рыночные, корпоративные данные и внутренние документы в единый рабочий процесс без переключения между вкладками и ручного копирования. Итог экспортируется в PDF или Word с автоматическими ссылками на источники. Для тех, кто хочет подключить собственные данные, доступен MCP. С ним можно строить собственные приложения поверх ChatGPT с проприетарными источниками. Доступ пока открыт для пользователей Business, Enterprise, Edu, Pro и Plus в США, Канаде и Австралии. В корпоративных аккаунтах аддон по умолчанию выключен, его включают администраторы через ролевые права. Версия для Google Sheets анонсирована, но без конкретных сроков. @ai_machinelearning_big_data #news #ai #ml
Кстати, предыдущий эксперимент той же команды с Pong занял больше года.На этом месте рядовая новость про лабораторные эксперименты обычно заканчивается, но Cortical Labs открыли облачный доступ к CL1, вовсю пилят SDK и планируют продавать биокомпьютер как устройство. Команда позиционирует платформу как инструмент для медицинских исследований: моделирование нейродегенеративных заболеваний, тестирование препаратов, изучение механизмов восстановления нейронных функций. 🟡 Здесь же возникают вопросы. Нейроны не обладают сознанием (по крайней мере, в Cortical Labs на это рассчитывают), но они происходят от живых людей и демонстрируют поведение, которое очень похоже на обучение. Граница между биологической моделью и чем-то большим пока не определена ни юридически, ни этически. Никто всерьез не обсуждает, где эта граница проходит и, самое главное, что делать, когда системы станут сложнее. Пока это первые шаги, но направление задано. @ai_machinelearning_big_data #news #ai #ml
Чем сильнее энкодер, тем хуже результат: в экспериментах замена DINOv2-B на более мощный DINOv3-H+ стойко ухудшала FID. Модель привязывалась к фиксированным внешним представлениям и переставала масштабироваться. На видео и аудио выравнивание с энкодерами V-JEPA2 и MERT вообще давало результат хуже ванильного flow matching.🟡Self-Flow предлагает механизм Dual-Timestep Scheduling В стандартном flow matching все токены нойзятся одинаково, поэтому модель решает задачу локально и не учится строить глобальные связи. Self-Flow сэмплирует 2 разных уровня шума и случайно назначает их разным токенам (часть входа зашумлена сильнее, часть чище). Это создает асимметрию: чтобы восстановить сильно зашумленные токены, модель вынуждена опираться на чистые и строить глобальный контекст. Поверх этого работает самообучение по принципу дистилляции. Обучаются одновременно 2 копии модели: модель-ученик видит смешанный зашумленный вход, модель-учитель - более чистую версию (EMA-копия с экспоненциальным скользящим средним). Ученик учится предсказывать признаки учителя из зашумленного входа, и это вынуждает его развивать сильные семантические представления без какого-либо внешнего энкодера. 🟡Результаты тестов 🟢На ImageNet 256×256 Self-Flow показал FID 5.70 против 5.89 у REPA;
Это, кстати, первый случай, когда self-supervised метод превзошел внешнее выравнивание на этом бенче🟢На text-to-image: FID 3.61 против 3.92 у REPA; 🟢По видео: FVD 47.81 против 49.75 у REPA; 🟢По аудио: лучшие FAD-оценки среди всех вариантов. При этом на масштабировании (с 290M до 1B) разрыв с REPA увеличивается: модель Self-Flow на 625M параметров обходит REPA на 1B. Метод универсален для модальностей - он работает одинаково на картинках, видео и аудио, что намекает на применение для мультимодального обучения. В репозитории проекта есть код инференса на основе SiT-XL/2 с per-token timestep conditioning, чекпоинт на основе ImageNet 256×256 и скрипты для генерации сэмплов под FID-оценку через ADM evaluation suite. Поддерживаются режимы SDE и ODE, мульти-GPU через torchrun. 🟡Статья 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI #ML #Multimodal #Framework #BFL
— Prefill / Decode Split. Prefill-ноды ускоряют прогон длинных контекстов (TTFT↓), decode-ноды стабилизируют генерацию и поддерживают низкий TBT. — Иерархия KV-кэшей – GPU → CPU RAM → распределённый слой. — Переиспользование KV-кешей. KV-кэши передаются между серверами прямо во время обработки запроса, в реальном времени — фактически гигабайты данных, которые нужно доставлять между GPU за очень короткое время. — Cache-aware балансировка. Маршрутизирует запросы с учётом расположения кэшей в кластере, чтобы максимизировать Cache Hit Rate в многошаговых сессиях.🟡Безопасность и тарификация Появились управляемые правила модерации. Можно контролировать допустимость запросов и ответов моделей на основе политики безопасности, категорий контента и созданных словарей. Добавили возможность по запросу подключать выделенный сетевой канал и частные эндпоинты для работы с моделями без выхода в публичный интернет.
Добавлены два новых типа токенов: • токены инструментов — нововведение от Яндекса. Токены срабатывают при вызове встроенных тулов (File Search, Web Search, MCP, Code Interpreter). Стоят дешевле обычных входящих / исходящих; • токены кеширования — уже отраслевой стандарт за рубежом, который только приходит на российский рынок. Часть контекста повторно используется при повторении, модель отрабатывает побыстрее, а денег тратит поменьше.🟡Что еще рассказывают Стек для оптимизации инференса: • Dynamo как оркестрация/балансировка, • MoonCake как распределённый KV-store, • SGLang как Inference Engine. Законтрибьютили 20+ патчей в опенсорс, чтобы довести решение до эксплуатационного качества. @ai_machinelearning_big_data #AI #ML #LLM #inference #DeepSeek
Серия испытаний Abstraction and Reasoning Corpus (ARC), созданная Франсуа Шолле, стала главным инструментом для проверки того, умеют ли алгоритмы решать логические задачи, а не просто воспроизводить заученные паттерны.Ожидается, что запуск ARC-AGI-3 предложит ML-сообществу обновленные наборы задач, которые бросят вызов современным моделям и помогут точнее измерить реальный прогресс на пути к AGI. На мероприятии будут Грег Камрадт, Франсуа Шолле и Сэм Альтман. @ai_machinelearning_big_data #news #ai #ml
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
