Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Show more📈 Analytical overview of Telegram channel Machinelearning
Channel Machinelearning (@ai_machinelearning_big_data) in the Russian language segment is an active participant. Currently, the community unites 297 888 subscribers, ranking 323 in the Technologies & Applications category and 1 258 in the Russia region.
📊 Audience metrics and dynamics
Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 297 888 subscribers.
According to the latest data from 12 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -7 173 over the last 30 days and by -216 over the last 24 hours, overall reach remains high.
- Verification status: Not verified
- Engagement rate (ER): The average audience engagement rate is 7.91%. Within the first 24 hours after publication, content typically collects 5.86% reactions from the total number of subscribers.
- Post reach: On average, each post receives 23 559 views. Within the first day, a publication typically gains 17 463 views.
- Reactions and interaction: The audience actively supports content: the average number of reactions per post is 181.
- Thematic interests: Content is focused on key topics such as openai, claude, api, gemini, контекст.
📝 Description and content policy
The author describes the resource as a platform for expressing subjective opinions:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
Thanks to the high frequency of updates (latest data received on 13 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.
Gated DeltaNet - это RNN с расширением в виде отрицательных значений матрицы переходов. Это небольшое изменение в правиле обновления внутреннего состояния позволяет слоям Gated DeltaNet реализовывать динамику попарной перестановки элементов и за счет этого решать задачи отслеживания состояния, недоступные чистым трансформерам.В OLMo Hybrid Ai2 показали, что гибридные модели выразительнее суммы своих частей. Существует класс задач (назовем их отслеживание состояния с обращением к памяти), которые не решают ни чистые трансформеры, ни чистые RNN, но гибрид справляется с ними уже при одинарном чередовании типов слоев. Абляционные эксперименты от 60M до 1B параметров показали, что GDN стабильно лучше Mamba2 как в чистом, так и в гибридном варианте, равномерное чередование слоев лучше концентрации внимания в середине сети, а соотношение 3:1 - оптимальный баланс между качеством и вычислительной стоимостью на средних и крупных масштабах. 🟡Тесты 🟢На MMLU OLMo Hybrid достигает той же точности, что OLMo 3 7B, используя на 49% меньше токенов; на срезе Common Crawl - на 35% меньше. 🟢Коэффициент эффективности использования данных у гибрида равен 83,7 против 94,9 у трансформера. 🟢Экономия данных растет с размером модели: примерно в 1,3 раза на 1B параметров и в 1,9 раза на 70B. После дообучения и адаптации к длинному контексту OLMo Hybrid обходит OLMo 3 во всех категориях оценки. На RULER при 64k токенах - 85,0 против 70,9 у базовой модели. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Набор моделей 🟡Техотчет @ai_machinelearning_big_data #AI #ML #LLM #OLMoHybrid #Ai2
Чтобы не быть голословными, авторы измерили это напрямую: косинусное сходство градиентов между разнородными задачами устойчиво отрицательно, среднее около −0.30, то есть задачи буквально тянут веса в противоположные стороны.HY-WU предлагает условную генерацию параметров. Модель-генератор (8B параметров) принимает на вход совместное представление изображения и текстового запроса через энкодер SigLIP2, после чего генерирует LoRA-матрицы (~0.72B) и инжектирует их в базовую модель. Обучение сквозное, только через downstream-loss, без предварительно собранных чекпойнтов адаптеров. 🟡Тесты и результаты Для тестов выбрали задачу редактирования изображения текстовым запросом - в нем конфликты неизбежны и визуально очевидны. 🟢В попарном human evaluation (GSB) HY-WU выигрывает у всех топовых open-source редакторов с большим отрывом: 67–78% против Step1X, Qwen, LongCat и FLUX; 🟢Среди закрытых систем модель обошла Seedream 4.5 (55.6%) и GPT Image 1.5 (55.5%). 🟠Единственные, кто пока впереди - Nano Banana 2 и Nano Banana Pro.
Tencent проверили: прирост качества дается именно условной маршрутизацией, а не просто увеличением числа параметров. Когда генератор использовали с перемешанными или усредненными условиями, результат проваливался до уровня базовой модели. Полный SFT с намного большим числом обучаемых параметров давал сопоставимый результат с обычным Shared LoRA, так как в обоих случаях в инференсе применяется одна фиксированная точка в пространстве весов.Выпущенная работа - первая часть серии исследований по функциональной памяти для генеративных моделей. В планах: 🟢сравнить функциональную память с retrieval-подходами и понять, когда каждый из них уместен; 🟢разработать протоколы онлайн-обучения, при которых модель усваивает новые задачи без деградации на старых; 🟢исследовать масштабирование модели-генератора отдельно от базовой модели. Помимо этого, в планах выйти за пределы LoRA на другие операторные интерфейсы, распространить метод на видео и агентные системы, а также проработать возможность точечно удалять поведение модели через управление состоянием генератора. Кроме этого архиполезного исследования Tencent выложили связку из модели-генератора и базовой модели HY-Image-3.0-Instruct, поверх которой она и работает. Поиграться этой красотой можно, если под рукой простаивает 8х40 GB или 4х80 GB VRAM. 📌Лицензирование: Tencent Hunyuan Community License. 🟡Страница проекта 🟡Prompt Handbook (китайский) 🟡Модель 🟡Техотчет 🖥Github @ai_machinelearning_big_data #AI #ML #ImageEdit #HYWU #Tencent
Условность в том, то Codex Security одобряется вручную. OpenAI объясняет это возможностями GPT-5.4, команда рассматривает каждую заявку отдельно, чтобы убедиться, что инструмент применяется осознанно.OpenAI формулирует требования к просителям программы размыто:
core maintainer с write access к широко используемому публичному проекту. Что считается широко используемым - не уточняется.
Если проект не вписывается в стандартные критерии, OpenAI все равно рекомендует подавать заявку с объяснением роли проекта в экосистеме.
Неделю назад Antropic запустила похожую тему поддержки опен-сорса.
@ai_machinelearning_big_data
#news #ai #mlИнтерактивный музей, где посетители попадают внутрь знаменитых картин. От спальни Ван Гога до миров, вдохновленных Вермеером и Матиссом, каждое произведение искусства превращается в полностью исследуемую 3D-среду.2-е место: Jar of Marbles
Интерфейс для организации миров Marble с использованием семантического понимания. Генерации сгруппированы в кластеры, где исследуются с помощью управления жестами компьютерного зрения, используя движения тела.3-е место: Augmented Virtuality Room Explorer
Среда моделирования для агентов и робототехники. Робот исследует окружающую среду с помощью лидара, строит семантическую карту с использованием моделей зрения и дает комментарии об окружающей среде в реальном времени.Отдельно отметили проект Marble Estates, который строит виртуальные 3D-туры по сгенерированному объекту недвижимости на основе 2D-плана. @ai_machinelearning_big_data #news #ai #ml
На внутреннем бенчмарке OpenAI по инвестиционному банкингу модель набрала 87,3% против 43,7% у GPT-5. Тест проверяет реальные задачи (например, построение трехчастной финансовой модели с форматированием и ссылками на источники).Параллельно OpenAI открыла интеграции с финансовыми провайдерами прямо в ChatGPT: Moody's, Dow Jones Factiva, MSCI, Third Bridge, MT Newswire. Через них можно тянуть рыночные, корпоративные данные и внутренние документы в единый рабочий процесс без переключения между вкладками и ручного копирования. Итог экспортируется в PDF или Word с автоматическими ссылками на источники. Для тех, кто хочет подключить собственные данные, доступен MCP. С ним можно строить собственные приложения поверх ChatGPT с проприетарными источниками. Доступ пока открыт для пользователей Business, Enterprise, Edu, Pro и Plus в США, Канаде и Австралии. В корпоративных аккаунтах аддон по умолчанию выключен, его включают администраторы через ролевые права. Версия для Google Sheets анонсирована, но без конкретных сроков. @ai_machinelearning_big_data #news #ai #ml
Кстати, предыдущий эксперимент той же команды с Pong занял больше года.На этом месте рядовая новость про лабораторные эксперименты обычно заканчивается, но Cortical Labs открыли облачный доступ к CL1, вовсю пилят SDK и планируют продавать биокомпьютер как устройство. Команда позиционирует платформу как инструмент для медицинских исследований: моделирование нейродегенеративных заболеваний, тестирование препаратов, изучение механизмов восстановления нейронных функций. 🟡 Здесь же возникают вопросы. Нейроны не обладают сознанием (по крайней мере, в Cortical Labs на это рассчитывают), но они происходят от живых людей и демонстрируют поведение, которое очень похоже на обучение. Граница между биологической моделью и чем-то большим пока не определена ни юридически, ни этически. Никто всерьез не обсуждает, где эта граница проходит и, самое главное, что делать, когда системы станут сложнее. Пока это первые шаги, но направление задано. @ai_machinelearning_big_data #news #ai #ml
Чем сильнее энкодер, тем хуже результат: в экспериментах замена DINOv2-B на более мощный DINOv3-H+ стойко ухудшала FID. Модель привязывалась к фиксированным внешним представлениям и переставала масштабироваться. На видео и аудио выравнивание с энкодерами V-JEPA2 и MERT вообще давало результат хуже ванильного flow matching.🟡Self-Flow предлагает механизм Dual-Timestep Scheduling В стандартном flow matching все токены нойзятся одинаково, поэтому модель решает задачу локально и не учится строить глобальные связи. Self-Flow сэмплирует 2 разных уровня шума и случайно назначает их разным токенам (часть входа зашумлена сильнее, часть чище). Это создает асимметрию: чтобы восстановить сильно зашумленные токены, модель вынуждена опираться на чистые и строить глобальный контекст. Поверх этого работает самообучение по принципу дистилляции. Обучаются одновременно 2 копии модели: модель-ученик видит смешанный зашумленный вход, модель-учитель - более чистую версию (EMA-копия с экспоненциальным скользящим средним). Ученик учится предсказывать признаки учителя из зашумленного входа, и это вынуждает его развивать сильные семантические представления без какого-либо внешнего энкодера. 🟡Результаты тестов 🟢На ImageNet 256×256 Self-Flow показал FID 5.70 против 5.89 у REPA;
Это, кстати, первый случай, когда self-supervised метод превзошел внешнее выравнивание на этом бенче🟢На text-to-image: FID 3.61 против 3.92 у REPA; 🟢По видео: FVD 47.81 против 49.75 у REPA; 🟢По аудио: лучшие FAD-оценки среди всех вариантов. При этом на масштабировании (с 290M до 1B) разрыв с REPA увеличивается: модель Self-Flow на 625M параметров обходит REPA на 1B. Метод универсален для модальностей - он работает одинаково на картинках, видео и аудио, что намекает на применение для мультимодального обучения. В репозитории проекта есть код инференса на основе SiT-XL/2 с per-token timestep conditioning, чекпоинт на основе ImageNet 256×256 и скрипты для генерации сэмплов под FID-оценку через ADM evaluation suite. Поддерживаются режимы SDE и ODE, мульти-GPU через torchrun. 🟡Статья 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI #ML #Multimodal #Framework #BFL
— Prefill / Decode Split. Prefill-ноды ускоряют прогон длинных контекстов (TTFT↓), decode-ноды стабилизируют генерацию и поддерживают низкий TBT. — Иерархия KV-кэшей – GPU → CPU RAM → распределённый слой. — Переиспользование KV-кешей. KV-кэши передаются между серверами прямо во время обработки запроса, в реальном времени — фактически гигабайты данных, которые нужно доставлять между GPU за очень короткое время. — Cache-aware балансировка. Маршрутизирует запросы с учётом расположения кэшей в кластере, чтобы максимизировать Cache Hit Rate в многошаговых сессиях.🟡Безопасность и тарификация Появились управляемые правила модерации. Можно контролировать допустимость запросов и ответов моделей на основе политики безопасности, категорий контента и созданных словарей. Добавили возможность по запросу подключать выделенный сетевой канал и частные эндпоинты для работы с моделями без выхода в публичный интернет.
Добавлены два новых типа токенов: • токены инструментов — нововведение от Яндекса. Токены срабатывают при вызове встроенных тулов (File Search, Web Search, MCP, Code Interpreter). Стоят дешевле обычных входящих / исходящих; • токены кеширования — уже отраслевой стандарт за рубежом, который только приходит на российский рынок. Часть контекста повторно используется при повторении, модель отрабатывает побыстрее, а денег тратит поменьше.🟡Что еще рассказывают Стек для оптимизации инференса: • Dynamo как оркестрация/балансировка, • MoonCake как распределённый KV-store, • SGLang как Inference Engine. Законтрибьютили 20+ патчей в опенсорс, чтобы довести решение до эксплуатационного качества. @ai_machinelearning_big_data #AI #ML #LLM #inference #DeepSeek
Серия испытаний Abstraction and Reasoning Corpus (ARC), созданная Франсуа Шолле, стала главным инструментом для проверки того, умеют ли алгоритмы решать логические задачи, а не просто воспроизводить заученные паттерны.Ожидается, что запуск ARC-AGI-3 предложит ML-сообществу обновленные наборы задач, которые бросят вызов современным моделям и помогут точнее измерить реальный прогресс на пути к AGI. На мероприятии будут Грег Камрадт, Франсуа Шолле и Сэм Альтман. @ai_machinelearning_big_data #news #ai #ml
Available now! Telegram Research 2025 — the year's key insights 
