Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Больше📈 Аналитический обзор Telegram-канала Machinelearning
Канал Machinelearning (@ai_machinelearning_big_data) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 297 311 подписчиков, занимая 326 место в категории Технологии и приложения и 1 262 место в регионе Россия.
📊 Показатели аудитории и динамика
С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 297 311 подписчиков.
Согласно последним данным от 15 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -6 639, а за последние 24 часа — -229, при этом общий охват остаётся высоким.
- Статус верификации: Не верифицирован
- Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.06%. В первые 24 часа после публикации контент обычно набирает 5.69% реакций от общего числа подписчиков.
- Охват публикаций: В среднем каждый пост получает 23 972 просмотров. В течение первых суток публикация набирает 16 925 просмотров.
- Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 186.
- Тематические интересы: Контент сосредоточен на ключевых темах, таких как openai, claude, api, gemini, контекст.
📝 Описание и контентная политика
Автор описывает ресурс как площадку для выражения субъективного мнения:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
Благодаря высокой частоте обновлений (последние данные получены 16 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.
Интересное наблюдение: простое использование предсказательной энтропии вместо полного ожидаемого прироста информации значительно ухудшает результаты. Многие предыдущие теории делали именно такое упрощение, считая энтропию правдоподобия константой. Эксперименты с BED показали, что это неоправданное допущение - вариативность ожидаемой условной неопределенности между вопросами может быть решающей для выбора хороших запросов.🟡Arxiv @ai_machinelearning_big_data #AI #ML #Research #BayesianDesign
singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле.
Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев.
🟡Эксперименты это подтверждают.
Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты: 03-07, 15-06 и 01-01. Ни одна из них не была даже близка к правильной (осенью).
В другом тесте, где нужно было сосчитать количество букв D в слове DEEPSEEK, та же DeepSeek-V3 выдавала 2 или 3, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6 и 7.
При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний. Кто бы сомневался.
🟡Почему галлюцинации не исчезают после пост-тренинга и RLHF?
Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль.
Эту гипотезу подтвердили анализом популярных оценочных наборов.
В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата я не знаю. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь.
🟡Что делать инженерам.
OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности.
Еще рекомендуют включают мониторинг singleton-rate на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю не штрафовались автоматически.
🔜 Читать статью полностью
@ai_machinelearning_big_data
#AI #ML #LLM #Research #OpenAI0905 получила двукратное увеличение контекстного окна со 128K до 256K токенов, улучшение агентных возможностей для написания кода, повышение качества генерации фронтенд-кода и увеличение скорости работы API до 60-100 токенов в секунду.
Kimi K2 — это открытая модель с архитектурой MoE на 1 триллион общих и 32 миллиарда активных параметров. Версия 0905 уже доступна в официальных приложениях Kimi, а также для самостоятельного развертывания через репозитории Hugging Face и ModelScope.
Kimi Ai в сети Х
✔️ Google Photos получил Veo 3 для Image-to-video.
Google обновляет сервис Photos, интегрируя в него модель генеративного видео Veo 3. Теперь пользователи, пока только в США, могут превращать статичные изображения в короткие четырехсекундные ролики без звука.
Функция находится во вкладке «Создать», где предлагаются опции «Легкое движение» и «Мне повезет!». Помимо оживления снимков, ИИ позволяет стилизовать фотографию под 3D-анимацию и также сохранить ее в формате видео.
Для владельцев бесплатных аккаунтов установлено ежедневное ограничение на количество генераций, а подписчики планов Ultra и Pro получают расширенные лимиты.
blog.google
✔️ RoboBallet: ИИ для автоматической координации промышленных роботов.
Google DeepMind, Intrinsic и University College London разработали метод RoboBallet, предназначенный для автоматизации программирования групп промышленных роботов, который решает проблему трудоемкой ручной настройки.
В основе - графовая нейронная сеть, обученная с подкреплением на миллионах симуляций. Роботы, задачи и препятствия представляются в виде узлов графа, что позволяет системе моделировать сложные взаимосвязи и находить оптимальные, бесконфликтные траектории движения для каждого манипулятора. Для работы системе достаточно CAD-файлов и общего описания задачи.
В лабораторных тестах RoboBallet превзошел на 25% традиционные подходы и решения. Эффективность системы масштабируется: при увеличении числа роботов с 4 до 8, среднее время выполнения задачи сократилось на 60%. Несмотря на результаты, технология пока не тестировалась на реальных производственных линиях и имеет ограничения: она не справляется с разнотипными роботами или задачами со строгой последовательностью действий.
intrinsic.ai
@ai_machinelearning_big_data
#news #ai #mlЭти задачи формализуются как HCSP — иерархические задачи удовлетворения ограничений, решение которых возникает только при последовательном сужении кандидатов на нескольких уровнях, где каждый внутренний узел сам является подзадачей, а зависимость между узлами образует дерево исследования.Базовая идея проста: данные строятся вокруг древа исследования. Вершины - сущности или атомарные факты, ребра - проверяемые отношения из Википедии и открытых страниц. Алгоритм синтеза явно управляет структурой, чтобы исключить недоопределенность или ранние "короткие замыкания". В HCSP ответ формально равен пересечению множеств, заданных текущими ограничениями и рекурсивными подвопросами; в терминах дерева корень — финальный ответ. Такой подход не только задаёт глубину и ширину рассуждения, но и делает каждый промежуточный шаг проверяемым по конкретным утверждениям. 🟡Синтез выполняет связка из 2 агентов. Планировщик контролирует глобальную сложность, выбирая цель и тип расширения, а Браузер добывает факты и ссылки из страницы сущности. 4 операции покрывают весь жизненный цикл: 🟢Инициализация из "якоря"; 🟢"Размытие родителя" - добавление нескольких независимых условий, которые в совокупности определяют уникальный ответ без включений между кандидатами; 🟢Вертикальное углубление по гиперссылке для увеличения высоты дерева; 🟢Генерация текста вопроса лишь после того, как каждый узел имеет достаточный набор проверяемых ограничений и достигнуты заданные метрики сложности. Качество контролируется по 2 осям: сложность и проверяемость. Сначала вопросы прогоняются "в лоб": если мощная базовая модель отвечает правильно без поиска, образец исключается, так было отсеяно около 2%. Затем проверяется решаемость на фиксированном наборе страниц с примесями-дистракторами и все двусмысленное удаляется. Итог: датасет с 50 тыс. пар вопрос–ответ и 16,5 тыс. траекторий размышлений с метками извлечения. 🟡Эксперименты. Тесты показали, что InfoSeek переносится за пределы домашнего домена. На классических наборах для извлечения фактов и мульти‑hop вопросов компактная модель InfoSeeker‑3B опережает типовые RAG и агентные пайплайны. На BrowseComp‑Plus с фиксированным корпусом 100K страниц и BM25 точность достигает 16,5% при среднем 8,24 обращения к поиску, что выше, чем у Gemini 2.5 Flash, Sonnet 4 и GPT‑4.1 и значительно выше Qwen3‑32B и Search‑R1‑32B. Замена обучающего набора NQ+HQA на InfoSeek поднимает точность с 3,0% до 16,5% и делает запросы осмысленно более частыми. ▶️ Из готового у проекта есть датасет, техотчет, конструктор древа данных и код для SFT- трейна. В планах - код RL и публикация весов InfoSeeker‑3B. 📌Лицензирование: Apache 2.0 License. 🟡Датасет 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #DeepResearch #Dataset #InfoSeek
OmniDocBench.
POINTS-Reader - это философия предельной простоты c прямолинейным конвейером: на вход подается изображение документа и фиксированный промпт, а на выходе получается извлеченный текст.
Никаких этапов постобработки, скриптов для очистки или дополнительных моделей — результат сразу готов к использованию.
Помимо скромной базовой Qwen2.5, в POINTS-Reader использовали умеренный по нынешним меркам Vision Transformer - NaViT на 600 млн. параметров. И это осознанный инженерный шаг в угоду простоте и производительности.
Современные фреймворки для инференса, будь то SGLang или vLLM, в первую очередь оптимизированы под LLM-часть, из-за чего громоздкий ViT становится узким местом и серьезно замедляет всю систему.
Такая компактная архитектура превосходно показала себя на тестах. На комплексном OmniDocBench модель набрала 0.133 для английских документов и 0.212 для китайских. Эти цифры ставят POINTS-Reader в один ряд с гораздо более тяжелыми и сложными системами.
Секрет проекта кроется в двухэтапной стратегии подготовки данных, которая полностью отказывается от дистилляции знаний у моделей-учителей.
На первом этапе модель получает базовые навыки OCR, обучаясь на синтетике. Дальше начинается самый интересный этап — непрерывная самоэволюция. Модель используется для генерации аннотаций на реальных документах, после чего лучшие из полученных образцов используются для ее дообучения. Этот итеративный процесс позволяет постоянно повышать качество как самой модели, так и генерируемых ею данных.Этот метод к самосовершенствованию описан в техотчете как очень гибкий и применимый, по словам Tencent, практически к любой другой архитектуре. 🟡Как в любом проекте - есть нюансы. Модель пока не очень уверенно справляется со сложными макетами, вроде газетной верстки, что может приводить к повторению или пропуску контента. Аналогичные трудности возникают и при обработке рукописного текста, например, в чеках или заметках. Кроме того, на данный момент POINTS-Reader поддерживает только английский и китайский языки. ▶️ Запустить эту прелесть модель можно на Transformers или в SGLang. Поддержку vLLM обещают добавить. 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #VLM #POINTSReader #Tencent
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
