Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
显示更多📈 Telegram 频道 Machinelearning 的分析概览
频道 Machinelearning (@ai_machinelearning_big_data) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 297 383 名订阅者,在 技术与应用 类别中位列第 324,并在 俄罗斯 地区排名第 1 261 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 297 383 名订阅者。
根据 14 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -6 744,过去 24 小时变化为 -170,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.03%。内容发布后 24 小时内通常能获得 5.69% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 23 912 次浏览,首日通常累积 16 939 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 186。
- 主题关注点: 内容集中在 openai, claude, api, gemini, контекст 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
凭借高频更新(最新数据采集于 15 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
Языковые модели обычно знают уже состоявшиеся открытия из обучающих данных, поэтому при прямом вопросе об известном результате легко дают верный ответ.CUSP это блокирует: для события, скажем, 2025 года модели разрешают опираться только на сведения, доступные до этой даты.
Говоря проще, систему возвращают в прошлое и заставляют предсказывать будущее вслепую.В основу теста легли 4760 научных событий за январь 2024 - март 2026 годов из журналов Nature, Science, Cell и подборок заметных работ по ИИ. На этой базе было сформировано 17 429 заданий. В прогонах принимали участие GPT-5.4, Claude Sonnet 4.5, DeepSeek R1 и GPT-OSS 20B. 🟡Результаты Выбрать правдоподобное техническое направление смогли - на вопросах с выбором ответа GPT-5.4 показала точность 81,9%. Но определить, будет ли конкретное достижение вообще реализовано, модели почти не способны: точность держалась в пределах 45–52%, что близко к подбрасыванию монеты. Сроки все модели называли с запаздыванием: медианная ошибка GPT-5.4 составила 14 месяцев, Claude Sonnet 4.5 - 17, а вот LLaMA 3.3 оказалась самой точной - 4 месяца. В задачах на проектирование решения даже лучший результат (5,04 из 10 у GPT-5.4) не попадал в реально применённый позже технический путь.
Рисёрч отмечает деталь: качество прогноза почти не зависело от того, относится событие к периоду до или после среза знаний модели.Это означает, что дело не только в нехватке данных. Доступ к дополнительной информации повышает результаты, но не закрывает разрыв, причём для самых цитируемых работ он был заметнее. До кучи - модели систематически переоценивали уверенность в своих ответах. 🟡Вывод LLM пока выступают скорее ретроспективными толкователями уже известных результатов, чем надёжными предсказателями будущих. 📌Лицензирование: MIT License 🟡Страница проекта 🟡Arxiv 🟡Датасет 🖥Github @ai_machinelearning_big_data #AI #ML #LLM #Research #Science #Benchmark
KV-кэш - структура, в которой модель хранит промежуточные представления токенов при генерации. На длинных контекстах он занимает значительную часть памяти GPU, и его сжатие позволяет либо обслуживать больше запросов одновременно, либо ускорять чтение из памяти. Прежние попытки сжать кэш до 2-х бит ухудшали качество ответов.OSCAR обходит это ограничение за счёт того, что поворот активаций перед квантованием рассчитывается исходя из статистики внимания. Метод предлагает сначала собрать на калибровочном наборе ковариационные матрицы запросов и значений, взвешенных оценками внимания, и из них вывести персональный поворот для ключей и значений каждого слоя. После этого применяется преобразование Адамара, выравнивающее значимость каналов, и перестановка с побитовым реверсом, чтобы соседние каналы попадали в один диапазон при поквантовом сжатии. Первые 64 и последние 256 токенов контекста при этом хранятся в полной точности BF16 как опорные, всё остальное - в 2-х битах. Калибровка выполняется один раз, поворот и пороги отсечения фиксируются, а онлайн-наценка по вычислениям скрывается внутри ядер декодирования. 🟡Тесты На задачах AIME25, GPQA-Diamond, HumanEval, LiveCodeBench v6, MATH500 метод удерживается близко к точности базового режима BF16. Разрыв составляет 3,78 пункта на Qwen3-4B-Thinking-2507, 1,42 пункта на Qwen3-8B и около нуля на Qwen3-32B и GLM-4.7-FP8. 🟡Результаты на длинных контекстах По бенчмарку RULER-NIAH OSCAR работает стабильнее остальных двухбитных методов, но для меньших моделей разрыв с BF16 растёт по мере увеличения контекста: на Qwen3-4B-Thinking-2507 при 128 тыс. токенов точность падает с 81,0 до 39,5 пункта. Для GLM-4.7-FP8 кривая практически совпадает с BF16. В замерах на NVIDIA H100 скорость декодирования при контексте в 100 тыс. токенов выросла в 2,8–3,1 раза относительно BF16. OSCAR совместим с paged attention и встраивается в SGLang без изменений на стороне клиента. Для экспериментов Together AI выложила предвычисленные матрицы для Qwen3-4B-Thinking, Qwen3-8B, Qwen3-32B и GLM-4.7-FP8. 📌Лицензирование: Apache 2.0 License 🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #Quantization #OSCAR #TogetherAI
По оценке основателя Phoronix Майкла Ларабела, это первый ARM-процессор, который на серверных нагрузках сопоставим с актуальными Intel Xeon и AMD EPYC.В среднем по протестированным задачам Vera оказался примерно на 10% быстрее 64-ядерного AMD EPYC 9575F и в 1,55 раза быстрее Intel Xeon 6980P, флагмана линейки Granite Rapids. По сравнению с предыдущим процессором NVIDIA Grace производительность выросла примерно на 63%. В тесте сборки ядра Linux со стандартной конфигурацией Vera показал лучший результат среди всех испытуемых - 20 секунд. Конфигурация Vera включала 88 ядер и 176 потоков, 8 модулей памяти LPDDR5-9600 общим объёмом 768 ГБ и TDP 450 Вт. С учётом потребления памяти полная нагрузка системы составила около 500 Вт. У топовых EPYC Turin и Xeon Granite Rapids аналогичный показатель относится только к самому процессору, без памяти.
При этом публиковать полные данные об энергопотреблении NVIDIA не разрешила, поэтому реальная энергоэффективность остаётся неизвестной.🟡Нюансы Набор бенчмарков был ограничен самой NVIDIA - тестировались сценарии, под которые компания и позиционирует чип: компиляция кода, Python, Java, база данных ClickHouse, сжатие Zstd, кодирование видео SVT-AV1, 7-Zip и ряд других. Тестов агентного ИИ (ключевого, по заявлениям NVIDIA, сценария применения процессора) в этом раунде не проводилось, их обещают опубликовать позднее. Цена и сроки массовой доступности вне крупных облачных и ИИ-клиентов также не объявлены. Поставки партнёрам запланированы на вторую половину 2026 года. 🟡Не Верой единой AMD готовит EPYC Venice на архитектуре Zen 6 с планами по выходу до конца года, Intel Xeon Diamond Rapids ожидается в 2027-м.
По оценке Phoronix, после выхода Venice, AMD может вернуть лидерство за пределами целевых для Vera сценариев, поэтому многое будет зависеть от того, как быстро NVIDIA сможет выпустить рефреш Olympus.@ai_machinelearning_big_data #news #ai #ml
«Яндекс выходит на новый для себя рынок моделей, созданных специально под запросы бизнеса. Alice AI LLM Flash поможет российским компаниям перейти на российские нейросети для автоматизации работы с огромными объемами данных», — руководитель платформы Yandex AI Studio Артур СамигуллинИнтересно, что рынок постепенно приходит к разделению моделей по специализации: тяжёлые reasoning-модели отдельно, быстрые и дешёвые inference-модели для high-load production-задач — отдельно. Попробовать новую модель уже можно в Yandex AI Studio. @ai_machinelearning_big_data #news #ai #ml
ByteDance говорит, что на второй день после публикации модель вошла в тройку лидеров рейтинга Hugging Face Trending.Lance построена по принципу dual-stream MoE: специализированные пути для понимания и для генерации работают в общем контекстном пространстве, но обладают разной модельной ёмкостью. Авторы придумали собственный механизм позиционного кодирования MaPE, который помогает модели различать роли разнородных визуальных токенов внутри одной последовательности. Когда Lance одновременно учится понимать и генерировать, в одну последовательность попадают визуальные токены разной природы: одни описывают исходное изображение для анализа, другие задают условие для генерации, третьи представляют сам будущий кадр на зашумлённой стадии.
Стандартное позиционное кодирование сообщает модели только то, где каждый токен расположен в пространстве и во времени, но ничего не говорит о его роли — и при смешанном обучении модель легко начинает путать, что именно от неё требуется в данной точке.MaPE добавляет к позиции дополнительный сигнал о принадлежности токена к функциональной группе - фактически снабжает каждый элемент меткой "это для понимания", "это условие", "это то, что нужно сгенерировать", при этом не ломая ни пространственную структуру изображений, ни временной порядок кадров видео. Модель по-прежнему видит "где" и "когда", но дополнительно понимает, "зачем" здесь оказался конкретный токен. 🟡Тесты 🟢VBench (генерация видео) - 85,11; 🟢MVBench (понимание видео) - 62,0; 🟢GenEval (генерация изображений) - 0,90; 🟢GEdit-Bench (редактирование) - 7,30. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #Multimodal #Lance #ByteDance
Авторы исходят из того, что большинство моделей тестируются лишь на небольшой части существующих бенчмарков, а значит, многие LLM никогда не проверялись на задачах, где могли бы показать лучший результат.🟡Принцип работы Сначала графовая нейросеть (либо языковая модель с графовым контекстом) ранжирует ещё не оценённые пары по вероятности достичь нового рекорда.
По утверждению института, такой подход превосходит методы ранжирования, основанные исключительно на промптинге языковых моделей.На втором этапе LLM-агент, способный писать и исполнять код, проводит реальную оценку отобранных пар. Промежуточные результаты сохраняются в общей памяти и используются при последующих запусках. По данным AI2, агент воспроизводит метрики с точностью до 80% в 72,6% случаев.
Среди наблюдений авторов интересно то, что более свежие LLM, в частности Gemma, нередко уступают существенно более ранней архитектуре DeBERTa на задачах распознавания логических отношений между утверждениями.Вместе с кодом ArtifactLinker опубликован ArtifactBench - гетерогенный граф из 14 тыс объектов HuggingFace (модели, датасеты, научные статьи, репозитории кода) и 51 тыс связей между ними, включая результаты оценок, эпизоды дообучения и взаимные ссылки.
Институт позиционирует бенч как ресурс для задач предсказания связей в графе и регрессии метрик качества моделей.📌Лицензирование: Apache 2.0 License. 🟡Arxiv 🟡Бенчмарк 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #Benchmark #ArtifactLinker #Ai2
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
