Machine learning Interview

Ir al canal en Telegram

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

Red:Machinelearning Rusia21 653 Tecnologías y Aplicaciones4 473...

📈 Análisis del canal de Telegram Machine learning Interview

El canal Machine learning Interview (@machinelearning_interview) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 30 031 suscriptores, ocupando la posición 4 473 en la categoría Tecnologías y Aplicaciones y el puesto 21 653 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 30 031 suscriptores.

Según los últimos datos del 14 julio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -4, y en las últimas 24 horas de -11, conservando un alto alcance.

Estado de verificación: No verificado
Tasa de interacción (ER): El promedio de interacción de la audiencia es 13.34%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 6.83% de reacciones respecto al total de suscriptores.
Alcance de las publicaciones: Cada publicación recibe en promedio 4 005 visualizaciones. En el primer día suele acumular 2 052 visualizaciones.
Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 25.
Intereses temáticos: El contenido se centra en temas clave como claude, llm, контекст, hermes, nvidia.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz”

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 15 julio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

30 031

Suscriptores

-1124 horas

-357 días

-430 días

4 005

Visitas de la publicación

~ 2 05224 horas

~ 2 49648 horas

13.34%

Tasa de compromiso

~ 2

Mensajes por día

Ads index

beta

Archivo de publicaciones

30 028

Кто-то только что переписал 40 лет PostgreSQL с нуля на Rust. И он уже проходит 100% официальных тестов Postgres. Проект называется pgrust. Это не форк, а полная реализация с нуля, которая уже проходит все 46 066 запросов из официального тестового набора PostgreSQL 18.3. Postgres разрабатывается уже 40 лет, и некоторые архитектурные решения из 80-х до сих пор приводят к сбоям: - один поток на соединение, фактически отдельный OS-процесс на пользователя - 350+ параметров настройки, которыми нужно управлять вручную - один только VACUUM стал причиной тысяч инцидентов pgrust выбрасывает всё это и начинает заново. Что уже работает: - проходит 96% regression suite PostgreSQL - psql подключается из коробки, есть совместимость с wire protocol - query planner, buffer cache, storage engine, B-tree индексы - JSON/JSONB, window functions, foreign keys, EXPLAIN ANALYZE, regex - тот же движок компилируется в WebAssembly и запускается прямо в браузере на pgrust.com 100% open source. https://github.com/malisper/pgrust

30 028

Сбер открыл доступ к новым моделям распознавания речи — GigaAM Multilingual и GigaChat Audio GigaAM Multilingual включает два компонента. Аудиоэнкодер с самостоятельным обучением и многоязычную модель распознавания речи CTC ASR. Аудиоэнкодер предварительно обучили на 2 млн часов речи на 70+ языках с фокусом на страны СНГ. Поэтому модель быстрее адаптируется к новым языкам и требует меньше данных для дообучения. Многоязычную модель дообучили на 50 тысячах часов мультидоменной речи. Даже компактная версия с 240 млн параметров обгоняет популярные решения Whisper Large v3 и Omnilingual 1B. Забирайте код и веса модели на Hugging Face и GitHub: GigaAM Multilingual на Hugging Face GigaAM Multilingual на GitHub В свою очередь, GigaChat Audio — это большая языковая модель, которая объединяет возможности GigaAM Multilingual и GigaChat 3.1. Она распознаёт и переводит речь, классифицирует аудио и поддерживает диалог. Её сильная сторона — работа с длинными записями. На аудио продолжительностью 20-60 минут показатель Intersection-over-Union локализации событий достигает 48.3. При этом объём контекста составляет до двух часов. Кроме того, GigaChat Audio хорошо понимает русскую речь: 60.0 балла в бенчмарке RuBQ-Audio против 43.7 у Qwen3-Omni. А ещё распознаёт эмоции с точностью 90%+ по датасету Dusha. Забирайте код и веса модели на Hugging Face: GigaChat Audio на Hugging Face

30 028

Sakana AI показали “умные кирпичи”, которые понимают свою форму и находят повреждения Звучит как sci-fi, но это уже опубликованная работа в Nature Communications. Исследователи собрали простые кубические модули. У каждого — одинаковая маленькая нейросеть, связь только с соседними блоками и никакой карты всей конструкции. Но вместе они могут определить, во что собраны: стол, лодку, самолёт, гитару и другие формы. Cистеме не нужен центральный контроллер. Ни один “кирпич” не знает, где он находится. Глобальная картина появляется из локальных сообщений между соседями. Что умеют Smart Cellular Bricks: * распознавать общую 3D-форму * работать при шумной связи * переживать отказ части модулей * находить, где структура повреждена * подсказывать, куда нужно добавить новые блоки для восстановления Это похоже на то, как живые ткани самоорганизуются и восстанавливаются после повреждений. Пока это не “здание, которое само себя чинит”, а исследовательский прототип. Но направление мощное: материалы и конструкции, которые сами понимают свою конфигурацию, замечают поломки и помогают себя ремонтировать.

30 028

⚡️ OpenChronicle - локальная память для AI-агентов Одна из главных проблем AI-агентов: они быстро теряют контекст. Сегодня вы обсуждали проект, архитектуру, людей, решения и инструменты. Завтра агент снова спрашивает: «А что мы делаем?» OpenChronicle пытается закрыть эту дыру. Он запускается на Mac, смотрит на рабочий контекст и превращает его в постоянную Markdown-память: * проекты * решения * инструменты * людей * последние действия * важные рабочие детали Память хранится локально, её можно открыть и прочитать руками. Под капотом - Markdown на диске и SQLite. https://github.com/Einsia/OpenChronicle

30 028

WTF: Apple подала в суд на OpenAI из-за предполагаемой кражи коммерческой тайны. Компания утверждает, что OpenAI якобы вела скоординированную кампанию по получению конфиденциальной информации о ещё не выпущенных продуктах Apple для собственного AI-железа. В иске упоминаются глава hardware-направления OpenAI Тан Тан, бывший VP по продуктовому дизайну Apple, и бывший инженер Apple Чан Лю. Apple заявляет, что Лю скачал десятки конфиденциальных файлов по hardware-разработкам. Также компания утверждает, что OpenAI поощряла уходящих сотрудников делиться материалами, чертежами и информацией о продуктах. По данным иска, сейчас в OpenAI работают более 400 бывших сотрудников Apple. Apple требует, чтобы OpenAI уничтожила эти материалы и переработала будущие устройства, если в них используется её технология. На момент публикации Bloomberg OpenAI ещё не ответила. https://www.bloomberg.com/news/articles/2026-07-10/apple-sues-openai-for-trade-secret-theft-in-blockbuster-case

30 028

🧠Сравнение методов дообучения LLM: что действительно влияет на качество Исследователи лаборатории научных исследований группы «Т-Технологии» представили на ICML 2026 единый подход к сравнению методов дообучения больших языковых моделей, обучающихся на парах ответов. Подход позволяет привести разные алгоритмы к одинаковым условиям и понять, что именно влияет на качество. Главный вывод работы: решающим фактором является способ ранжирования ответов: попарный или поточечный. Идея простая: • разные методы обычно сравниваются в разных условиях • исследователи привели их к единому протоколу сравнения, чтобы выровнять условия экспериментов и сделать результаты сопоставимыми • дополнительно исследователи ввели параметр β, который регулирует силу дообучения на человеческих предпочтениях и позволяет более корректно сравнивать методы. В результате оказалось, что ключевую роль играет именно тип ранжирования ответов. Когда модель выбирает лучший вариант из пары, качество оказывается выше, чем при оценке каждого ответа по отдельности. 🔗Статья: https://arxiv.org/pdf/2502.01237

30 028

Пошаговый гайд по изучению GPU-архитектуры и программирования на CUDA. https://github.com/mesutoezdil/Systematic-CUDA-Learning

30 028

Goldman Sachs: использование токенов AI-агентами может вырасти в 24 раза к 2030 году. AI-агенты становятся первым серьёзным тестом на стоимость для всего AI-бума. На этой неделе уже писали, что Uber и Microsoft пересматривают дорогие сценарии использования агентов. Обычный чат-бот может просто ответить один раз. А агент планирует, вызывает инструменты, проверяет результат, исправляет ошибки и снова повторяет цикл. Из-за этого один пользовательский запрос может съесть в 10 раз, 50 раз или даже намного больше токенов, чем обычный ответ. Бычий сценарий Goldman Sachs: месячное потребление может дойти до 120 квадриллионов токенов к 2030 году, при этом стоимость inference за токен будет падать на 60–70% в год.

30 028

Gemma 4 Technical Report Gemma 4 - новая открытая мультимодальная линейка моделей Google. Она умеет рассуждать, читать изображения, понимать аудио, работать с длинным контекстом и эффективно запускаться в разных размерах от 2.3B до 31B параметров. Модели E2B и E4B с эффективным размером 2.3B и 4B примерно догоняют или обгоняют Gemma 3 27B, используя примерно в 10 раз меньше параметров. Аудиоэнкодер стал на 78% меньше, а KV-cache для длинного контекста удалось сократить до 37.5%. E4B даже обходит Gemma 3 27B на long-context benchmark RULER 128k: 86.6 против 66.0. Интересная деталь: 12B-модель не использует отдельные vision и audio encoders. Вместо этого она напрямую подаёт image patches и audio chunks в LLM. А 31B-модель стала лучшей dense open model в Arena Text. При этом 26B MoE активирует всего 3.8B параметров и всё равно набирает 1438 Elo. https://www.alphaxiv.org/abs/2607.02770

30 028

DeepSeek разрабатывает собственный inference-чип, чтобы снизить зависимость от NVIDIA и Huawei на китайском рынке AI-чипов объёмом около $50 млрд. Пока проект на ранней стадии: компания работает с внешними партнёрами и в закрытом режиме нанимает инженеров по chip design. Продвинутые фабрики и HBM-память остаются узкими местами, потому что ограничения США режут Китаю доступ к ключевым технологиям. Но у DeepSeek всё равно есть сильный сценарий: сделать более узкий чип под собственные модели. Такой кастомный inference-чип может снизить стоимость обслуживания моделей, уменьшить энергопотребление и дать компании больше контроля над связкой софт + железо. reuters.com/world/china/chinas-deepseek-developing-its-own-ai-chip-sources-say-2026-07-07/

30 028

hh показал, что находится под капотом у корпоративного LLM-судьи для нейроразбора резюме и как он оценивает ошибки и галлюцинации. LLM-судья — это модель, проверяющая другие модели. «Наивные» судьи могут галлюцинировать оценки, поэтому для качественного вердикта от общей шкалы отказались в пользу чётких критериев — рубрик. Чтобы сформировать каждую из них, понадобились десятки позитивных и негативных примеров. «Грамотный» судья способен хорошо различать не только очевидные попадания и промахи, но и пограничные случаи. Из деталей — отказ от общей шкалы, около сотни положительных и отрицательных примеров для каждой рубрики, отдельная таксономия ошибок и вывод: маленькой модели иногда достаточно, если критерии хорошо разложены. Чтобы выявить дефекты рубрик, использовали подход RIFT — таксономию типичных ошибок в критериях оценки. Финальный продукт работает в четыре этапа: валидация входных данных, извлечение доказательств, вердикты по рубрикам и расчёт итогового скора. Последний этап вынесли в код: финальную оценку даёт не модель. О разработке LLM-судьи и вынесенных уроках вышла статья в блоге hh на Хабре.

30 028

GigaChat 3.5 Ultra: меньше, быстрее, сильнее Сбер выкатил в open source GigaChat 3.5 Ultra — новую 432B-модель под MIT-лицензией. Это первый в open source гибрид GatedDeltaNet и MLA, доведённый до сотен миллиардов параметров, — с собственным рецептом обучения, который был собран больше чем в 1500 экспериментах. Модель выросла в коде, математике, агентных сценариях и на аренах — и при этом стала на 40% меньше, чем GigaChat 3.1 Ultra. Что внутри: • Собственная гибридная архитектура MLA + GatedDeltaNet с уникальной стабилизирующей обвязкой, без которой такой гибрид на этом масштабе просто не обучается; • Gated Attention — модель может локально приглушать слишком сильный сигнал из attention-слоя; • GatedNorm — нормализация с явным гейтом для управления масштабом сигнала между признаками. Команда Сбера выкладывает подобную стабилизирующую оптимизацию в опенсорс первыми в мире; • Примерно в 4 раза меньше KV-кеша на токен, в ту же память помещается в 2,14 раза больше контекста, throughput под нагрузкой +20%; • Две MTP-головы и ускорение генерации до 2,2 раза; • FP8 на всех этапах обучения без потери качества относительно bf16 — свои Triton- и CUDA-ядра; • Новый этап online RL после SFT и DPO. Результаты: - GigaChat-3.5-Ultra-Base обходит DeepSeek V3.2 Exp Base и DeepSeek V4 Flash Base в среднем по нашему набору general-, math- и code-бенчмарков (полные таблицы — в статье); - GigaChat-3.5-Ultra-Instruct сравним с DeepSeek V3.2 по среднему скору, будучи в полтора раза меньше; - По LLM-судье MiniMax-M2.7 средний win-rate против GigaChat 3.1 Ultra — 75,9%, а против GPT-5 — 68.7%. Весь стек — данные (свой LLM-парсинг веба, 600+ языков программирования в коде), архитектура, рецепт обучения, инфраструктура — сделан командой Сбера end-to-end. Подробности, включая детали реализации гейтов и рецепт стабилизации, — в статье на Habr. HuggingFace | GitVerse

30 028

Anthropic залезла Claude в голову и нашла там штуку, от которой становится немного не по себе. Исследователи называют её это J-space скрытое пространство внутренних активаций, где у модели вспыхивают концепты, даже если она их не произносит. Это глубже, чем обычный chain-of-thought. J-space никто специально не проектировал: он появился сам во время обучения. Пример очень дикий: Claude находит баг, о котором его вообще не спрашивали, и внутри сразу активируется паттерн ERROR. Но самый странный кейс - тест со сценарием шантажа. Ещё до финального ответа Claude держал внутри fake и fictional. То есть модель понимала, что ситуация постановочная и её проверяют. Когда это внутреннее осознание отключили, модель уже спокойно пошла по плохому сценарию. Короче, теперь вопрос звучит иначе: не «что нейронка мне отвечает», а что она на самом деле держит у себя в голове. https://www.anthropic.com/research/global-workspace

30 028

⚗️ Очень клевая open-source альтернатива Claude Science: OpenScience, локальная AI-лаборатория с агентами-исследователями. Задаёте цель исследования, а дальше агенты читают статьи, пишут код, запускают эксперименты и сохраняют результаты в понятном workflow. Под капотом можно подключать разные модели: GLM, Kimi, DeepSeek, Claude, GPT и свои дообученные варианты. Внутри уже есть 250+ скиллов для исследований, биологии, химии, ML и других научных задач. Плюс интеграции с 30+ базами данных, включая Ensembl, ChEMBL, PubChem, arXiv и Semantic Scholar. OpenScience можно запускать на своей инфраструктуре, держать данные локально и собирать команду AI-агентов под конкретный research-процесс. По сути, это попытка собрать научную лабораторию нового типа: статьи, код, эксперименты, базы данных и агенты в одной среде. https://github.com/synthetic-sciences/openscience

30 028

ИИ-агенты научились сами себя улучшать без участия инженеров Исследователи опубликовали работу под названием «Next-Generation Agentic Reinforcement Learning Systems Enable Self-Evolving Agents», где описан механизм, позволяющий корпоративным ИИ-агентам развиваться без постоянного вмешательства разработчиков. Агенты, которые работают внутри компаний, каждый день генерируют огромный объем полезных данных о своей работе. Проблема в том, что команды обычно улучшают их вручную: инженеры вычитывают логи, правят промпты, дообучают модели и заново разворачивают системы. Такой процесс медленный и не поспевает за темпом накопления данных. Авторы предлагают трехчастный механизм. Сначала каждый шаг агента записывается в общем формате, пригодном для дальнейшего обучения. Затем данные проходят через прокси-слой, который очищает их, приводит к единому виду, сохраняет и позволяет заново воспроизводить реальные сценарии работы. Отдельный управляющий слой решает, что стоит обновить: память агента, его навыки, промпты, инструменты или веса самой модели. Один из примеров такого подхода уже работает на практике, это система AREAL2.0, в которой обращения агента к языковой модели проходят через онлайн-сервис обучения с подкреплением. Благодаря этому реальные взаимодействия агента сразу становятся материалом для будущих обновлений модели. Авторы считают, что индустрии нужна именно система для превращения повседневной работы агента в пригодные для обучения данные. Это более важная задача, чем поиск более удачных алгоритмов оптимизации. Будущим агентам потребуются безопасные и воспроизводимые способы обновления памяти, навыков, промптов, инструментов и моделей, чтобы прогресс оставался управляемым. Полный текст работы: https://arxiv.org/abs/2607.01120v1

30 028

Вышла полезная работа про то, почему reasoning-модели становятся сильнее после обучения. Авторы пишут, что дело не только в размере датасета. Для reasoning важнее другое: есть ли у модели понятная проверка, где она справилась, где ошиблась и почему. Обычная пара «вопрос → ответ» даёт мало сигнала. Она показывает результат, но не показывает процесс: какой шаг был неверным, какой вызов инструмента помог, где модель восстановилась после ошибки, какой judge подтвердил решение. Поэтому хороший обучающий пример для reasoning должен хранить больше контекста: саму задачу, действия модели, проверку результата и метаданные о том, откуда взялся пример. Проверка бывает разной. В математике и коде можно использовать точные тесты. У агентов можно смотреть, справился ли он в окружении. В более размытых задачах приходится подключать людей или model-judge. Отдельно авторы предупреждают о популярных ошибках. Длинная цепочка рассуждений не всегда полезна. Сложные задачи не всегда улучшают конкретную модель. Большой датасет может выглядеть внушительно, но всё равно плохо покрывать нужные навыки. Для agent data особенно важно сохранять всю «грязную» траекторию: неудачные действия, повторные попытки, исправления, изменения состояния и финальную проверку. Часто именно там лежит самый ценный обучающий сигнал. Итоговый подход такой- обучать reasoning-модель не на красивых ответах, а на проверяемых попытках, где видно, что сработало, что сломалось и почему это можно использовать для обучения. Paper: A Primer in Post-Training Reasoning Data: What They Know About How It Works https://arxiv.org/abs/2606.02113

30 028

⚡️ 30 техник памяти для AI-агентов в Jupyter notebooks Вышел репозиторий Agent Memory Techniques с 30 runnable notebooks по памяти в современных AI-агентах. Внутри собраны основные подходы: conversation buffers, vector stores, knowledge graphs, episodic и semantic memory, MemGPT, Mem0, Letta, Zep, Graphiti и production-паттерны, которые уже встречаются в реальных агентных системах. Это набор ноутбуков, которые можно запускать, менять и сравнивать между собой. Удобно, если нужно понять, чем простая история диалога отличается от долговременной памяти, где уместен vector store, когда нужен graph-based подход и как память влияет на поведение агента в длинной задаче. GitHub: http://github.com/NirDiamant/Agent_Memory_Techniques

30 028

Текущий доступ к Fable-5 по подписке закончится после 7 июля. Anthropic снова подтвердила, что хочет вернуть Fable 5 как стандартную модель в подписке Claude, когда улучшится доступная мощность, но точной даты пока нет. Сейчас Fable 5 доступна подписчикам Pro, Max, Team и Enterprise с оплатой за места только до 7 июля. Есть ограничение: на Claude Fable 5 можно потратить до 50% недельного лимита подписки без дополнительной оплаты. После 7 июля Fable-5 перейдёт на usage credits, то есть больше не будет входить в обычную подписку.

30 028

OpenAI, по данным Financial Times, предложила передать 5% акций правительству США. При текущей оценке компании в $852 млрд такая доля стоила бы около $42.6 млрд. Сообщается, что Сэм Альтман лично обсуждал идею с Дональдом Трампом, министром торговли Говардом Лютником и министром финансов Скоттом Бессентом. Логика простая: дать обществу прямую долю в экономическом росте AI и снизить политическое сопротивление вокруг индустрии. По задумке, другие крупные AI-компании США, включая Anthropic, Google и Meta, тоже могли бы внести доли в фонд по модели Alaska Permanent Fund, который выплачивает дивиденды из доходов от инвестиций штата. Пока переговоры находятся на ранней стадии. Любая такая схема, вероятно, потребует одобрения Конгресса.

30 028

GFusion показывает, что LLM можно ускорять не только за счёт железа. Сбер открыл исходный код экспериментальной диффузионной языковой модели на базе GigaChat. В классической autoregressive-схеме модель генерирует текст токен за токеном. GFusion работает иначе: сначала создаёт приблизительный «набросок» ответа, а затем пошагово дорабатывает его — так же, как нейросети генерируют изображения и видео. За счёт этого модель получилась до 70% быстрее GigaChat3-10B-A1.8B и на 39% быстрее версии с MTP. Просадка качества при этом осталась в пределах 2–4 п.п. В open source выложили не только саму модель, но и обучение, оптимизированные attention-ядра и поддержку в SGLang. Интересная деталь: весь проект реализовал стажёр команды GigaChat Pretrain — и теперь он работает в штате. Пока большая часть индустрии упирается в стоимость GPU, latency и дата-центры, часть ускорения может лежать в архитектуре генерации. Не в том, где запускать модель, а в том, как именно она генерирует ответ. Habr: https://habr.com/ru/companies/sberbank/articles/1054690/ Модель: GFusion-10B-A1.8B-base GFusion-10B-A1.8B GitVerse