Data Portal | DS & ML
Open in Telegram
Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx
Show more8 401
Subscribers
-624 hours
-107 days
-930 days
Posts Archive
Идеальный момент, чтобы превратить свои навыки по автоматизации в многомиллионный контракт
Реалии требуют от бизнеса максимальной эффективности, и корпорации активно ищут в рынке технологии автоматизации. ИИ, компьютерное зрение и робототехника становятся самой лакомой нишей для развития B2B-стартапов в России.Корпоративные отделы инноваций готовы вкладываться в разработку технологий, тестировании на реальном производстве и масштабировании. Завтра, 16.06 в 14:00, платформа Unicorns’ Room соберет профильных менеджеров Открытых инноваций «ВкусВилла» и топовых рыночных экспертов, чтобы обсудить: ❔Тренды и возможности технологий ❔Реальные рыночные запросы корпорации на автоматизацию ❔Стратегию пилотирования и продажи технологии в бизнес В конце вы получите возможность презентовать свои заработки и получить советы по интеграции в корпоративный контур на примере «ВкусВилла». Лучшие проекты, релевантные запросам «ВкусВилла», получат шанс на оплачиваемый пилот. 📅 16.06, 14:00 (мск) 🔗 Бесплатная регистрация
Claude Code полностью разобрали по косточкам
Исследователи из UCL провели реверс-инжиниринг утёкшего исходного кода Claude. Их выводы меняют представление о том, как стоит проектировать AI-агентов.
Лишь 1,6% кодовой базы отвечает за логику принятия решений моделью.
Остальные 98,4% — это операционная инфраструктура: контроль разрешений, маршрутизация инструментов, сжатие контекста, логика восстановления, сохранение состояния сессий. Модель занимается рассуждением. Всё остальное делает обвязка (harness).
Это противоположно тому, как сегодня устроено большинство агентных фреймворков.
LangGraph пропускает ответы модели через явные конечные автоматы состояний. Devin накладывает тяжёлые планировщики поверх операционной инфраструктуры. Claude Code, наоборот, даёт модели максимум свободы в принятии решений внутри богатой детерминированной обвязки и направляет основные инженерные усилия именно на эту обвязку.
Основной цикл предельно простой:
while (true). Вызов модели, запуск инструментов, повтор.
Но настоящая архитектура находится вокруг этого цикла:
- Система разрешений с 7 режимами работы и ML-классификатором. Пользователи всё равно одобряют 93% запросов, поэтому архитектура компенсирует это автоматизированными слоями защиты вместо добавления новых предупреждений.
- Пятиуровневый пайплайн сжатия контекста. Каждый следующий уровень запускается только если более дешёвый не справился: budget reduction, snip, microcompact, context collapse, auto-compact.
- Четыре механизма расширения, упорядоченные по стоимости контекста: hooks (нулевая стоимость), skills (низкая), plugins (средняя), MCP (высокая). Каждый решает свою задачу интеграции.
- Субагенты возвращают родительскому агенту только итоговое резюме. Полные логи их работы сохраняются в sidechain-файлах. Даже при таком подходе команда агентов расходует примерно в 7 раз больше токенов, чем обычная сессия.
- Функция Resume не восстанавливает разрешения, привязанные к сессии. Доверие устанавливается заново при каждой новой сессии. Именно так и задумано.
Ставка всей этой архитектуры проста: по мере того как передовые модели выравниваются по качеству программирования, главным фактором становится не сама модель, а качество обвязки вокруг неё.
Статья: Dive into Claude Code (arXiv:2604.14228)
Также авторы выпустили отдельный материал про Agent Harness и то, что сегодня строят крупные компании в этой области.
👉 @DataSciencegxЭто исследование хорошо ложится на опыт любого, кто активно работает с Claude Code, Codex или другими агентами.
Оно смотрит не на бенчмарки, а на реальную работу в разработке:
как именно AI-агенты раздражают разработчиков в живых сессиях.
Авторы проанализировали 20 574 сессии (IDE и CLI). “Фейл” они определили не как падение кода, а как моменты, когда разработчик начинает исправлять, прерывать или спорить с агентом.
Картина довольно приземлённая. Чаще всего проблема не в том, что код не работает. Проблема в том, что агент нарушает явно заданные ограничения.
Ты пишешь: “не трогай этот файл”, “пока ничего не меняй”, “сделай минимальные правки” — он всё равно лезет дальше.
Просишь объяснить проблему — он параллельно начинает менять код.
Говоришь проверить всё перед финальным ответом — он рапортует успех до запуска проверок.
Есть интересное разделение:
CLI-агенты чаще нарушают границы, потому что им дают длинные, слабо ограниченные задачи.
IDE-агенты чаще делают локальные ошибки, потому что работают как плотный “копилот” и постоянно правят код в мелких итерациях.
Самое неприятное в этих сбоях — они редко ломают систему сразу. Они просто съедают время и доверие. Приходится постоянно перепроверять: понял ли он задачу, не вышел ли за рамки, реально ли он что-то проверил.
Это хорошо совпадает с практикой: утомляет не столько генерация кода, сколько постоянный контроль над тем, не уехал ли агент в сторону.
И отсюда простой вывод. Улучшение агентов — это не только про качество кода. Это про соблюдение границ, понимание намерений и честную отчётность о прогрессе.
Главная проблема тут не в скорости написания кода. А в том, сколько времени уходит на разбор того, что он “написал не туда”.
👉 @DataSciencegx
Вау, это интересно.
Исследователи из Stanford проверили распространённое предположение: большие модели якобы нужно обучать только на “высококачественных” отфильтрованных данных.
А что если лучший фильтр — это отсутствие фильтра?
Они сравнили полный датасет Common Crawl с сильно отфильтрованными версиями и получили неожиданные результаты:
1. Фильтрация помогает при ограниченном бюджете вычислений — модель просто не успевает нормально учиться на всём подряд.
2. Но по мере роста модели и увеличения времени обучения полный, неочищенный датасет начинает выигрывать.
Большие модели лучше справляются с “грязными” данными, чем ожидалось. Низкокачественный текст, нерелевантные фрагменты или откровенный мусор не являются критичной проблемой — модель это переваривает.
Более того, она всё равно вытаскивает полезные сигналы даже из слабых данных.
Из этого меняется базовое правило:
→ Фильтрация полезна при ограниченных ресурсах. Но при больших вычислениях чрезмерная очистка данных может просто выбросить полезную информацию.
Это хорошо ложится на идею “bitter lesson”: на масштабе часто побеждает простое масштабирование, а не ручная инженерия.
Дальше всё упирается в ограничения и выбор: увеличивать вычисления или тратить время и ресурсы на жёсткую фильтрацию данных.
Интересно, как бы ты это использовал на практике 👀
https://arxiv.org/abs/2605.19407
👉 @DataSciencegx
Теперь можно дообучать Qwen3.5.
Для локального обучения LoRA-адаптера на Qwen3.5-2B достаточно всего 5 ГБ видеопамяти. Обучение стало примерно в 1.5 раза быстрее и требует на 50% меньше VRAM.
Qwen3.5-4B в Google Colab:
https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(4B)_Vision.ipynb
GitHub-проект Unsloth:
https://github.com/unslothai/unsloth
Подходит для быстрого и экономичного дообучения моделей Qwen3.5 на собственных данных даже на относительно слабых видеокартах.
👉 @DataSciencegx
Исследователи показали способ ускорить генерацию LLM до 8,5 раза без потери качества.
Речь идёт о новом методе под названием DFlash, который развивает идею speculative decoding.
Проблема классических LLM хорошо известна: модель генерирует токены по одному. Каждый следующий токен требует нового прохода через модель, что создаёт узкое место при инференсе.
Speculative decoding частично решает эту проблему.
Сначала небольшая draft-модель предлагает несколько следующих токенов, после чего большая модель проверяет их за один проход.
Если где-то обнаруживается ошибка, все токены до неё сохраняются, а генерация продолжается с этого места. Качество остаётся таким же, как при обычном декодировании.
Но у подхода есть ограничение.
Даже draft-модели обычно генерируют токены последовательно, по одному за раз. В результате сам этап черновой генерации становится новым узким местом, и ускорение на практике редко превышает 2–3 раза.
DFlash заменяет авторегрессионную draft-модель на лёгкую diffusion-модель, которая генерирует сразу весь блок токенов параллельно.
Получается следующая схема:
Обычный speculative decoding:
→ Draft-модель предсказывает токены по одному
→ Основная модель проверяет результат
DFlash:
→ Diffusion-драфтер генерирует весь блок сразу
→ Основная модель проверяет результат
Стоимость черновой генерации при этом практически не зависит от количества предполагаемых токенов.
Дополнительно драфтер получает скрытые представления из нескольких слоёв основной модели. Эти признаки передаются во все слои драфтера, что помогает ему делать более точные предсказания.
По данным авторов, в демонстрации:
• Обычный декодинг — 48,5 токена/сек
• DFlash — 415 токенов/сек
При этом качество генерации не ухудшается.
Технология уже интегрирована в:
• vLLM
• SGLang
• Transformers
Также опубликованы готовые draft-модели для:
• Qwen3
• Qwen3.5
• Llama 3.1
• Kimi-K2.5
• gpt-oss
• и других моделей
Если результаты подтвердятся на широком наборе сценариев, DFlash может стать одним из самых заметных улучшений speculative decoding за последнее время, поскольку атакует главное ограничение метода — последовательную работу draft-модели.
https://github.com/z-lab/dflash
👉 @DataSciencegx
PixelRAG предлагает довольно простую идею: отказаться от HTML-парсинга в web RAG.
Большинство RAG-систем работают так:
→ HTML
→ Извлечение текста
→ Чанкинг
→ Ретривер
→ LLM
PixelRAG использует другой подход:
→ Рендер страницы
→ Скриншоты (тайлы)
→ Визуальный ретривер
→ VLM читает изображение страницы
Авторы утверждают, что HTML-to-text преобразование часто теряет полезную информацию: структуру страницы, таблицы, инфобоксы и другие визуальные элементы.
Для экспериментов был построен визуальный индекс из более чем 30 млн скриншотов веб-страниц Википедии.
Обучение ретривера полностью автоматизировано. Для генерации обучающих данных используются веб-страницы, LLM-сгенерированные поисковые запросы и автоматически подобранные негативные примеры. Ручная разметка не использовалась.
Для дообучения применялась LoRA к VLM и ViT-энкодеру. По словам авторов, обучение заняло около трёх часов на одной H100.
В статье PixelRAG превосходит лучший текстовый бейзлайн на всех использованных бенчмарках:
• SimpleQA — 78.8% (+7.1)
• NQ-Tables — 48.8% (+6.3)
• EVQA — 45.1% (+15.5)
• LiveVQA — 70.3% (+11.3)
Авторы отдельно отмечают, что улучшения наблюдаются не только на визуальных задачах, но и на бенчмарках, которые обычно относят к текстовым.
Также PixelRAG был интегрирован в ReAct-агента и протестирован на MoNaCo. В статье сообщается, что система показала более высокую точность ответов, чем Google Search и DS-Serve, при меньших затратах на инференс.
Ещё одно наблюдение авторов связано с масштабированием. Поскольку индекс хранится в визуальном виде, качество системы может улучшаться по мере появления более сильных VLM без переиндексации данных и изменения пайплайна.
Код проекта опубликован в открытом доступе, а в статье есть подробные разборы ошибок, абляционные исследования и сравнение более чем с 25 VLM-моделями.
👉 @DataSciencegx
большая подборка материалов по LLM Systems,
• обучение моделей (pre-training, RLHF, fault tolerance, stragglers)
• инференс и serving
• агентные системы
• edge deployment
• мультимодальные модели
• технические отчёты от крупных лабораторий
• обзоры, бенчмарки и лидерборды
• курсы по MLSys и подборки статей с конференций
https://github.com/AmberLJC/LLMSys-PaperList
👉 @DataSciencegx
Claude Code может терять направление, когда задача требует реального анализа: отладки, архитектурных компромиссов, оценки рисков или выработки стратегии.
Claude Code Thinking Skills — это библиотека из 39 ментальных моделей и фреймворков критического мышления для пользователей Claude Code, которым нужен более структурированный подход к рассуждениям
Она помогает разбирать сложные задачи через навык thinking-model-router, который подбирает подходящую модель мышления под тип проблемы, вместо того чтобы полагаться на случайные промпты.
Что входит:
• 39 моделей мышления — включая First Principles, Bayesian Reasoning, Systems Thinking, OODA, Pre-Mortem, TRIZ и другие.
• Точка входа через Router — определяет домен и тип задачи, после чего предлагает наиболее подходящий фреймворк.
• Нативная интеграция с Claude Code — каждая модель упакована как отдельный Claude Code Skill, который можно вызвать по имени.
• Установка через плагины — в README есть инструкции по установке через маркетплейс Claude Code и ручному копированию.
• Прозрачная система оценки — проект публикует результаты тестирования и репликации, включая текущий результат: «ноль устойчиво воспроизведённых вердиктов ELEVATE».
Проект распространяется с открытым исходным кодом по лицензии MIT.
https://github.com/tjboudreaux/cc-thinking-skills
👉 @DataSciencegx
Google опубликовала бесплатное руководство по масштабированию ИИ-моделей и работе с GPU.
📘 How to Scale Your Model
https://jax-ml.github.io/scaling-book/
📘 How to Think About GPUs
https://jax-ml.github.io/scaling-book/gpus/
В материалах разбираются принципы масштабирования моделей, устройство GPU, вычислительные ограничения, пропускная способность памяти, параллелизм и другие темы, которые пригодятся при обучении и запуске современных ИИ-моделей.
Полностью бесплатно и доступно онлайн.
👉 @DataSciencegx
Вышел Memento-Skills. И это агентный фреймворк, в котором агенты учатся на собственных ошибках и переписывают свои скиллс самостоятельно.
Большинство агентных систем используют статические скиллы. Тоесть написал один раз, загрузил в контекст и надеешься, что всё сработает. Если скилл ломается — исправлять приходится вручную.
Memento-Skills работает иначе. Если скилл не справляется с задачей, система анализирует причину сбоя, находит проблемный скилл, переписывает его и сохраняет улучшенную версию обратно в библиотеку.
Цикл работы выглядит так:
→ Read — выбирает нужные скиллы из локальной библиотеки
→ Execute — выполняет их в песочнице с доступом к инструментам
→ Reflect — анализирует ошибки и определяет, какой скилл подвёл
→ Write — улучшает существующие скиллс или создаёт новые
По сути, это агентная система, которая постепенно улучшает собственную библиотеку навыков на основе накопленного опыта.
Проект протестировали на бенчмарках HLE (Humanity's Last Exam) и GAIA. По мере роста библиотеки навыков результаты улучшались от раунда к раунду.
Поддерживает Kimi, MiniMax, GLM и другие OpenAI-совместимые API.
В комплекте уже есть 9 базовых скиллов: работа с файлами, веб-поиск, PDF, DOCX, XLSX, PPTX, анализ изображений, создание навыков и установка зависимостей.
Исходный код полностью открыт. 🔥
👉 @DataSciencegx
Лето начинается: водные развлечения, гриль на острове и новые маршруты в бутик-отеле «Заонежье»
Для гостей бутик-отеля «Заонежье» к новому сезону подготовлены лесные трассы для первых заездов на новых квадроциклах — они позволяют исследовать дикие уголки карельской тайги и скалистые берега озер. Велопрогулки по дорогам Заонежья стали еще комфортнее благодаря электробайкам, которые этой весной пополнили велопарк отеля.
В мае, в отеле открылся сезон водных развлечений: гостям доступны сапы, каяки и весельные лодки. В этом году пользование ими - комплементарное для всех гостей. Также появились новые маршруты для катеров по заливам Онежского озера.
Ресторан «Руна» представляет летнюю серию гриль-сетов, которые можно приготовить самостоятельно на одном из необитаемых островов или устроить барбекю на лужайке у дома. В меню — овощные и рыбные сеты, а также мясное ассорти.
Бутик-отель «Заонежье» приглашает к активному отдыху среди озер и северной природы Карелии.
Вышла новая работа о том, как ИИ-агенты меняют интеллектуальный труд.
Редкий случай, когда обсуждают не модели и бенчмарки, а то, как меняется сама работа людей.
Авторы рассматривают внедрение агентов через 3 параметра:
• уровень автономности
• рост эффективности
• объём задач, которые сотрудники готовы делегировать агентам
Интересный вывод: главный барьер для внедрения агентов часто связан не с качеством моделей.
Большинство людей просто никогда не учили работать с агентными системами.
Статья: https://arxiv.org/abs/2606.07489
👉 @DataSciencegx
Поздравляем, вы на 1 шаг ближе к работе мечты 🥳
Осталось только прочитать этот пост, подписаться на канал и откликнуться на вакансию 😉
Avito Career* — место, где Авито делится актуальными вакансиями и стажировками для Data Science специалистов.
Подписывайтесь, чтобы найти ту самую работу ✨
*карьера
Как AI Engineer, изучайте:
- Инженерию агентных рантаймов (agent harness engineering), а не только промпт-инжиниринг
- Контекстную инженерию (context engineering), а не только длинные промпты
- Компромиссы между prompt caching и semantic caching
- Управление KV-кэшем: вытеснение, повторное использование и давление на память при масштабировании
- Разницу между задержкой на prefill и decode, и почему они требуют разных подходов к оптимизации
- Continuous batching, paged attention и повышение пропускной способности (throughput)
- Компромиссы между speculative decoding, квантизацией и дистилляцией
- INT8, INT4, FP8, AWQ, GPTQ и случаи, когда квантизация ухудшает качество
- Сбои структурированного вывода, валидацию схем, циклы исправления (repair loops) и цепочки резервных сценариев (fallback chains)
- Надёжность function calling, контракты инструментов (tool contracts), валидацию аргументов и идемпотентность
- Ограничители для агентов (guardrails), лимиты циклов, лимиты использования инструментов и условия завершения работы
- Маршрутизацию моделей (model routing), логику плавного переключения на резервные сценарии (graceful fallback) и UX в деградированном режиме
- Архитектуру RAG: чанкинг, эмбеддинги, гибридный поиск, реранжирование и актуальность данных
- Оценку качества поиска (retrieval evals): полноту (recall), точность (precision), grounding, attribution и качество цитирования
Evals: эталонные наборы данных (golden sets), регрессионные тесты, adversarial-тесты, LLM-as-a-judge и ручную оценку
- Наблюдаемость LLM-систем (LLM observability) как полноценную инженерную дисциплину: трассировки, спаны, токены, задержки, ошибки и дрейф
- Атрибуцию затрат по функциям, workflow, арендаторам (tenants) и пользовательским сценариям, а не только по моделям
- Инженерию безопасности: защиту от prompt injection, предотвращение утечек данных и разграничение прав доступа
- Изоляцию арендаторов (multi-tenant isolation), безопасность кэшей и предотвращение загрязнения контекста между пользователями
- Fine-tuning, in-context learning, RAG и дистилляцию, а также случаи, когда каждый из этих подходов оказывается неподходящим инструментом
- Компромиссы между задержкой, качеством, стоимостью и надёжностью по всей цепочке инференса
- Типичные сбои в продакшене: галлюцинированные вызовы инструментов, некорректный JSON, устаревшие данные из поиска, зациклившиеся агенты и незаметные регрессии в evals
👉 @DataSciencegx
Джек Дорси создал локального ИИ-агента Goose и передал проект в Linux Foundation.
Сейчас у проекта:
• 46,4 тыс. звёзд на GitHub
• 518 контрибьюторов
• 137 релизов
• обновления выходят до сих пор
Goose не ограничивается генерацией кода. Он умеет устанавливать зависимости, запускать приложения, редактировать файлы, выполнять тесты, отлаживать и деплоить проекты.
Что есть из коробки:
Нативное десктопное приложение, CLI и API — можно выбрать любой способ работы
Поддерживает любые LLM: Claude, GPT, Gemini, DeepSeek, Ollama и ещё более 15 моделей
Работает с уже существующими подписками — не нужно отдельно платить за новые API
Более 70 MCP-расширений: GitHub, Google Drive, базы данных, браузер и многое другое
Параллельные субагенты — разбивает сложные задачи на части и выполняет их одновременно
Recipes — позволяет сохранять workflow в YAML и делиться ими с командой
Встроенный режим adversary — ревьюер, который выявляет prompt injection и потенциально опасные действия
Совместим с Claude Code и Codex в качестве провайдеров через ACP
Написан на Rust. Поддерживает macOS, Linux и Windows. Лицензия Apache 2.0
Самая любопытная часть — Goose может использовать Claude Code или Codex как субагентов.
Goose координирует работу, а они выполняют задачи.
https://github.com/aaif-goose/goose
👉 @DataSciencegx
Hugging Face выпустили Repo2RLEnv — инструмент, который превращает любой GitHub-репозиторий в источник данных для обучения RL-агентов.
Идея довольно красивая.
Каждый смёрженный PR — это уже решённая задача. Кто-то нашёл баг, исправил его и добился прохождения тестов. Repo2RLEnv автоматически собирает такие кейсы и превращает их в RL-задачи.
Указываешь репозиторий, а дальше система сама:
- поднимает Docker-окружение;
- находит смёрженные PR;
- создаёт задачи на основе сломанной версии кода;
- проверяет, что до фикса тесты падают, а после проходят;
- публикует готовый датасет в Hugging Face Hub.
С наградами тоже всё просто.
Агент предлагает исправление → запускаются тесты → прошли = +1, не прошли = 0.
Без LLM-судей и других эвристик.
Под капотом 9 пайплайнов генерации данных: реальные PR, коммиты, баги, CVE, рефакторинг, mutation testing и другие сценарии.
Поддерживаются Claude Code, Codex CLI, Gemini CLI, OpenHands и любые другие агентные фреймворки через Harbor.
Что особенно понравилось — инструмент работает не только с открытыми, но и с приватными репозиториями.
По сути, теперь любой достаточно крупный GitHub-репозиторий можно превратить в фабрику задач для обучения кодовых агентов.
Полностью open source.
Хотите не читать про AI Engineering, а реально что-то собрать?
Выложили в опенсорс коллекцию из 50+ практических туториалов по AI Engineering.
Внутри пошаговые проекты по:
• AI-агентам и мультиагентным системам
• RAG (Agentic, Vision и Local)
• MCP-агентам
• OCR-приложениям
• Голосовым AI-агентам
• и многому другому
Всё бесплатно, с исходниками и готовыми примерами. 🥩
👉 @DataSciencegx
Кто-то потратил несколько месяцев и вручную написал 200-страничный гайд по математике и основам машинного обучения.
Без маркетинговой воды и бесконечных ссылок между статьями. Просто попытка собрать всё самое важное в одном месте.
Внутри:
• нейросети: backpropagation, SGD, Adam, BatchNorm;
• классический ML: SVM, Gradient Boosting, K-Means, PCA;
• железо для AI: Tensor Cores, Systolic Arrays, CUDA;
• трансформеры: Multi-Head Attention, KV Cache, LoRA;
• компьютерное зрение: ViT, CNN, MAE, IoU, NMS, VLM;
• агентные системы: ReAct, память, оркестрация, OpenClaw.
Автор описывает его как материал, который хотел бы получить сам несколько лет назад.
И да, весь гайд распространяется бесплатно.
https://www.arjunvirk.com/writing/ml-guide
👉 @DataSciencegx
Если у вас уже 200 открытых вкладок с курсами, статьями и GitHub-репозиториями по ML, этот репозиторий может немного спасти ситуацию.
Awesome Machine Learning Resources — это огромная подборка подборок по машинному обучению, deep learning и AI.
Вместо бесконечного поиска по Google всё разложено по категориям:
• основы машинного обучения
• нейросети и современные архитектуры
• задачи и прикладные области
• датасеты
• библиотеки и инструменты
• fairness и AI ethics
• production ML и MLOps
У каждой ссылки есть короткое описание, поэтому можно быстро понять, стоит ли открывать её или пройти мимо.
Отдельно понравилось, что авторы помечают заброшенные подборки значком , если их не обновляли больше года.
https://github.com/ZhiningLiu1998/awesome-machine-learning-resources
👉 @DataSciencegx
Available now! Telegram Research 2025 — the year's key insights 
