Data Portal | DS & ML
الذهاب إلى القناة على Telegram
Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx
إظهار المزيد8 404
المشتركون
-624 ساعات
-107 أيام
-930 أيام
أرشيف المشاركات
Наивный RAG против Blockify!
Появился новый подход для RAG, который:
- уменьшает размер корпуса данных в 40 раз;
- снижает количество токенов на запрос в 3 раза;
- повышает релевантность векторного поиска в 2.3 раза.
И всё это — в open-source.
Посмотреть можно здесь: https://github.com/iternal-technologies-partners/blockify-agentic-data-optimization
👉 @DataSciencegx
Мозг человека невероятно эффективен, потому что активирует только те нейроны, которые нужны для конкретной мысли. Современные большие языковые модели естественно пытаются делать то же самое (более 95% нейронов в полносвязных слоях остаются неактивными для каждого слова), но железо за это наказывает.
Один из самых раздражающих парадоксов в глубоком обучении: чем меньше вычислений делает модель, тем медленнее она может работать. Причина в том, что неструктурированная разреженность создаёт нерегулярные обращения к памяти, а графические процессоры оптимизированы под предсказуемые плотные блоки вычислений.
sakana AI объединились с NVIDIA, чтобы попытаться исправить это несоответствие железа. Вместо того чтобы заставлять графический процессор адаптироваться к разреженности, они сделали «гибридный» формат, который подгоняет разреженность под графический процессор. Их формат разреженности (TwELL) динамически направляет 99% сильно разрежённых токенов через быстрый путь и использует плотную резервную матрицу как защитный механизм для редких тяжёлых токенов.
С помощью TwELL и нового набора кастомных ядер CUDA для инференса и обучения больших языковых моделей они превратили теоретическую разреженность в реальные ускорения по времени: более 20% ускорения обучения и инференса на графических процессорах H100, а также снижение энергопотребления и требований к памяти.
Доклад: https://arxiv.org/abs/2603.23198
Блог: https://pub.sakana.ai/sparser-faster-llms/
Код: https://github.com/SakanaAI/sparser-faster-llms
👉 @DataSciencegx
Обучите небольшую модель на 110M параметров с нуля на архитектуре DeepSeek-V4. Проект позволяет руками поэкспериментировать с такими фичами, как MLA, MoE, Hyper-Connections и MTP.
https://github.com/huggingface/nanowhale
Nanowhale — это небольшая модель на 110M параметров от Hugging Face, в которую перенесли все ключевые архитектурные особенности DeepSeek-V4:
- MLA (8 attention heads + 1 KV-head);
- MoE (4 роутера + 1 shared expert);
- Hyper-Connections (Sinkhorn routing);
- multi-token prediction.
Сначала модель предобучали 5000 шагов на FineWeb-Edu (2.6B токенов, loss около 5.3), затем провели SFT на SmolTalk в течение 3000 шагов. Accuracy выросла с 36.2% до 48.5%.
Из интересных нюансов:
- Hyper-Connections начинают разваливаться в NaN при использовании bf16, поэтому требуется fp32;
- словарь на 129K токенов оказался слишком большим — эмбеддинги занимают около 37% всех параметров модели.
👉 @DataSciencegx
Рекомендую бесплатную книгу по машинному обучению и ИИ на GitHub: Machine Learning Q and AI.
Вся книга построена вокруг 30 ключевых вопросов по машинному обучению и искусственному интеллекту — от нейросетей до деплоя моделей, с разбором базовых концептов в одном месте.
GitHub: MachineLearning-QandAI-book репозиторий
Онлайн-версия: Machine Learning Q and AI онлайн
Контент структурирован по 5 основным направлениям: нейронные сети, глубокое обучение, компьютерное зрение, обработка естественного языка и деплой моделей. Такой разрез помогает идти по логической траектории и не терять ключевые темы.
Скачивание не требуется — можно читать прямо в браузере. Подходит разработчикам разного уровня: от базового понимания до прикладной реализации.
👉 @DataSciencegx
Основы PyTorch: первые шаги в практическом глубоком обучении.
Введение в основы PyTorch: инициализация тензоров, операции, индексация и изменение формы (reshape).
👉 @DataSciencegx
Префилл и декодирование в инференсе LLM.
Задавались вопросом, почему первый токен всегда появляется с задержкой, а дальше поток идёт почти мгновенно? Это не сетевые задержки и не прогрев модели — это структурное свойство того, как реально исполняются LLM.
Инференс состоит из двух фаз, которые используют одну и ту же модель и один и тот же путь выполнения, но нагрузка в них принципиально разная, и узкие места противоположные.
𝗣𝗿𝗲𝗳𝗶𝗹𝗹 — это этап обработки запроса. Модель обрабатывает все входные токены за один параллельный проход, вычисляя Q, K и V сразу для всех токенов.
Механизм внимания выполняется как большая матричная операция, под которую GPU и оптимизированы, поэтому загрузка вычислительных блоков высокая, и чип работает на пределе арифметической пропускной способности.
Префилл упирается в вычисления, а метрика, которая это отражает — время до первого токена.
𝗗𝗲𝗰𝗼𝗱𝗲 начинается после появления первого токена. Чтобы сгенерировать следующий, модель считает Q, K и V только для нового токена, потому что всё предыдущее уже закэшировано.
Дальше идёт цикл «один токен — один проход»: новый query умножается на уже сохранённые ключи вместо полной матрицы, и объём вычислений становится небольшим.
Но GPU всё равно вынужден читать все веса и весь кэш из памяти, чтобы выполнить даже эту небольшую операцию, поэтому узким местом становится пропускная способность памяти, а вычислительные блоки простаивают.
Декодирование упирается в память, а метрика здесь — задержка между токенами.
Такое разделение объясняет ряд эффектов, которые выглядят неочевидно снаружи.
Загрузка GPU высокая на префилле и резко падает на декоде, потому что во второй фазе ограничением становится память, а не вычисления.
Добавление вычислительной мощности часто не помогает при медленной генерации, потому что для memory-bound нагрузок решением является более быстрая память или меньший кэш, а не больше FLOPs.
Длинный контекст замедляет генерацию непропорционально, потому что кэш ключей и значений растёт с каждым токеном, и каждый шаг декода должен его полностью читать.
Этот кэш — ключевая оптимизация, без которой декодинг был бы невозможен, потому что пришлось бы пересчитывать внимание по всей растущей последовательности на каждом шаге.
С кэшем он строится один раз на префилле и затем расширяется по одному элементу на каждый новый токен, переиспользуя уже вычисленные значения.
Но кэш хранится в памяти GPU и растёт линейно с длиной последовательности. Для модели уровня 13B это примерно 1 МБ на токен, то есть контекст 4K занимает около 4 ГБ видеопамяти только под кэш.
Поэтому длинный контекст ощущается медленным не из-за «недостатка мощности модели», а из-за давления на память.
Сейчас индустрия оптимизирует это ограничение через квантованный кэш, скользящие окна, группированное внимание и PagedAttention, а серия DeepSeek V4 идёт дальше и перерабатывает сам механизм внимания так, чтобы кэш изначально был меньше.
Когда внимание начинают перепроектировать под ограничения кэша, это означает, что ограничение сместилось в сторону памяти.
Практический вывод: если модель кажется медленной, важно различать — она медленно стартует или медленно стримит. Медленный старт соответствует префиллу и вычислительному узкому месту, медленный стрим — декоду и ограничению по памяти.
Дальше прочитай материал, который разбирает инференс LLM с нуля: токенизацию, эмбеддинги, внимание, разделение префилла и декода, кэш ключей/значений и квантование.
👉 @DataSciencegx
Создатели SWE-Bench выпустили новый простой тестовый набор, в котором у всех больших языковых моделей результат 0%.
ProgramBench проверяет, может ли модель с нуля воспроизвести реальные исполняемые программы (ffmpeg, SQLite, ripgrep) без доступа к интернету.
По результатам видно, что уровень качества моделей до насыщения ещё далеко.
Критика «почему запоминание ffmpeg вообще считается программной инженерией» закономерна.
Любой тестовый набор можно переобучить и выучить наизусть. То же относится и к SWE-Bench — там тоже можно заучить набор багов. В ARC AGI частично пытаются решить это через скрытые наборы игр, к которым нет доступа.
Получение 100% в ProgramBench не означает достижение общего искусственного интеллекта.
На практике попытки «зазубривания» таких программ обычно приводят к регрессу в других очевидных направлениях, а современные передовые модели так не обучаются. Дополнительно факт запоминания можно относительно просто проверить через сравнение с исходной реализацией.
Гипотеза здесь в том, что построение реального инструмента «с нуля» — это задача с длинным горизонтом и высокой практической ценностью. Если модели способны рассуждать и собирать такие системы, это, вероятно, переносится на широкий класс аналогичных задач.
👉 @DataSciencegx
Превращайте любой кодовый репозиторий в интерактивный граф знаний.
Understand-Anything — это плагин для Claude Code, который строит визуальную карту проекта. Он анализирует каждый файл, функцию, класс и зависимости, после чего даёт интерактивную панель для навигации по структуре.
Запускается анализ, после чего пять агентов выполняются параллельно. Они сканируют проект, извлекают структуру, определяют архитектурные слои и строят граф знаний. Результат — интерактивная визуализация на React Flow.
Дашборд отображает кодовую базу как граф. Узлы — файлы, функции и классы. Рёбра — зависимости. Всё раскрашено по слоям (API, сервисы, данные, UI, утилиты).
При клике на узел показывается код, связи и объяснение на естественном языке.
Основные возможности:
• визуальная навигация с поиском по графу
• описания компонентов на естественном языке
• архитектурные маршруты по зависимостям
• семантический поиск по смыслу
• анализ влияния изменений
Поддерживается работа с разными агентами: Claude Code, Codex, OpenCode, OpenClaw, Cursor, Antigravity.
Проект полностью с открытым исходным кодом.
👉 @DataSciencegx
В интервью по ML-инженерии в Apple задают вопрос:
«Есть две модели с точностью 88%.
- Модель A имеет уверенность 89%
- Модель B имеет уверенность 99%
Какую выберешь?»
Ответ «любая, у них одинаковая точность» завершает интервью.
Вот что в этом пропущено:
Современные нейросети часто вводят в заблуждение.
Они дают завышенную уверенность в предсказаниях.
Например, в одном эксперименте на датасете CIFAR-100 сравнивали LeNet и ResNet.
LeNet:
- точность ≈ 0.55
- средняя уверенность ≈ 0.54
ResNet:
- точность ≈ 0.7
- средняя уверенность ≈ 0.9
Несмотря на более высокую точность, ResNet переуверен в своих предсказаниях. Модель считает, что права с вероятностью 90%, но фактическая точность около 70%.
Калибровка решает эту проблему.
Модель считается откалиброванной, если вероятности предсказаний соответствуют реальным исходам.
Например: если модель выдаёт вероятность 70%, то примерно в 70% случаев событие действительно должно происходить.
Это важно, потому что такие модели используются в принятии решений.
Плохо откалиброванная, но уверенная модель может давать критически вводящие в заблуждение результаты.
Пример: государственная больница планирует дорогостоящие медицинские тесты.
Реалистичная оценка вероятностей помогает оптимально распределять бюджет и принимать решения.
Если модель не откалибрована, она будет выдавать избыточно уверенные прогнозы.
Диаграммы надёжности (reliability diagrams) используются для визуальной проверки калибровки.
Они отображают зависимость фактической точности от предсказанной уверенности (softmax-значений).
Идеально откалиброванная модель даёт линию y = x.
Также используют скалярную метрику — ожидаемую ошибку калибровки (ECE).
Одна из её аппроксимаций — разбиение предсказаний на интервалы и усреднение разницы между точностью и уверенностью по этим бинам.
Основные методы калибровки моделей:
Для бинарной классификации:
- биннинг по гистограмме
- изотоническая регрессия
- масштабирование Платта
Для многоклассовой классификации:
- биннинг
- матричное и векторное масштабирование
👉 @DataSciencegx
Выходные ушли на закрытие одной задачи из списка «изучить»:
GRPO
В статье разбирается:
• что такое GRPO и как он работает
• дообучение LiquidAI LFM2.5-1.2B-Instruct
• использование Unsloth и бесплатных Kaggle T4
Блог: https://leoniemonigatti.com/blog/fine-tuning-lfm2-5-1-2b-instruct-with-grpo.html
Ноутбук на Kaggle: https://kaggle.com/code/iamleonie/fine-tuning-lfm2-5-1-2b-instruct-with-grpo
👉 @DataSciencegx
Смотри топовые научные статьи по ИИ, машинному обучению, робототехнике, квантовой физике и другим направлениям на kurate.org.
Сотни препринтов с arXiv ежедневно ранжируются по научному импакту через парные сравнения, где судьями выступают модели — Claude, GPT и Gemini.
👉 @DataSciencegx
Локальный ИИ-ассистент для ресерча, который запускается на твоём устройстве — автоматически ищет информацию, пишет саммари, проставляет ссылки на источники; данные зашифрованы и не покидают локальную машину.
Local Deep Research — это локально развёрнутый инструмент для ресерча с ИИ, который умеет интегрироваться с моделями вроде Ollama, OpenAI и Anthropic, и поддерживает более десятка поисковых движков, включая arXiv, PubMed и SearXNG, с возможностью гибкого выбора.
Даёт около 95% точности на бенчмарке SimpleQA; есть три режима — быстрый поиск, глубокий ресерч и генерация отчёта, между ними можно переключаться по задаче, плюс используется автономная агентная стратегия на базе LangGraph.
https://github.com/LearningCircuit/local-deep-research
👉 @DataSciencegx
Безумцы реализовали MicroGPT от Andrej Karpathy полностью на ПЛИС-логике.
Без графического процессора. Без PyTorch. Без циклов инференса на центральном процессоре.
Только трансформер, зашитый в железо, генерирующий 50 000+ токенов в секунду.
Модель небольшая, но идея не в этом, а в том, что инференс не обязан существовать только в программной среде.
Целью было не сделать максимально большую модель.
Целью было представить весь путь инференса трансформера в виде, читаемом для железа: память, счётчики, состояния конечных автоматов, аккумуляторы, таблицы поиска и многотактные арифметические блоки.
Базовая схема использует фиксированную арифметику Q4.12 и веса, хранящиеся в ПЗУ.
Большая часть модели сводится к одной повторяющейся операции: матрично-векторному умножению. Поэтому был реализован переиспользуемый 16-канальный потоковый блок матрично-векторных вычислений и затем он временно мультиплексируется на Q/K/V, MLP и выходной слой языковой модели.
Самым интересным оказался механизм внимания.
В Python это одно аккуратное уравнение.
В RTL это превращается в расписание: генерация Q/K/V, проход по скалярным произведениям, отслеживание максимума, приближённое вычисление экспоненты, накопление, деление, смешивание V, затем обратная проекция.
исходники 🙂
👉 @DataSciencegx
Hugging Face буквально собрали у себя все ключевые «секреты».
Важно разобраться в оценке больших языковых моделей.
> Пока ты работаешь с языковыми моделями:
> обучаешь или дообучаешь свои модели,
> выбираешь модель под задачу,
> или пытаешься понять текущее состояние области,
почти неизбежно возникает вопрос:
как понять, что модель хорошая?
> Ответ — оценка качества. Она везде:
> лидерборды с рейтингами моделей,
> бенчмарки, которые якобы меряют рассуждения,
> знания, кодинг или математику,
> статьи с заявленными новыми лучшими результатами.
Но что такое оценка на самом деле?
И что она реально показывает?
Этот гайд помогает во всём разобраться.
О чём вообще оценка моделей Базовые понятия больших языковых моделей для понимания оценки Оценка через готовые бенчмарки Создание своей системы оценки Главная проблема оценки Оценка свободного текста Статистическая корректность оценки Стоимость и эффективность оценки👉 @DataSciencegx
Пошаговое изучение внутреннего устройства LLM — от токенизации до механизма внимания и оптимизации инференса: https://github.com/amitshekhariitbhu/llm-internals
👉 @DataSciencegx
Одно выражение на Python, 22+ SQL-диалектов, без переписывания 🐍
При работе с несколькими базами данных часто приходится переписывать одну и ту же логику под синтаксис каждого диалекта SQL.
Запрос, который работает в DuckDB, может требовать изменений в PostgreSQL и ещё одного переписывания для BigQuery.
Ibis убирает эту проблему, компилируя Python-выражения в нативный SQL каждой бэкенд-базы. Достаточно заменить подключение, и тот же код начинает работать с 22+ базами данных.
Ключевые возможности:
• пишешь один раз — запускается на DuckDB, PostgreSQL, BigQuery, Snowflake и ещё 18+ системах
• ленивое выполнение: сначала строится и оптимизируется план запроса, затем он отправляется в базу
• цепочечный синтаксис, похожий на Polars
Статья-сравнение Ibis с другими библиотеками: https://bit.ly/4kUfKCW
#Python #DataScience #SQL
👉 @DataSciencegx
Что если можно было бы гарантировать, что выход LLM всегда совпадает с ожидаемым форматом?
Задачи классификации с LLM часто становятся грязными. Вместо чистой метки можно получить «Option A», «Ответ: A» или полноценное объяснение.
Приведение этого к нормальному виду требует дополнительного парсинга, ретраев и валидации, что делает систему хрупкой.
С Guidance функция select() ограничивает модель так, чтобы она возвращала ровно один вариант из заданного списка.
Ключевые преимущества:
• гарантирует, что выход соответствует одному из предопределённых вариантов
• убирает необходимость в коде парсинга и регулярных выражениях
• работает с любым списком допустимых значений
Статья-сравнение 5 Python-инструментов для структурированных выходов LLM: https://bit.ly/3OQMv8i
👉 @DataSciencegx
Эта книга на 185 страниц раскрывает основы глубокого обучения.
Основы
> базовые принципы машинного обучения
> вычислительная эффективность
> методики обучения
Глубокие модели
> функции активации
> пулинг
> дропаут
> нормализация
> внимание
Архитектуры
> многослойные перцептроны (MLP)
> сверточные нейросети (CNN)
> механизм внимания
Применения
> классификация изображений
> детекция объектов
> распознавание речи
> обучение с подкреплением
Разрыв в вычислениях
> промпт-инжиниринг
> квантизация
> адаптеры
> слияние моделей
👉 @DataSciencegx
MIT собрал 7 часов материала, где есть всё, что нужно знать про генеративный ИИ бесплатно.
Стабильная диффузия и ДАЛЛ·Е
Нейросети
Обучение с учителем
Представление и обучение без учителя
Обучение с подкреплением
Генеративный ИИ
Самоконтролируемое обучение
Фундаментальные модели
Состязательные сети (GAN)
Контрастивное обучение
Автоэнкодеры
Удаление шума и диффузионные модели
👉 @DataSciencegx
В России можно посещать IT-мероприятия хоть каждый день: как оффлайн, так и онлайн
Но где их находить? Как узнавать о них раньше, чем когда все начнут выкладывать фотографии оттуда?
Переходите на канал IT-Мероприятия России. В нём каждый день анонсируются мероприятия со всех городов России
📆 в канале размещаются как онлайн, так и оффлайн мероприятия;
👩💻 можно найти ивенты по любому стеку: программирование, frontend-backend разработка, кибербезопасность, дата-аналитика, osint, devops и другие;
🎙 разнообразные форматы мероприятий: митапы с коллегами по цеху, конференции и вебинары с известными опытными специалистами, форумы и олимпиады от важных представителей индустрии и многое другое
А чтобы не искать по разным форумам и чатам новости о предстоящих ивентах:
🚀 IT-мероприятия России — подписывайся и будь в курсе всех предстоящих мероприятий!
متاح الآن! بحث تيليغرام 2025 — أهم رؤى العام 
