Data Portal | DS & ML

الذهاب إلى القناة على Telegram

Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx

إظهار المزيد

الشبكة:IT Portal روسيا75 963 التكنولوجيات والتطبيقات13 883

8 404

المشتركون

-624 ساعات

-107 أيام

-930 أيام

936

عرض المشاهدات

~ 57424 ساعات

~ 68848 ساعات

11.14%

معدل المشاركة

~ 2

المشاركات في اليوم

Ads index

beta

أرشيف المشاركات

8 403

Наивный RAG против Blockify! Появился новый подход для RAG, который: - уменьшает размер корпуса данных в 40 раз; - снижает количество токенов на запрос в 3 раза; - повышает релевантность векторного поиска в 2.3 раза. И всё это — в open-source. Посмотреть можно здесь: https://github.com/iternal-technologies-partners/blockify-agentic-data-optimization 👉 @DataSciencegx

8 403

Мозг человека невероятно эффективен, потому что активирует только те нейроны, которые нужны для конкретной мысли. Современные большие языковые модели естественно пытаются делать то же самое (более 95% нейронов в полносвязных слоях остаются неактивными для каждого слова), но железо за это наказывает. Один из самых раздражающих парадоксов в глубоком обучении: чем меньше вычислений делает модель, тем медленнее она может работать. Причина в том, что неструктурированная разреженность создаёт нерегулярные обращения к памяти, а графические процессоры оптимизированы под предсказуемые плотные блоки вычислений. sakana AI объединились с NVIDIA, чтобы попытаться исправить это несоответствие железа. Вместо того чтобы заставлять графический процессор адаптироваться к разреженности, они сделали «гибридный» формат, который подгоняет разреженность под графический процессор. Их формат разреженности (TwELL) динамически направляет 99% сильно разрежённых токенов через быстрый путь и использует плотную резервную матрицу как защитный механизм для редких тяжёлых токенов. С помощью TwELL и нового набора кастомных ядер CUDA для инференса и обучения больших языковых моделей они превратили теоретическую разреженность в реальные ускорения по времени: более 20% ускорения обучения и инференса на графических процессорах H100, а также снижение энергопотребления и требований к памяти. Доклад: https://arxiv.org/abs/2603.23198 Блог: https://pub.sakana.ai/sparser-faster-llms/ Код: https://github.com/SakanaAI/sparser-faster-llms 👉 @DataSciencegx

8 403

Обучите небольшую модель на 110M параметров с нуля на архитектуре DeepSeek-V4. Проект позволяет руками поэкспериментировать с такими фичами, как MLA, MoE, Hyper-Connections и MTP. https://github.com/huggingface/nanowhale Nanowhale — это небольшая модель на 110M параметров от Hugging Face, в которую перенесли все ключевые архитектурные особенности DeepSeek-V4: - MLA (8 attention heads + 1 KV-head); - MoE (4 роутера + 1 shared expert); - Hyper-Connections (Sinkhorn routing); - multi-token prediction. Сначала модель предобучали 5000 шагов на FineWeb-Edu (2.6B токенов, loss около 5.3), затем провели SFT на SmolTalk в течение 3000 шагов. Accuracy выросла с 36.2% до 48.5%. Из интересных нюансов: - Hyper-Connections начинают разваливаться в NaN при использовании bf16, поэтому требуется fp32; - словарь на 129K токенов оказался слишком большим — эмбеддинги занимают около 37% всех параметров модели. 👉 @DataSciencegx

8 403

Рекомендую бесплатную книгу по машинному обучению и ИИ на GitHub: Machine Learning Q and AI. Вся книга построена вокруг 30 ключевых вопросов по машинному обучению и искусственному интеллекту — от нейросетей до деплоя моделей, с разбором базовых концептов в одном месте. GitHub: MachineLearning-QandAI-book репозиторий Онлайн-версия: Machine Learning Q and AI онлайн Контент структурирован по 5 основным направлениям: нейронные сети, глубокое обучение, компьютерное зрение, обработка естественного языка и деплой моделей. Такой разрез помогает идти по логической траектории и не терять ключевые темы. Скачивание не требуется — можно читать прямо в браузере. Подходит разработчикам разного уровня: от базового понимания до прикладной реализации. 👉 @DataSciencegx

8 403

Основы PyTorch: первые шаги в практическом глубоком обучении. Введение в основы PyTorch: инициализация тензоров, операции, индексация и изменение формы (reshape). 👉 @DataSciencegx

8 403

Префилл и декодирование в инференсе LLM. Задавались вопросом, почему первый токен всегда появляется с задержкой, а дальше поток идёт почти мгновенно? Это не сетевые задержки и не прогрев модели — это структурное свойство того, как реально исполняются LLM. Инференс состоит из двух фаз, которые используют одну и ту же модель и один и тот же путь выполнения, но нагрузка в них принципиально разная, и узкие места противоположные. 𝗣𝗿𝗲𝗳𝗶𝗹𝗹 — это этап обработки запроса. Модель обрабатывает все входные токены за один параллельный проход, вычисляя Q, K и V сразу для всех токенов. Механизм внимания выполняется как большая матричная операция, под которую GPU и оптимизированы, поэтому загрузка вычислительных блоков высокая, и чип работает на пределе арифметической пропускной способности. Префилл упирается в вычисления, а метрика, которая это отражает — время до первого токена. 𝗗𝗲𝗰𝗼𝗱𝗲 начинается после появления первого токена. Чтобы сгенерировать следующий, модель считает Q, K и V только для нового токена, потому что всё предыдущее уже закэшировано. Дальше идёт цикл «один токен — один проход»: новый query умножается на уже сохранённые ключи вместо полной матрицы, и объём вычислений становится небольшим. Но GPU всё равно вынужден читать все веса и весь кэш из памяти, чтобы выполнить даже эту небольшую операцию, поэтому узким местом становится пропускная способность памяти, а вычислительные блоки простаивают. Декодирование упирается в память, а метрика здесь — задержка между токенами. Такое разделение объясняет ряд эффектов, которые выглядят неочевидно снаружи. Загрузка GPU высокая на префилле и резко падает на декоде, потому что во второй фазе ограничением становится память, а не вычисления. Добавление вычислительной мощности часто не помогает при медленной генерации, потому что для memory-bound нагрузок решением является более быстрая память или меньший кэш, а не больше FLOPs. Длинный контекст замедляет генерацию непропорционально, потому что кэш ключей и значений растёт с каждым токеном, и каждый шаг декода должен его полностью читать. Этот кэш — ключевая оптимизация, без которой декодинг был бы невозможен, потому что пришлось бы пересчитывать внимание по всей растущей последовательности на каждом шаге. С кэшем он строится один раз на префилле и затем расширяется по одному элементу на каждый новый токен, переиспользуя уже вычисленные значения. Но кэш хранится в памяти GPU и растёт линейно с длиной последовательности. Для модели уровня 13B это примерно 1 МБ на токен, то есть контекст 4K занимает около 4 ГБ видеопамяти только под кэш. Поэтому длинный контекст ощущается медленным не из-за «недостатка мощности модели», а из-за давления на память. Сейчас индустрия оптимизирует это ограничение через квантованный кэш, скользящие окна, группированное внимание и PagedAttention, а серия DeepSeek V4 идёт дальше и перерабатывает сам механизм внимания так, чтобы кэш изначально был меньше. Когда внимание начинают перепроектировать под ограничения кэша, это означает, что ограничение сместилось в сторону памяти. Практический вывод: если модель кажется медленной, важно различать — она медленно стартует или медленно стримит. Медленный старт соответствует префиллу и вычислительному узкому месту, медленный стрим — декоду и ограничению по памяти. Дальше прочитай материал, который разбирает инференс LLM с нуля: токенизацию, эмбеддинги, внимание, разделение префилла и декода, кэш ключей/значений и квантование. 👉 @DataSciencegx

8 403

Создатели SWE-Bench выпустили новый простой тестовый набор, в котором у всех больших языковых моделей результат 0%. ProgramBench проверяет, может ли модель с нуля воспроизвести реальные исполняемые программы (ffmpeg, SQLite, ripgrep) без доступа к интернету. По результатам видно, что уровень качества моделей до насыщения ещё далеко. Критика «почему запоминание ffmpeg вообще считается программной инженерией» закономерна. Любой тестовый набор можно переобучить и выучить наизусть. То же относится и к SWE-Bench — там тоже можно заучить набор багов. В ARC AGI частично пытаются решить это через скрытые наборы игр, к которым нет доступа. Получение 100% в ProgramBench не означает достижение общего искусственного интеллекта. На практике попытки «зазубривания» таких программ обычно приводят к регрессу в других очевидных направлениях, а современные передовые модели так не обучаются. Дополнительно факт запоминания можно относительно просто проверить через сравнение с исходной реализацией. Гипотеза здесь в том, что построение реального инструмента «с нуля» — это задача с длинным горизонтом и высокой практической ценностью. Если модели способны рассуждать и собирать такие системы, это, вероятно, переносится на широкий класс аналогичных задач. 👉 @DataSciencegx

8 403

Превращайте любой кодовый репозиторий в интерактивный граф знаний. Understand-Anything — это плагин для Claude Code, который строит визуальную карту проекта. Он анализирует каждый файл, функцию, класс и зависимости, после чего даёт интерактивную панель для навигации по структуре. Запускается анализ, после чего пять агентов выполняются параллельно. Они сканируют проект, извлекают структуру, определяют архитектурные слои и строят граф знаний. Результат — интерактивная визуализация на React Flow. Дашборд отображает кодовую базу как граф. Узлы — файлы, функции и классы. Рёбра — зависимости. Всё раскрашено по слоям (API, сервисы, данные, UI, утилиты). При клике на узел показывается код, связи и объяснение на естественном языке. Основные возможности: • визуальная навигация с поиском по графу • описания компонентов на естественном языке • архитектурные маршруты по зависимостям • семантический поиск по смыслу • анализ влияния изменений Поддерживается работа с разными агентами: Claude Code, Codex, OpenCode, OpenClaw, Cursor, Antigravity. Проект полностью с открытым исходным кодом. 👉 @DataSciencegx

8 403

В интервью по ML-инженерии в Apple задают вопрос: «Есть две модели с точностью 88%. - Модель A имеет уверенность 89% - Модель B имеет уверенность 99% Какую выберешь?» Ответ «любая, у них одинаковая точность» завершает интервью. Вот что в этом пропущено: Современные нейросети часто вводят в заблуждение. Они дают завышенную уверенность в предсказаниях. Например, в одном эксперименте на датасете CIFAR-100 сравнивали LeNet и ResNet. LeNet: - точность ≈ 0.55 - средняя уверенность ≈ 0.54 ResNet: - точность ≈ 0.7 - средняя уверенность ≈ 0.9 Несмотря на более высокую точность, ResNet переуверен в своих предсказаниях. Модель считает, что права с вероятностью 90%, но фактическая точность около 70%. Калибровка решает эту проблему. Модель считается откалиброванной, если вероятности предсказаний соответствуют реальным исходам. Например: если модель выдаёт вероятность 70%, то примерно в 70% случаев событие действительно должно происходить. Это важно, потому что такие модели используются в принятии решений. Плохо откалиброванная, но уверенная модель может давать критически вводящие в заблуждение результаты. Пример: государственная больница планирует дорогостоящие медицинские тесты. Реалистичная оценка вероятностей помогает оптимально распределять бюджет и принимать решения. Если модель не откалибрована, она будет выдавать избыточно уверенные прогнозы. Диаграммы надёжности (reliability diagrams) используются для визуальной проверки калибровки. Они отображают зависимость фактической точности от предсказанной уверенности (softmax-значений). Идеально откалиброванная модель даёт линию y = x. Также используют скалярную метрику — ожидаемую ошибку калибровки (ECE). Одна из её аппроксимаций — разбиение предсказаний на интервалы и усреднение разницы между точностью и уверенностью по этим бинам. Основные методы калибровки моделей: Для бинарной классификации: - биннинг по гистограмме - изотоническая регрессия - масштабирование Платта Для многоклассовой классификации: - биннинг - матричное и векторное масштабирование 👉 @DataSciencegx

8 403

Выходные ушли на закрытие одной задачи из списка «изучить»: GRPO В статье разбирается: • что такое GRPO и как он работает • дообучение LiquidAI LFM2.5-1.2B-Instruct • использование Unsloth и бесплатных Kaggle T4 Блог: https://leoniemonigatti.com/blog/fine-tuning-lfm2-5-1-2b-instruct-with-grpo.html Ноутбук на Kaggle: https://kaggle.com/code/iamleonie/fine-tuning-lfm2-5-1-2b-instruct-with-grpo 👉 @DataSciencegx

8 403

Смотри топовые научные статьи по ИИ, машинному обучению, робототехнике, квантовой физике и другим направлениям на kurate.org. Сотни препринтов с arXiv ежедневно ранжируются по научному импакту через парные сравнения, где судьями выступают модели — Claude, GPT и Gemini. 👉 @DataSciencegx

8 403

Локальный ИИ-ассистент для ресерча, который запускается на твоём устройстве — автоматически ищет информацию, пишет саммари, проставляет ссылки на источники; данные зашифрованы и не покидают локальную машину. Local Deep Research — это локально развёрнутый инструмент для ресерча с ИИ, который умеет интегрироваться с моделями вроде Ollama, OpenAI и Anthropic, и поддерживает более десятка поисковых движков, включая arXiv, PubMed и SearXNG, с возможностью гибкого выбора. Даёт около 95% точности на бенчмарке SimpleQA; есть три режима — быстрый поиск, глубокий ресерч и генерация отчёта, между ними можно переключаться по задаче, плюс используется автономная агентная стратегия на базе LangGraph. https://github.com/LearningCircuit/local-deep-research 👉 @DataSciencegx

8 403

Безумцы реализовали MicroGPT от Andrej Karpathy полностью на ПЛИС-логике. Без графического процессора. Без PyTorch. Без циклов инференса на центральном процессоре. Только трансформер, зашитый в железо, генерирующий 50 000+ токенов в секунду. Модель небольшая, но идея не в этом, а в том, что инференс не обязан существовать только в программной среде. Целью было не сделать максимально большую модель. Целью было представить весь путь инференса трансформера в виде, читаемом для железа: память, счётчики, состояния конечных автоматов, аккумуляторы, таблицы поиска и многотактные арифметические блоки. Базовая схема использует фиксированную арифметику Q4.12 и веса, хранящиеся в ПЗУ. Большая часть модели сводится к одной повторяющейся операции: матрично-векторному умножению. Поэтому был реализован переиспользуемый 16-канальный потоковый блок матрично-векторных вычислений и затем он временно мультиплексируется на Q/K/V, MLP и выходной слой языковой модели. Самым интересным оказался механизм внимания. В Python это одно аккуратное уравнение. В RTL это превращается в расписание: генерация Q/K/V, проход по скалярным произведениям, отслеживание максимума, приближённое вычисление экспоненты, накопление, деление, смешивание V, затем обратная проекция. исходники 🙂 👉 @DataSciencegx

8 403

Hugging Face буквально собрали у себя все ключевые «секреты». Важно разобраться в оценке больших языковых моделей. > Пока ты работаешь с языковыми моделями: > обучаешь или дообучаешь свои модели, > выбираешь модель под задачу, > или пытаешься понять текущее состояние области, почти неизбежно возникает вопрос: как понять, что модель хорошая? > Ответ — оценка качества. Она везде: > лидерборды с рейтингами моделей, > бенчмарки, которые якобы меряют рассуждения, > знания, кодинг или математику, > статьи с заявленными новыми лучшими результатами. Но что такое оценка на самом деле? И что она реально показывает? Этот гайд помогает во всём разобраться.

О чём вообще оценка моделей Базовые понятия больших языковых моделей для понимания оценки Оценка через готовые бенчмарки Создание своей системы оценки Главная проблема оценки Оценка свободного текста Статистическая корректность оценки Стоимость и эффективность оценки

👉 @DataSciencegx

8 403

Пошаговое изучение внутреннего устройства LLM — от токенизации до механизма внимания и оптимизации инференса: https://github.com/amitshekhariitbhu/llm-internals 👉 @DataSciencegx

8 403

Одно выражение на Python, 22+ SQL-диалектов, без переписывания 🐍 При работе с несколькими базами данных часто приходится переписывать одну и ту же логику под синтаксис каждого диалекта SQL. Запрос, который работает в DuckDB, может требовать изменений в PostgreSQL и ещё одного переписывания для BigQuery. Ibis убирает эту проблему, компилируя Python-выражения в нативный SQL каждой бэкенд-базы. Достаточно заменить подключение, и тот же код начинает работать с 22+ базами данных. Ключевые возможности: • пишешь один раз — запускается на DuckDB, PostgreSQL, BigQuery, Snowflake и ещё 18+ системах • ленивое выполнение: сначала строится и оптимизируется план запроса, затем он отправляется в базу • цепочечный синтаксис, похожий на Polars Статья-сравнение Ibis с другими библиотеками: https://bit.ly/4kUfKCW #Python #DataScience #SQL 👉 @DataSciencegx

8 403

Что если можно было бы гарантировать, что выход LLM всегда совпадает с ожидаемым форматом? Задачи классификации с LLM часто становятся грязными. Вместо чистой метки можно получить «Option A», «Ответ: A» или полноценное объяснение. Приведение этого к нормальному виду требует дополнительного парсинга, ретраев и валидации, что делает систему хрупкой. С Guidance функция select() ограничивает модель так, чтобы она возвращала ровно один вариант из заданного списка. Ключевые преимущества: • гарантирует, что выход соответствует одному из предопределённых вариантов • убирает необходимость в коде парсинга и регулярных выражениях • работает с любым списком допустимых значений Статья-сравнение 5 Python-инструментов для структурированных выходов LLM: https://bit.ly/3OQMv8i 👉 @DataSciencegx

8 403

Эта книга на 185 страниц раскрывает основы глубокого обучения. Основы > базовые принципы машинного обучения > вычислительная эффективность > методики обучения Глубокие модели > функции активации > пулинг > дропаут > нормализация > внимание Архитектуры > многослойные перцептроны (MLP) > сверточные нейросети (CNN) > механизм внимания Применения > классификация изображений > детекция объектов > распознавание речи > обучение с подкреплением Разрыв в вычислениях > промпт-инжиниринг > квантизация > адаптеры > слияние моделей 👉 @DataSciencegx

8 403

MIT собрал 7 часов материала, где есть всё, что нужно знать про генеративный ИИ бесплатно. Стабильная диффузия и ДАЛЛ·Е Нейросети Обучение с учителем Представление и обучение без учителя Обучение с подкреплением Генеративный ИИ Самоконтролируемое обучение Фундаментальные модели Состязательные сети (GAN) Контрастивное обучение Автоэнкодеры Удаление шума и диффузионные модели 👉 @DataSciencegx

8 403

В России можно посещать IT-мероприятия хоть каждый день: как оффлайн, так и онлайн Но где их находить? Как узнавать о них раньше, чем когда все начнут выкладывать фотографии оттуда? Переходите на канал IT-Мероприятия России. В нём каждый день анонсируются мероприятия со всех городов России 📆 в канале размещаются как онлайн, так и оффлайн мероприятия; 👩‍💻 можно найти ивенты по любому стеку: программирование, frontend-backend разработка, кибербезопасность, дата-аналитика, osint, devops и другие; 🎙 разнообразные форматы мероприятий: митапы с коллегами по цеху, конференции и вебинары с известными опытными специалистами, форумы и олимпиады от важных представителей индустрии и многое другое А чтобы не искать по разным форумам и чатам новости о предстоящих ивентах: 🚀 IT-мероприятия России — подписывайся и будь в курсе всех предстоящих мероприятий!