Data Portal | DS & ML
رفتن به کانال در Telegram
Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx
نمایش بیشتر8 416
مشترکین
-424 ساعت
-77 روز
+430 روز
آرشیو پست ها
Создатели SWE-Bench выпустили новый простой тестовый набор, в котором у всех больших языковых моделей результат 0%.
ProgramBench проверяет, может ли модель с нуля воспроизвести реальные исполняемые программы (ffmpeg, SQLite, ripgrep) без доступа к интернету.
По результатам видно, что уровень качества моделей до насыщения ещё далеко.
Критика «почему запоминание ffmpeg вообще считается программной инженерией» закономерна.
Любой тестовый набор можно переобучить и выучить наизусть. То же относится и к SWE-Bench — там тоже можно заучить набор багов. В ARC AGI частично пытаются решить это через скрытые наборы игр, к которым нет доступа.
Получение 100% в ProgramBench не означает достижение общего искусственного интеллекта.
На практике попытки «зазубривания» таких программ обычно приводят к регрессу в других очевидных направлениях, а современные передовые модели так не обучаются. Дополнительно факт запоминания можно относительно просто проверить через сравнение с исходной реализацией.
Гипотеза здесь в том, что построение реального инструмента «с нуля» — это задача с длинным горизонтом и высокой практической ценностью. Если модели способны рассуждать и собирать такие системы, это, вероятно, переносится на широкий класс аналогичных задач.
👉 @DataSciencegx
Превращайте любой кодовый репозиторий в интерактивный граф знаний.
Understand-Anything — это плагин для Claude Code, который строит визуальную карту проекта. Он анализирует каждый файл, функцию, класс и зависимости, после чего даёт интерактивную панель для навигации по структуре.
Запускается анализ, после чего пять агентов выполняются параллельно. Они сканируют проект, извлекают структуру, определяют архитектурные слои и строят граф знаний. Результат — интерактивная визуализация на React Flow.
Дашборд отображает кодовую базу как граф. Узлы — файлы, функции и классы. Рёбра — зависимости. Всё раскрашено по слоям (API, сервисы, данные, UI, утилиты).
При клике на узел показывается код, связи и объяснение на естественном языке.
Основные возможности:
• визуальная навигация с поиском по графу
• описания компонентов на естественном языке
• архитектурные маршруты по зависимостям
• семантический поиск по смыслу
• анализ влияния изменений
Поддерживается работа с разными агентами: Claude Code, Codex, OpenCode, OpenClaw, Cursor, Antigravity.
Проект полностью с открытым исходным кодом.
👉 @DataSciencegx
В интервью по ML-инженерии в Apple задают вопрос:
«Есть две модели с точностью 88%.
- Модель A имеет уверенность 89%
- Модель B имеет уверенность 99%
Какую выберешь?»
Ответ «любая, у них одинаковая точность» завершает интервью.
Вот что в этом пропущено:
Современные нейросети часто вводят в заблуждение.
Они дают завышенную уверенность в предсказаниях.
Например, в одном эксперименте на датасете CIFAR-100 сравнивали LeNet и ResNet.
LeNet:
- точность ≈ 0.55
- средняя уверенность ≈ 0.54
ResNet:
- точность ≈ 0.7
- средняя уверенность ≈ 0.9
Несмотря на более высокую точность, ResNet переуверен в своих предсказаниях. Модель считает, что права с вероятностью 90%, но фактическая точность около 70%.
Калибровка решает эту проблему.
Модель считается откалиброванной, если вероятности предсказаний соответствуют реальным исходам.
Например: если модель выдаёт вероятность 70%, то примерно в 70% случаев событие действительно должно происходить.
Это важно, потому что такие модели используются в принятии решений.
Плохо откалиброванная, но уверенная модель может давать критически вводящие в заблуждение результаты.
Пример: государственная больница планирует дорогостоящие медицинские тесты.
Реалистичная оценка вероятностей помогает оптимально распределять бюджет и принимать решения.
Если модель не откалибрована, она будет выдавать избыточно уверенные прогнозы.
Диаграммы надёжности (reliability diagrams) используются для визуальной проверки калибровки.
Они отображают зависимость фактической точности от предсказанной уверенности (softmax-значений).
Идеально откалиброванная модель даёт линию y = x.
Также используют скалярную метрику — ожидаемую ошибку калибровки (ECE).
Одна из её аппроксимаций — разбиение предсказаний на интервалы и усреднение разницы между точностью и уверенностью по этим бинам.
Основные методы калибровки моделей:
Для бинарной классификации:
- биннинг по гистограмме
- изотоническая регрессия
- масштабирование Платта
Для многоклассовой классификации:
- биннинг
- матричное и векторное масштабирование
👉 @DataSciencegx
Выходные ушли на закрытие одной задачи из списка «изучить»:
GRPO
В статье разбирается:
• что такое GRPO и как он работает
• дообучение LiquidAI LFM2.5-1.2B-Instruct
• использование Unsloth и бесплатных Kaggle T4
Блог: https://leoniemonigatti.com/blog/fine-tuning-lfm2-5-1-2b-instruct-with-grpo.html
Ноутбук на Kaggle: https://kaggle.com/code/iamleonie/fine-tuning-lfm2-5-1-2b-instruct-with-grpo
👉 @DataSciencegx
Смотри топовые научные статьи по ИИ, машинному обучению, робототехнике, квантовой физике и другим направлениям на kurate.org.
Сотни препринтов с arXiv ежедневно ранжируются по научному импакту через парные сравнения, где судьями выступают модели — Claude, GPT и Gemini.
👉 @DataSciencegx
Локальный ИИ-ассистент для ресерча, который запускается на твоём устройстве — автоматически ищет информацию, пишет саммари, проставляет ссылки на источники; данные зашифрованы и не покидают локальную машину.
Local Deep Research — это локально развёрнутый инструмент для ресерча с ИИ, который умеет интегрироваться с моделями вроде Ollama, OpenAI и Anthropic, и поддерживает более десятка поисковых движков, включая arXiv, PubMed и SearXNG, с возможностью гибкого выбора.
Даёт около 95% точности на бенчмарке SimpleQA; есть три режима — быстрый поиск, глубокий ресерч и генерация отчёта, между ними можно переключаться по задаче, плюс используется автономная агентная стратегия на базе LangGraph.
https://github.com/LearningCircuit/local-deep-research
👉 @DataSciencegx
Безумцы реализовали MicroGPT от Andrej Karpathy полностью на ПЛИС-логике.
Без графического процессора. Без PyTorch. Без циклов инференса на центральном процессоре.
Только трансформер, зашитый в железо, генерирующий 50 000+ токенов в секунду.
Модель небольшая, но идея не в этом, а в том, что инференс не обязан существовать только в программной среде.
Целью было не сделать максимально большую модель.
Целью было представить весь путь инференса трансформера в виде, читаемом для железа: память, счётчики, состояния конечных автоматов, аккумуляторы, таблицы поиска и многотактные арифметические блоки.
Базовая схема использует фиксированную арифметику Q4.12 и веса, хранящиеся в ПЗУ.
Большая часть модели сводится к одной повторяющейся операции: матрично-векторному умножению. Поэтому был реализован переиспользуемый 16-канальный потоковый блок матрично-векторных вычислений и затем он временно мультиплексируется на Q/K/V, MLP и выходной слой языковой модели.
Самым интересным оказался механизм внимания.
В Python это одно аккуратное уравнение.
В RTL это превращается в расписание: генерация Q/K/V, проход по скалярным произведениям, отслеживание максимума, приближённое вычисление экспоненты, накопление, деление, смешивание V, затем обратная проекция.
исходники 🙂
👉 @DataSciencegx
Hugging Face буквально собрали у себя все ключевые «секреты».
Важно разобраться в оценке больших языковых моделей.
> Пока ты работаешь с языковыми моделями:
> обучаешь или дообучаешь свои модели,
> выбираешь модель под задачу,
> или пытаешься понять текущее состояние области,
почти неизбежно возникает вопрос:
как понять, что модель хорошая?
> Ответ — оценка качества. Она везде:
> лидерборды с рейтингами моделей,
> бенчмарки, которые якобы меряют рассуждения,
> знания, кодинг или математику,
> статьи с заявленными новыми лучшими результатами.
Но что такое оценка на самом деле?
И что она реально показывает?
Этот гайд помогает во всём разобраться.
О чём вообще оценка моделей Базовые понятия больших языковых моделей для понимания оценки Оценка через готовые бенчмарки Создание своей системы оценки Главная проблема оценки Оценка свободного текста Статистическая корректность оценки Стоимость и эффективность оценки👉 @DataSciencegx
Пошаговое изучение внутреннего устройства LLM — от токенизации до механизма внимания и оптимизации инференса: https://github.com/amitshekhariitbhu/llm-internals
👉 @DataSciencegx
Одно выражение на Python, 22+ SQL-диалектов, без переписывания 🐍
При работе с несколькими базами данных часто приходится переписывать одну и ту же логику под синтаксис каждого диалекта SQL.
Запрос, который работает в DuckDB, может требовать изменений в PostgreSQL и ещё одного переписывания для BigQuery.
Ibis убирает эту проблему, компилируя Python-выражения в нативный SQL каждой бэкенд-базы. Достаточно заменить подключение, и тот же код начинает работать с 22+ базами данных.
Ключевые возможности:
• пишешь один раз — запускается на DuckDB, PostgreSQL, BigQuery, Snowflake и ещё 18+ системах
• ленивое выполнение: сначала строится и оптимизируется план запроса, затем он отправляется в базу
• цепочечный синтаксис, похожий на Polars
Статья-сравнение Ibis с другими библиотеками: https://bit.ly/4kUfKCW
#Python #DataScience #SQL
👉 @DataSciencegx
Что если можно было бы гарантировать, что выход LLM всегда совпадает с ожидаемым форматом?
Задачи классификации с LLM часто становятся грязными. Вместо чистой метки можно получить «Option A», «Ответ: A» или полноценное объяснение.
Приведение этого к нормальному виду требует дополнительного парсинга, ретраев и валидации, что делает систему хрупкой.
С Guidance функция select() ограничивает модель так, чтобы она возвращала ровно один вариант из заданного списка.
Ключевые преимущества:
• гарантирует, что выход соответствует одному из предопределённых вариантов
• убирает необходимость в коде парсинга и регулярных выражениях
• работает с любым списком допустимых значений
Статья-сравнение 5 Python-инструментов для структурированных выходов LLM: https://bit.ly/3OQMv8i
👉 @DataSciencegx
Эта книга на 185 страниц раскрывает основы глубокого обучения.
Основы
> базовые принципы машинного обучения
> вычислительная эффективность
> методики обучения
Глубокие модели
> функции активации
> пулинг
> дропаут
> нормализация
> внимание
Архитектуры
> многослойные перцептроны (MLP)
> сверточные нейросети (CNN)
> механизм внимания
Применения
> классификация изображений
> детекция объектов
> распознавание речи
> обучение с подкреплением
Разрыв в вычислениях
> промпт-инжиниринг
> квантизация
> адаптеры
> слияние моделей
👉 @DataSciencegx
MIT собрал 7 часов материала, где есть всё, что нужно знать про генеративный ИИ бесплатно.
Стабильная диффузия и ДАЛЛ·Е
Нейросети
Обучение с учителем
Представление и обучение без учителя
Обучение с подкреплением
Генеративный ИИ
Самоконтролируемое обучение
Фундаментальные модели
Состязательные сети (GAN)
Контрастивное обучение
Автоэнкодеры
Удаление шума и диффузионные модели
👉 @DataSciencegx
В России можно посещать IT-мероприятия хоть каждый день: как оффлайн, так и онлайн
Но где их находить? Как узнавать о них раньше, чем когда все начнут выкладывать фотографии оттуда?
Переходите на канал IT-Мероприятия России. В нём каждый день анонсируются мероприятия со всех городов России
📆 в канале размещаются как онлайн, так и оффлайн мероприятия;
👩💻 можно найти ивенты по любому стеку: программирование, frontend-backend разработка, кибербезопасность, дата-аналитика, osint, devops и другие;
🎙 разнообразные форматы мероприятий: митапы с коллегами по цеху, конференции и вебинары с известными опытными специалистами, форумы и олимпиады от важных представителей индустрии и многое другое
А чтобы не искать по разным форумам и чатам новости о предстоящих ивентах:
🚀 IT-мероприятия России — подписывайся и будь в курсе всех предстоящих мероприятий!
Эта книга на 115 страниц раскрывает секреты дообучения больших языковых моделей.
Подробное руководство, которое покрывает:
> процесс дообучения больших языковых моделей
> сочетание теории и практики
👉 @DataSciencegx
Теперь можно искать по PDF на 500 страниц без чанкинга и без векторизации.
Андрей Карпати недавно озвучил идею:
что если база знаний работает как вики, а не как векторная база?
OpenKB — open-source CLI, построенный вокруг этой концепции.
Он компилирует сырые документы в структурированную связанную вики-систему с помощью LLM.
Знания накапливаются, а не пересобираются при каждом запросе.
В классическом RAG контекст каждый раз восстанавливается заново. Здесь модель опирается на уже построенную структуру.
Длинные PDF разбираются через PageIndex — древовидный индекс без векторов, который позволяет рассуждать по структуре документа.
Что получается на выходе:
> авто-суммаризация и страницы концептов
> кросс-ссылки между документами
> детект противоречий и пробелов
> режим наблюдения за изменениями
> markdown, совместимый с Obsidian
Поддерживаются PDF, Word, PowerPoint, Excel, HTML и изображения.
Таблицы и фигуры извлекаются нативно.
Один новый файл может автоматически обновить до 15 страниц в вики.
База знаний начинает сохранять то, что уже было выучено.
https://github.com/VectifyAI/OpenKB
👉 @DataSciencegx
Стэнфорд показал, что Claude, GPT и Gemini задействуют только долю доступного креативного потенциала.
Всего один промпт позволяет разблокировать более сильную версию ЛЛМки.
Когда ты задаёшь вопрос, модель просчитывает множество вариантов ответа.
Среди них есть сильные, странные и прорывные.
Но почти никогда их не отдаёт. Из-за обучения через человеческую обратную связь возникает эффект «схлопывания мод».
Модель по умолчанию уходит в безопасные, типичные и предсказуемые ответы. Она знает более сильный вариант, но приоритизирует безопасный.
Исследователи описали способ обойти этот фильтр. Метод называется Verbalized Sampling.
Если просить один ответ — модель выбирает самый вероятный. Если попросить сгенерировать 5 вариантов и указать вероятность для каждого, поведение меняется.
Модель начинает исследовать «хвосты распределения». Вместо 99% предсказуемых ответов появляются менее вероятные, но более сильные варианты.
В тестах этот приём увеличивал разнообразие и креативность до 2.1 раза на топовых моделях.
При этом без потери точности и безопасности. 🤖
👉 @DataSciencegx
Дообучение DeepSeek-OCR под свой язык (100% локально)
Большинство визуальных моделей обрабатывают документы как длинные последовательности токенов, из-за чего работа с большим контекстом становится дорогой и медленной.
DeepSeek-OCR использует оптическое сжатие контекста, чтобы преобразовать 2D-разметку в визуальные токены, что позволяет эффективно обрабатывать сложные документы.
Это визуальная модель на 3 млрд параметров, которая достигает точности 97% при использовании в 10 раз меньшего числа визуальных токенов по сравнению с текстовыми языковыми моделями.
Причём её можно без проблем дообучить под конкретный сценарий использования на одной видеокарте.
Акшай использовал Unsloth для эксперимента на персидском тексте и получил улучшение по метрике CER на 88.26%.
↳ Базовая модель: 149% CER
↳ Дообученная модель: 60% CER (на 57% точнее)
↳ Время обучения: 60 шагов на одной видеокарте
Персидский — просто тестовый кейс. Можно подставить свой датасет для любого языка, типа документов или предметной области.
Полный гайд со всем кодом, ноутбуками и настройкой окружения можно найти тут. 🔮
Всё полностью с открытым исходным кодом.
👉 @DataSciencegx
8 техник для получения лучших ответов от LLM 👉
Большинство взаимодействует с LLM одинаково: задаёт вопрос, отправляет и работает с результатом.
Это zero-shot промптинг, базовый уровень. Если ответы не устраивают, сначала улучшают промпт, а не меняют модель.
8 техник промпт-инжиниринга:
1. Few-shot промптинг: показать несколько примеров вход-выход. Модель улавливает паттерн и применяет к новым данным.
2. Chain-of-thought (CoT): запрос пошагового рассуждения. Разбивает сложные задачи на проверяемые шаги.
3. Иерархия промптов: системный, девелоперский и пользовательский уровни с разным приоритетом. Верхние уровни переопределяют нижние.
4. Ролевой промптинг: задать роль, например «ты исследователь безопасности». Модель смещает распределение на соответствующие данные обучения.
5. Негативный промптинг: явно указать, что нельзя делать. Например, «не использовать маркетинговый стиль».
6. JSON-промптинг: задать JSON-схему прямо в промпте. Модель возвращает структурированный ответ по этой схеме.
7.Attentive reasoning queries (ARQ): вместо свободного CoT — структурированные доменные вопросы. В тестах: 90.2% соблюдения инструкций против 81.5% у прямого промпта.
8. Verbalized sampling: попросить модель сгенерировать несколько вариантов с оценками вероятности. Возвращает разнообразие, подавленное RLHF.
Техники хорошо комбинируются: few-shot + CoT, JSON + негативный промптинг. ARQ — по сути структурированный CoT для агентных сценариев.
Дополнительно качество растёт от контекста, инструментов и ретривала.
Но эти 8 техник полностью лежат в промпте — без изменений модели, инфраструктуры или сетапа. Меняется только структура запроса.
Вот ещё статья на эту тему
👉 @DataSciencegx
Традиционный инференс не рассчитан на агентный кодинг.
Агентные инструменты делают сотни API-вызовов за одну сессию, часто с пересобранным контекстом, что создаёт узкие места и увеличивает стоимость за токен.
NVIDIA Dynamo перестраивает стек под агентов:
→ роутинг с учётом KV-кэша
→ планирование с учётом агентов
→ многоуровневое кэширование
→ единая оркестрация
Результат: выше доля попаданий в кэш, ниже задержка и до 7× больше пропускной способности: подробнее 🤓
👉 @DataSciencegx
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
