Data Portal | DS & ML

الذهاب إلى القناة على Telegram

Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx

إظهار المزيد

الشبكة:IT Portal روسيا75 941 التكنولوجيات والتطبيقات13 882

8 407

المشتركون

-724 ساعات

-77 أيام

-430 أيام

951

عرض المشاهدات

~ 57524 ساعات

~ 69048 ساعات

11.31%

معدل المشاركة

~ 2

المشاركات في اليوم

Ads index

beta

أرشيف المشاركات

8 407

15 января, 14:30 МСК — IFS и LLM: как перестать ругаться с ChatGPT и начать получать от него нормальные результаты Онлайн-встреча с Димой Мацкевичем и командой IFS Academy. Знакомо: LLM ответил “не так” — и внутри сразу «всё фигня», «я туплю», «надо было лучше», перфекционист требует идеала, а уставшая часть предлагает забить. В IFS мы смотрим на это как на работу внутренних частей: одни давят и контролируют, другие боятся ошибиться и тормозят. Когда получается перейти в любопытство, запросы становятся точнее, итерации спокойнее, а результат — лучше. На встрече: разбор + короткая практика mapping (какие части включаются в диалоге с ИИ и как вернуть ясность) + ответы на вопросы. Ведут: Дима Мацкевич (emotional.tantra, handl.ai, YC и др.) и Алёна Павленко, IFS-коуч. Запись на вебинар в нашем ТГ-боте (туда пришлём ссылку на Zoom): @IFScourse_bot

8 407

Google обучил модель на миллионах пользовательских сообщений. Не увидев ни одного сообщения. Это называется federated learning. Его используют Google, Apple, Meta и почти все крупные техкомпании. Объясняю, как это работает. Представь, что ты хочешь сделать клавиатуру, которая предсказывает следующий ввод. Лучшие данные для обучения — реальные сообщения с миллионов телефонов. Но собирать их нельзя: приватность, чувствительные данные, пользователи просто взбунтуются. Federated learning переворачивает подход. Вместо того чтобы тащить данные к модели, ты тащишь модель к данным. Вот как это выглядит на практике. Шаг 1. Отправляем модель на устройства Телефон скачивает небольшую нейросеть. Она живет локально, прямо на девайсе. → это глобальная модель W Шаг 2. Обучаем там, где живут данные Пока ты печатаешь, телефон незаметно учится твоим паттернам. "omw" → "буду через 10 минут". Он считает, как модель должна улучшиться. → это локальные градиенты ΔW Шаг 3. Возвращаем только обучение, не данные На сервер уходят обновления весов. Не сообщения. Не история ввода. Только математика. → этап агрегации обновлений Шаг 4. Усредняем по тысячам устройств Сервер объединяет апдейты с тысяч телефонов. Общие паттерны усиливаются, индивидуальные особенности взаимно гасятся. → классический FedAvg W_new = W + (1 / n) × Σ(ΔWₖ) Четыре шага. Ни один сырой пользовательский данные не покидает устройство. Только аккуратная координация. Самое важное: это открывает доступ к данным, которые раньше были принципиально недоступны. Больницы могут обучать модели для диагностики рака, не обмениваясь снимками пациентов. Банки строят антифрод, не раскрывая транзакции. Умные дома учатся предпочтениям, не отправляя личные моменты в облако. Приватность и польза — не взаимоисключающие вещи. Наоборот: уважение границ данных делает такие модели возможными. Так что прежде чем централизовать все подряд, стоит задуматься:

лучшие данные для обучения уже существуют — просто они заперты на устройствах, к которым ты никогда не получишь прямой доступ.

👉 @DataSciencegx

8 407

А что если можно определить свои собственные типы сущностей без обучения отдельной модели? Named Entity Recognition (NER) вытаскивает из текста ключевые данные вроде имен, дат и организаций. Но стандартные модели обычно зашиты под фиксированный набор типов, типа PERSON, ORG, DATE и т.п. Если надо вытянуть что-то более специфичное, обычно приходится обучать свою модель на тысячах размеченных примеров. GLiNER решает это за счёт zero-shot извлечения сущностей: можно тащить любые типы без обучения. Плюсы: • Сразу работает на любом домене текста, без подготовки • Поддерживает несколько типов сущностей за один проход • Возвращает confidence для каждой найденной сущности • Легко интегрируется в spaCy и другие NLP-пайплайны Полная статья: https://bit.ly/4pdiNrz Запустите этот код: https://bit.ly/4s6wEkZ Кроме того, GLiNER является открытым исходным кодом! Установите его с помощью команды «pip install gliner». 👉 @DataSciencegx

8 407

Открытый релиз первой единой библиотеки для роутинга LLM ☝️ Встречайте LLMRouter 16+ роутеров в одном фреймворке. Хватит заново переписывать научные работы про роутинг. Просто ставите:

pip install llmrouter-lib

и сразу поднимаете SOTA-роутинг под свои задачи. Быстрый старт с LLMRouter Код: [https://github.com/ulab-uiuc/LLMRouter] Проект: [https://ulab-uiuc.github.io/LLMRouter/] Зачем это нужно? Зачем платить тарифы GPT-5 за вопрос уровня "какая погода" Умный роутинг экономит деньги Простой запрос → дешёвая модель Сложный запрос → мощная модель Экономия 30–50% на инференсе без потери качества Арсенал из 16+ роутеров Переключение между SOTA-методами одной флажковой настройкой. Закрыты все подходы: » Single-Round: от классических ML (KNN, SVM) до нейросетевых (Graph, Contrastive) » Multi-Round: RL-логика, которая думает перед маршрутизацией » Agentic: разбивает задачу на шаги и раскидывает по моделям » Personalized: адаптируется под историю пользователя и его запросы Полный набор из коробки: Не просто код, а вся инфраструктура. » Единый CLI: обучение, инференс и чат на любом роутере » UI на Gradio: интерактивный интерфейс сразу доступен » Бенчмарки: 11 готовых датасетов + пайплайн генерации данных От ресерча по роутингу LLM до продакшена за пару минут 👉 @DataSciencegx

8 407

А что если можно было бы точно увидеть момент, когда модель начинает переобучаться при подборе гиперпараметров? Тюнинг гиперпараметров — это поиск баланса между недообучением (модель слишком примитивная) и переобучением (модель запоминает датасет вместо того, чтобы учиться обобщать). Конечно, можно самому писать цикл, гонять кросс-валидацию по каждому значению, собирать метрики и строить графики. Но это рутинщина, которую придётся повторять из проекта в проект. Yellowbrick — библиотека визуализации для машинного обучения, которая как раз решает эту задачу. ValidationCurve показывает, где всё ок, где начинает разваливаться и что стоит поправить, без шаблонного кода и кривых графиков. Как читать график из примера: • Метрика на train (синяя) остаётся высокой при росте max_depth • Метрика на validation (зелёная) падает после глубины 4 • Разрыв между ними растёт — модель запоминает тренировочные данные и плохо обобщает на новых Что делать: выбрать max_depth примерно 3–4, пока валидационная метрика на пике и разрыв ещё не ушёл в космос. Полная статья: https://bit.ly/44CBQ62 Запустите этот код: https://bit.ly/48RanQp 👉 @DataSciencegx

8 407

Открыли исходники DeepTutor — AI-ассистента для персонализированного обучения.

Мы экспериментируем с агентными ИИ, которые могут помогать студентам и исследователям на всём пути обучения. DeepTutor объединяет работу с материалами, решение задач, генерацию практики и управление знаниями в одну систему, которая реально понимает твой контекст обучения.

Основные возможности DeepTutor: » Умный Q&A по документам Загружаешь учебники, статьи, техдоки — задаёшь вопросы и получаешь развернутые ответы с корректными ссылками на источники. » Визуализация и объяснения знаний Превращает сложные темы в наглядные диаграммы и интерактивные страницы, подстраиваясь под темп изучения. » Генерация практических задач Создаёт вопросы и мини-тесты на основе твоих материалов. Может подражать формату реальных экзаменов, если загрузить примеры. » Глубокий ресёрч и генерация идей Помогает в исследовательской работе, отчётах и брейнстормах. Тянет несколько тем параллельно, не теряя контекст. 👉 @DataSciencegx

8 407

А что если просто смена библиотеки разблокировала бы все ядра процессора без переписывания кода? pandas гоняет join’ы на одном ядре, оставляя остальные простаивать при работе с большими таблицами. Polars раскидывает операции join по всем доступным ядрам и за счёт этого ощутимо быстрее pandas на крупных данных. Почему Polars такой быстрый: • Обрабатывает строки батчами в параллель • Использует все CPU-ядра • Не требует никакой настройки Статья — pandas vs polars vs DuckDB Запустите этот код 👉 @DataSciencegx

8 407

Автор собрал все свои посты про AI-инжиниринг в один PDF. Внутри:

основы LLM prompt engineering дообучение RAG работа с контекстом AI-агенты MCP оптимизация деплой оценка и наблюдаемость

375+ страниц. Скачать бесплатно 👉 @DataSciencegx

8 407

Claude Scientific Skills — это набор навыков, который превращает Claude в исследовательского ассистента для сложных научных задач: многошаговые расчёты, математика, биология, химия, медицина и другие области, где нужен последовательный анализ и аккуратная логика. Открытый проект, полный доступ к коду. Внутри больше 123 готовых навыков. 👉 @DataSciencegx

8 407

Hugging Face выпустила 214-страничный МАСТЕР-КЛАСС по обучению LLM 👉 @DataSciencegx

8 407

Новый блог про оптимизацию политик в RL вышел. Автор собрал техники, которые идут дальше PPO: GRPO, DR.GRPO, GSPO, DAPO, CISPO, GMPO, RSPO и SAPO. По сути, это способы сделать обучение агентов стабильнее и результативнее на сложных задачах 👉 @DataSciencegx

8 407

Парень написал GPU-ускоренный решатель задач линейного программирования на PyTorch, который масштабируется до 100k+ переменных и ограничений и по скорости/качеству конкурирует с современными state-of-the-art солверами. Вся реализация занимает примерно 350 строк кода (без документации и логирования) и сделана максимально простой. Там реализован алгоритм PDLP, вариант PDHG (primal-dual hybrid gradient). Имплементация довольно близко следует свежим статьям по PDLP. Весь решатель собран в одной функции solve(), в которую ты просто передаешь данные своей задачи. 👉 @DataSciencegx

8 407

Новое исследование подъехало: появился приём, который режет галлюцинации у ИИ примерно на 50%. Называется Model-First Reasoning. Смысл простой. Вместо привычного «как решить задачу [xxx]?» Сначала заставляем модель перечислить: - что в задаче участвует - что может меняться - какие действия вообще допустимы - что под запретом И только потом просим решить, опираясь только на этот список. Чем отличается от Chain-of-Thought? CoT — модель «думает и решает одновременно». Звучит плавно и умно, но по пути нередко додумывает лишнее. Model-First Reasoning ставит жёсткую стенку: сначала определяем правила, потом решаем. Без смешивания. ИИ обязан использовать только то, что сам записал на первом шаге — в этом и фокус. Тестили на медицинском планировании, маршрутах, распределении ресурсов и логических задачах. Результат стабилен: меньше нарушений правил, чище ответы. Почему работает: • LLM выдумывает детали, потому что предполагает то, чего ты не говорил. • Когда заставляешь сначала всё выписать, прятаться некуда. • Это лишний аргумент в пользу «Human-in-the-loop»: проверяем шаги по ходу, не даём модели уехать в фантазии. Статья тут: https://arxiv.org/pdf/2512.14474 👉 @DataSciencegx

8 407

Вам следует приобрести GPU и запускать свои модели искусственного интеллекта локально. 👉 @DataSciencegx

8 407

Финальный набор инструментов для работы с LLM. Transformer Lab позволяет обучать, дообучать и общаться с любой LLM локально. Есть загрузка моделей в один клик и простой drag-and-drop интерфейс для RAG. Полностью open source. 👉 @DataSciencegx

8 407

Этот open-source репо ужимает 60 млн текстовых чанков с примерно 201 ГБ до примерно 6 ГБ 🤯 Это где-то на 97% меньше, при этом качество ретривала остаётся очень близким к стандартным сетапам. • Без облака • Без GPU • Запускается локально на обычном ноутбуке • Полная приватность • 100% open source LEANN делает это за счёт того, что не хранит эмбеддинги постоянно. Вместо этого он использует компактный граф и пересчитывает эмбеддинги только когда они реально нужны :)) 👉 @DataSciencegx

8 407

Это модель, которая умеет находить приватные данные в тексте и автоматически замазывать их, чтобы не утекла лишняя инфа. Весит всего 0.1B, я прогнал у себя — спокойно работает на CPU. На скрине ниже как раз мой тест. Использование элементарное: автор запаковал всё в питоновский пакет. Импортируешь и вызываешь метод — и готово:

from artifex import Artifex
Artifex().text_anonymization("твой текст")

Но есть момент — модель из коробки «понимает» только английский. Для других языков придётся подстроить. В комплекте есть тулкит для тонкой настройки даже без датасета для обучения, что удобно. Модель лежит здесь: https://huggingface.co/tanaos/tanaos-text-anonymizer-v1 👉 @DataSciencegx

8 407

$Преобразуй сложные регэкспы в нормальный читаемый Python-код с Pregex Шаблоны вроде [a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z$

Преобразуй сложные регэкспы в нормальный читаемый Python-код с Pregex Шаблоны вроде [a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,} выглядят пугающе и плохо читаются. Команде без опыта в регулярках сложно понять и править такие валидации. Pregex разворачивает regex в понятный питоновский код из описательных компонентов. Что получаем: • Код сам объясняет намерение, даже без комментариев • Можно править без знаний регэкспов • Компонуешь паттерны для сложной валидации • При необходимости обратно экспортируешь в обычный regex Инструмент open source. Установка: pip install pregex Полная статья: https://bit.ly/3IWAE5O Запустите этот код: https://bit.ly/4hdQjKM 👉 @DataSciencegx

8 407

NVIDIA выпустила гайд для новичков по fine-tuning LLM с помощью Unsloth. В гайде разбирают: - методы обучения: LoRA, FFT, RL - когда и зачем делать fine-tuning, реальные use-case’ы - сколько данных и VRAM требуется - как обучать локально на DGX Spark, RTX-видеокартах и не только Гайд: https://blogs.nvidia.com/blog/rtx-ai-garage-fine-tuning-unsloth-dgx-spark/ 👉 @DataSciencegx

8 407

Google Colab теперь поставляется с предустановленным Gemini CLI Самое кайфовое тут в том, что в Colab можно использовать оба режима: неинтерактивный (слева) и интерактивный (справа). Больше всего мне заходит неинтерактивный режим прямо внутри ноутбука. 👉 @DataSciencegx