ar
Feedback
Data Portal | DS & ML

Data Portal | DS & ML

الذهاب إلى القناة على Telegram

Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx

إظهار المزيد
8 407
المشتركون
-724 ساعات
-77 أيام
-430 أيام
أرشيف المشاركات
15 января, 14:30 МСК — IFS и LLM: как перестать ругаться с ChatGPT и начать получать от него нормальные результаты Онлайн-вст
15 января, 14:30 МСК — IFS и LLM: как перестать ругаться с ChatGPT и начать получать от него нормальные результаты Онлайн-встреча с Димой Мацкевичем и командой IFS Academy. Знакомо: LLM ответил “не так” — и внутри сразу «всё фигня», «я туплю», «надо было лучше», перфекционист требует идеала, а уставшая часть предлагает забить. В IFS мы смотрим на это как на работу внутренних частей: одни давят и контролируют, другие боятся ошибиться и тормозят. Когда получается перейти в любопытство, запросы становятся точнее, итерации спокойнее, а результат — лучше. На встрече: разбор + короткая практика mapping (какие части включаются в диалоге с ИИ и как вернуть ясность) + ответы на вопросы. Ведут: Дима Мацкевич (emotional.tantra, handl.ai, YC и др.) и Алёна Павленко, IFS-коуч. Запись на вебинар в нашем ТГ-боте (туда пришлём ссылку на Zoom): @IFScourse_bot

Google обучил модель на миллионах пользовательских сообщений. Не увидев ни одного сообщения. Это называется federated learnin
Google обучил модель на миллионах пользовательских сообщений. Не увидев ни одного сообщения. Это называется federated learning. Его используют Google, Apple, Meta и почти все крупные техкомпании. Объясняю, как это работает. Представь, что ты хочешь сделать клавиатуру, которая предсказывает следующий ввод. Лучшие данные для обучения — реальные сообщения с миллионов телефонов. Но собирать их нельзя: приватность, чувствительные данные, пользователи просто взбунтуются. Federated learning переворачивает подход. Вместо того чтобы тащить данные к модели, ты тащишь модель к данным. Вот как это выглядит на практике. Шаг 1. Отправляем модель на устройства Телефон скачивает небольшую нейросеть. Она живет локально, прямо на девайсе. → это глобальная модель W Шаг 2. Обучаем там, где живут данные Пока ты печатаешь, телефон незаметно учится твоим паттернам. "omw""буду через 10 минут". Он считает, как модель должна улучшиться. → это локальные градиенты ΔW Шаг 3. Возвращаем только обучение, не данные На сервер уходят обновления весов. Не сообщения. Не история ввода. Только математика. → этап агрегации обновлений Шаг 4. Усредняем по тысячам устройств Сервер объединяет апдейты с тысяч телефонов. Общие паттерны усиливаются, индивидуальные особенности взаимно гасятся. → классический FedAvg W_new = W + (1 / n) × Σ(ΔWₖ) Четыре шага. Ни один сырой пользовательский данные не покидает устройство. Только аккуратная координация. Самое важное: это открывает доступ к данным, которые раньше были принципиально недоступны. Больницы могут обучать модели для диагностики рака, не обмениваясь снимками пациентов. Банки строят антифрод, не раскрывая транзакции. Умные дома учатся предпочтениям, не отправляя личные моменты в облако. Приватность и польза — не взаимоисключающие вещи. Наоборот: уважение границ данных делает такие модели возможными. Так что прежде чем централизовать все подряд, стоит задуматься:
лучшие данные для обучения уже существуют — просто они заперты на устройствах, к которым ты никогда не получишь прямой доступ.
👉 @DataSciencegx

А что если можно определить свои собственные типы сущностей без обучения отдельной модели? Named Entity Recognition (NER) выт
А что если можно определить свои собственные типы сущностей без обучения отдельной модели? Named Entity Recognition (NER) вытаскивает из текста ключевые данные вроде имен, дат и организаций. Но стандартные модели обычно зашиты под фиксированный набор типов, типа PERSON, ORG, DATE и т.п. Если надо вытянуть что-то более специфичное, обычно приходится обучать свою модель на тысячах размеченных примеров. GLiNER решает это за счёт zero-shot извлечения сущностей: можно тащить любые типы без обучения. Плюсы: • Сразу работает на любом домене текста, без подготовки • Поддерживает несколько типов сущностей за один проход • Возвращает confidence для каждой найденной сущности • Легко интегрируется в spaCy и другие NLP-пайплайны Полная статья: https://bit.ly/4pdiNrz Запустите этот код: https://bit.ly/4s6wEkZ Кроме того, GLiNER является открытым исходным кодом! Установите его с помощью команды «pip install gliner». 👉 @DataSciencegx

Открытый релиз первой единой библиотеки для роутинга LLM ☝️ Встречайте LLMRouter 16+ роутеров в одном фреймворке. Хватит заново переписывать научные работы про роутинг. Просто ставите:
pip install llmrouter-lib
и сразу поднимаете SOTA-роутинг под свои задачи. Быстрый старт с LLMRouter Код: [https://github.com/ulab-uiuc/LLMRouter] Проект: [https://ulab-uiuc.github.io/LLMRouter/] Зачем это нужно? Зачем платить тарифы GPT-5 за вопрос уровня "какая погода" Умный роутинг экономит деньги Простой запрос → дешёвая модель Сложный запрос → мощная модель Экономия 30–50% на инференсе без потери качества Арсенал из 16+ роутеров Переключение между SOTA-методами одной флажковой настройкой. Закрыты все подходы: » Single-Round: от классических ML (KNN, SVM) до нейросетевых (Graph, Contrastive) » Multi-Round: RL-логика, которая думает перед маршрутизацией » Agentic: разбивает задачу на шаги и раскидывает по моделям » Personalized: адаптируется под историю пользователя и его запросы Полный набор из коробки: Не просто код, а вся инфраструктура. » Единый CLI: обучение, инференс и чат на любом роутере » UI на Gradio: интерактивный интерфейс сразу доступен » Бенчмарки: 11 готовых датасетов + пайплайн генерации данных От ресерча по роутингу LLM до продакшена за пару минут 👉 @DataSciencegx

А что если можно было бы точно увидеть момент, когда модель начинает переобучаться при подборе гиперпараметров? Тюнинг гиперп
А что если можно было бы точно увидеть момент, когда модель начинает переобучаться при подборе гиперпараметров? Тюнинг гиперпараметров — это поиск баланса между недообучением (модель слишком примитивная) и переобучением (модель запоминает датасет вместо того, чтобы учиться обобщать). Конечно, можно самому писать цикл, гонять кросс-валидацию по каждому значению, собирать метрики и строить графики. Но это рутинщина, которую придётся повторять из проекта в проект. Yellowbrick — библиотека визуализации для машинного обучения, которая как раз решает эту задачу. ValidationCurve показывает, где всё ок, где начинает разваливаться и что стоит поправить, без шаблонного кода и кривых графиков. Как читать график из примера: • Метрика на train (синяя) остаётся высокой при росте max_depth • Метрика на validation (зелёная) падает после глубины 4 • Разрыв между ними растёт — модель запоминает тренировочные данные и плохо обобщает на новых Что делать: выбрать max_depth примерно 3–4, пока валидационная метрика на пике и разрыв ещё не ушёл в космос. Полная статья: https://bit.ly/44CBQ62 Запустите этот код: https://bit.ly/48RanQp 👉 @DataSciencegx

Открыли исходники DeepTutor — AI-ассистента для персонализированного обучения. Мы экспериментируем с агентными ИИ, которые мо
Открыли исходники DeepTutor — AI-ассистента для персонализированного обучения.
Мы экспериментируем с агентными ИИ, которые могут помогать студентам и исследователям на всём пути обучения. DeepTutor объединяет работу с материалами, решение задач, генерацию практики и управление знаниями в одну систему, которая реально понимает твой контекст обучения.
Основные возможности DeepTutor: » Умный Q&A по документам Загружаешь учебники, статьи, техдоки — задаёшь вопросы и получаешь развернутые ответы с корректными ссылками на источники. » Визуализация и объяснения знаний Превращает сложные темы в наглядные диаграммы и интерактивные страницы, подстраиваясь под темп изучения. » Генерация практических задач Создаёт вопросы и мини-тесты на основе твоих материалов. Может подражать формату реальных экзаменов, если загрузить примеры. » Глубокий ресёрч и генерация идей Помогает в исследовательской работе, отчётах и брейнстормах. Тянет несколько тем параллельно, не теряя контекст. 👉 @DataSciencegx

А что если просто смена библиотеки разблокировала бы все ядра процессора без переписывания кода? pandas гоняет join’ы на одно
А что если просто смена библиотеки разблокировала бы все ядра процессора без переписывания кода? pandas гоняет join’ы на одном ядре, оставляя остальные простаивать при работе с большими таблицами. Polars раскидывает операции join по всем доступным ядрам и за счёт этого ощутимо быстрее pandas на крупных данных. Почему Polars такой быстрый: • Обрабатывает строки батчами в параллель • Использует все CPU-ядра • Не требует никакой настройки Статья — pandas vs polars vs DuckDB Запустите этот код 👉 @DataSciencegx

Автор собрал все свои посты про AI-инжиниринг в один PDF. Внутри:
основы LLM prompt engineering дообучение RAG работа с контекстом AI-агенты MCP оптимизация деплой оценка и наблюдаемость
375+ страниц. Скачать бесплатно 👉 @DataSciencegx

Claude Scientific Skills — это набор навыков, который превращает Claude в исследовательского ассистента для сложных научных з
Claude Scientific Skills — это набор навыков, который превращает Claude в исследовательского ассистента для сложных научных задач: многошаговые расчёты, математика, биология, химия, медицина и другие области, где нужен последовательный анализ и аккуратная логика. Открытый проект, полный доступ к коду. Внутри больше 123 готовых навыков. 👉 @DataSciencegx

Hugging Face выпустила 214-страничный МАСТЕР-КЛАСС по обучению LLM 👉 @DataSciencegx
Hugging Face выпустила 214-страничный МАСТЕР-КЛАСС по обучению LLM 👉 @DataSciencegx

Новый блог про оптимизацию политик в RL вышел. Автор собрал техники, которые идут дальше PPO: GRPO, DR.GRPO, GSPO, DAPO, CISP
+1
Новый блог про оптимизацию политик в RL вышел. Автор собрал техники, которые идут дальше PPO: GRPO, DR.GRPO, GSPO, DAPO, CISPO, GMPO, RSPO и SAPO. По сути, это способы сделать обучение агентов стабильнее и результативнее на сложных задачах 👉 @DataSciencegx

Парень написал GPU-ускоренный решатель задач линейного программирования на PyTorch, который масштабируется до 100k+ переменны
Парень написал GPU-ускоренный решатель задач линейного программирования на PyTorch, который масштабируется до 100k+ переменных и ограничений и по скорости/качеству конкурирует с современными state-of-the-art солверами. Вся реализация занимает примерно 350 строк кода (без документации и логирования) и сделана максимально простой. Там реализован алгоритм PDLP, вариант PDHG (primal-dual hybrid gradient). Имплементация довольно близко следует свежим статьям по PDLP. Весь решатель собран в одной функции solve(), в которую ты просто передаешь данные своей задачи. 👉 @DataSciencegx

Новое исследование подъехало: появился приём, который режет галлюцинации у ИИ примерно на 50%. Называется Model-First Reasoni
Новое исследование подъехало: появился приём, который режет галлюцинации у ИИ примерно на 50%. Называется Model-First Reasoning. Смысл простой. Вместо привычного «как решить задачу [xxx]?» Сначала заставляем модель перечислить: - что в задаче участвует - что может меняться - какие действия вообще допустимы - что под запретом И только потом просим решить, опираясь только на этот список. Чем отличается от Chain-of-Thought? CoT — модель «думает и решает одновременно». Звучит плавно и умно, но по пути нередко додумывает лишнее. Model-First Reasoning ставит жёсткую стенку: сначала определяем правила, потом решаем. Без смешивания. ИИ обязан использовать только то, что сам записал на первом шаге — в этом и фокус. Тестили на медицинском планировании, маршрутах, распределении ресурсов и логических задачах. Результат стабилен: меньше нарушений правил, чище ответы. Почему работает: • LLM выдумывает детали, потому что предполагает то, чего ты не говорил. • Когда заставляешь сначала всё выписать, прятаться некуда. • Это лишний аргумент в пользу «Human-in-the-loop»: проверяем шаги по ходу, не даём модели уехать в фантазии. Статья тут: https://arxiv.org/pdf/2512.14474 👉 @DataSciencegx

Вам следует приобрести GPU и запускать свои модели искусственного интеллекта локально. 👉 @DataSciencegx
Вам следует приобрести GPU и запускать свои модели искусственного интеллекта локально. 👉 @DataSciencegx

Финальный набор инструментов для работы с LLM. Transformer Lab позволяет обучать, дообучать и общаться с любой LLM локально. Есть загрузка моделей в один клик и простой drag-and-drop интерфейс для RAG. Полностью open source. 👉 @DataSciencegx

Этот open-source репо ужимает 60 млн текстовых чанков с примерно 201 ГБ до примерно 6 ГБ 🤯 Это где-то на 97% меньше, при это
Этот open-source репо ужимает 60 млн текстовых чанков с примерно 201 ГБ до примерно 6 ГБ 🤯 Это где-то на 97% меньше, при этом качество ретривала остаётся очень близким к стандартным сетапам. • Без облака • Без GPU • Запускается локально на обычном ноутбуке • Полная приватность • 100% open source LEANN делает это за счёт того, что не хранит эмбеддинги постоянно. Вместо этого он использует компактный граф и пересчитывает эмбеддинги только когда они реально нужны :)) 👉 @DataSciencegx

Это модель, которая умеет находить приватные данные в тексте и автоматически замазывать их, чтобы не утекла лишняя инфа. Веси
Это модель, которая умеет находить приватные данные в тексте и автоматически замазывать их, чтобы не утекла лишняя инфа. Весит всего 0.1B, я прогнал у себя — спокойно работает на CPU. На скрине ниже как раз мой тест. Использование элементарное: автор запаковал всё в питоновский пакет. Импортируешь и вызываешь метод — и готово:
from artifex import Artifex
Artifex().text_anonymization("твой текст")
Но есть момент — модель из коробки «понимает» только английский. Для других языков придётся подстроить. В комплекте есть тулкит для тонкой настройки даже без датасета для обучения, что удобно. Модель лежит здесь: https://huggingface.co/tanaos/tanaos-text-anonymizer-v1 👉 @DataSciencegx

Преобразуй сложные регэкспы в нормальный читаемый Python-код с Pregex Шаблоны вроде [a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z
Преобразуй сложные регэкспы в нормальный читаемый Python-код с Pregex Шаблоны вроде [a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,} выглядят пугающе и плохо читаются. Команде без опыта в регулярках сложно понять и править такие валидации. Pregex разворачивает regex в понятный питоновский код из описательных компонентов. Что получаем: • Код сам объясняет намерение, даже без комментариев • Можно править без знаний регэкспов • Компонуешь паттерны для сложной валидации • При необходимости обратно экспортируешь в обычный regex Инструмент open source. Установка: pip install pregex Полная статья: https://bit.ly/3IWAE5O Запустите этот код: https://bit.ly/4hdQjKM 👉 @DataSciencegx

NVIDIA выпустила гайд для новичков по fine-tuning LLM с помощью Unsloth. В гайде разбирают: - методы обучения: LoRA, FFT, RL
NVIDIA выпустила гайд для новичков по fine-tuning LLM с помощью Unsloth. В гайде разбирают: - методы обучения: LoRA, FFT, RL - когда и зачем делать fine-tuning, реальные use-case’ы - сколько данных и VRAM требуется - как обучать локально на DGX Spark, RTX-видеокартах и не только Гайд: https://blogs.nvidia.com/blog/rtx-ai-garage-fine-tuning-unsloth-dgx-spark/ 👉 @DataSciencegx

Google Colab теперь поставляется с предустановленным Gemini CLI Самое кайфовое тут в том, что в Colab можно использовать оба
Google Colab теперь поставляется с предустановленным Gemini CLI Самое кайфовое тут в том, что в Colab можно использовать оба режима: неинтерактивный (слева) и интерактивный (справа). Больше всего мне заходит неинтерактивный режим прямо внутри ноутбука. 👉 @DataSciencegx