Data Portal | DS & ML
前往频道在 Telegram
Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx
显示更多8 413
订阅者
无数据24 小时
-57 天
+330 天
帖子存档
С ума сойти, что всю AI-революцию по сути двигает один-единственный алгоритм на 10 строк кода.
👉 @DataSciencegx
🔥 Пожизненная PRO-подписка на easyoffer по цене одного года.
Беспрецедентная акция на PRO-тариф сайта для подготовки к собеседованию на программиста, тестировщика, проектного менеджера и другие IT-профессии.
⚙️ Доступные функции сейчас:
1. База вопросов из реальных технических собеседований с вероятностью встречи и примерами ответов.
2. База задач с этапа live-coding.
3. База 1100+ реальных собеседований, в том числе в топовые компании (Сбер, Авито, Яндекс, WB, OZON, МТС и др.) на позиции Junior/Middle/Senior.
4. База 400+ тестовых заданий от компаний.
5. Аналитика ТОП-требований из вакансий для лучшего написания резюме по ключевым словам.
6. Тренажеры для подготовки к собеседованию. В том числе тренажер «Реальное собеседование» со сценарием вопросов под конкретную компанию.
⌛️ Функции, которые появятся в ближайшие полгода:
1. Агрегатор вакансий из Telegram, сайтов компаний и джоббордов.
2. Улучшение и оптимизация резюме, чтобы проходить ATS-системы.
3. Генерация уникального резюме и сопроводительного письма под вакансию.
Акция до 20 февраля (включительно) на PRO-тариф. Покупаешь сейчас один раз — пользуешься всю жизнь без лимита, включая все будущие функции.
👉 Смотри подробности тарифа и покупай на easyoffer
Отличный инструмент, чтобы прикинуть, сколько VRAM твоим LLM реально нужно: https://apxml.com/tools/vram-calculator
Меняешь конфиг железа, квантизацию и прочие параметры, и сразу видишь:
▪️скорость генерации (токены/сек)
▪️точное распределение памяти
▪️пропускную способность системы и т.д.
Больше никакого гадания по VRAM.
👉 @DataSciencegx
Гарвард выложил свой roadmap для Senior Engineer в открытый доступ бесплатно.
Профессор Vijay Janapa Reddi просто выложил весь курс по ML Systems (CS249r) на GitHub.
Если прокачаешь эти 6 столпов, ты будешь впереди планеты всей
- Архитектура
- Дата-пайплайны
- Продакшен
- MLOps
- Edge AI
- Приватность
Это тот самый “черный ящик” инфраструктуры бигтеха, который теперь открыт.
Читай. Учись. Сохраняй в закладки.
Книга, гитхаб
👉 @DataSciencegx
Гарвард выложил свой roadmap для Senior Engineer в открытый доступ бесплатно.
Профессор Vijay Janapa Reddi просто выложил весь курс по ML Systems (CS249r) на GitHub.
Если прокачаешь эти 6 столпов, ты будешь впереди планеты всей
- Архитектура
- Дата-пайплайны
- Продакшен
- MLOps
- Edge AI
- Приватность
Это тот самый “черный ящик” инфраструктуры бигтеха, который теперь открыт.
Читай. Учись. Сохраняй в закладки.
Книга, гитхаб
👉 @DataSciencegx
📘 На Stepik обновлен курс — «AI Agents PRO: LangGraph, AutoGen и LLMOps в продакшне»
🔥 Обновление февраль 2026: весь код переписан под LangChain 1.0+ и LangGraph 1.0
Хотите собирать AI-агентов и RAG-сервисы так, чтобы это стабильно работало в эксплуатации: с метриками, оценкой качества, контролем стоимости и нормальным деплоем? Этот курс — полный путь от прототипа к прод-сервису.
Агенты: LangGraph/AutoGen, роли/состояния, FSM/DAG, параллелизм
RAG: hybrid retrieval + rerank (Qdrant/FAISS/Weaviate)
Надёжность: таймауты, ретраи, идемпотентность, DLQ
Eval/качество: golden-сеты, LLM-judge, pass@k, quality-гейты
Observability: логи/трейсы, OpenTelemetry, Prometheus/Grafana
Security: строгий JSON (Pydantic), guardrails, PII, RBAC/ABAC
🎓 Сертификат Stepik — добавьте в резюме или LinkedIn
🚀 Скидка 25% по ссылке — действует 48ч
👉 Забрать обновлённый курс на Stepik
Кто-то сделал опенсорсную тулзу, которая запускает iOS-приложения без установки.
👉 @DataSciencegx
Кто-то собрал тулзу, которая СНИМАЕТ ЦЕНЗУРУ у LLM за 45 минут одной-единственной командой
называется HERETIC
Полностью open source.
👉 @DataSciencegx
Этот чел пересобрал OpenClaw тупо на shell-скрипте, примерно в 400 строк, используя Claude Code и tmux.
И у него реально завелись все фичи: WhatsApp-каналы, heartbeat-система, cron-задачи, плагины Claude Code и нормальный сетап.
Полностью опенсорс.
👉 @DataSciencegx
Нашёл open-source AI-coworker: Rowboat
Rowboat подключается к вашей почте и заметкам по встречам, строит долгоживущий граф знаний и использует этот контекст. При этом не отправляет в облако ни одного байта.
В любой момент можно поправить и обновить этот граф знаний (т.к. это просто Markdown). Или записать голосовые заметки, которые автоматически выжимают ключевые выводы и обновляют граф
- 100% локально
- Ноль утечек данных
Gmail, Calendar, Drive, Notes.. он подключает все это вместе.
Полностью open source. 👍
Исследователи из Tencent, похоже, только что "убили" fine-tuning.
Они сделали метод “без обучения”, который стоит $18 и обгоняет RL-сетки, где на обучение улетает $10k.
Называется “Training-Free GRPO”. Суть в том, что можно получить перфоманс уровня Reinforcement Learning, вообще не обновляя ни одного параметра.
Вместо дорогих градиентных апдейтов модель “учится” через Semantic Advantage: это текстовая память (на естественном языке) о собственных успехах и фейлах.
✅Без градиентов: модель остается замороженной.
✅Самокоррекция: анализирует свои rollout’ы и вытаскивает “что сработало” в текстовую библиотеку опыта.
✅Дикая эффективность: дает результат уровня fine-tune всего на 100 примерах.
✅Цена: примерно $18 (вместо $10,000+ у классического RL).
✅По сути это агент, который в реальном времени пишет себе “гайд по прохождению”.
👉 @DataSciencegx
7 параметров генерации LLM
Max tokens
▪️Верхний лимит на количество токенов, которые модель может сгенерировать.
▪️Пример:
max = 15 (token count)
▪️Диапазон значений: от 1 до бесконечности
Temperature
▪️Управляет случайностью в ответе. Чем выше temperature, тем креативнее и разнообразнее выход.
▪️Диапазон значений: от 0 до 2 (типичный диапазон)
▪️Подписи на графике: Regular Distribution / Temperature-adjusted Distribution
Top_p
▪️Управляет тем, какая часть распределения вероятностей учитывается при сэмплинге токенов.
▪️Пример: top_p = 10%
▪️Диапазон значений: от 0 до 1
Top_k
▪️Ограничивает количество самых вероятных токенов, из которых идет выбор.
▪️Пример: top_k = 2
▪️Диапазон значений: от 1 до vocab_size
Frequency penalty
▪️Штрафует повтор токенов по частоте. Положительные значения уменьшают повторы.
▪️Диапазон значений: от -2 до 2
Presence penalty
▪️Подталкивает модель использовать новые токены, которых еще не было в генерации.
▪️Диапазон значений: от -2 до 2
Stop
▪️Список токенов, на которых модель прекращает дальнейшую генерацию.
▪️Диапазон: кастомный список
👉 @DataSciencegxЧтобы помочь студентам лучше прочувствовать, как работают аналитические доверительные интервалы, парень сделал интерактивный дашборд на Python с matplotlib.
Можно крутить размер выборки (n), среднее по выборке (x̄), выборочное стандартное отклонение (s) и уровень значимости (α) и сразу видеть, как формула обновляется в реальном времени, вместе с распределением неопределённости и соответствующими доверительными интервалами.
Paper: https://arxiv.org/pdf/2601.15892
Code: https://github.com/ByteDance-Seed/Stable-DiffCoder
Model: https://huggingface.co/collections/ByteDance-Seed/stable-diffcoder
👉 @DataSciencegx
Ого: DeepMind, похоже, решил проблему “бесконечной памяти”
Они выпустили статью про Recursive Language Models (RLM), и это по сути закрывает проблему “гниения контекста”, которая мучает даже самые мощные модели вроде GPT-5.
Вместо попытки “держать в голове” 10 миллионов токенов в одном attention-окне, RLM относятся к промпту как к внешней переменной в Python REPL. Модель не читает текст целиком, она по нему “навигает”.
Как это работает:
Модель пишет код, чтобы делать grep, нарезать фрагменты и рекурсивно вызывать под-экземпляры самой себя на релевантных кусках данных.
Идеальная память: когда контекст вынесен во внешнее окружение, модель сохраняет 100% точность независимо от длины документа.
Эмерджентное поведение: без специального обучения модели начали использовать regex для фильтрации данных и строить рекурсивные циклы “проверить и исправить”.
Дешевле и быстрее: поскольку она “читает” только маленькие фрагменты, которые реально нужны, медианная стоимость часто ниже, чем у обычных вызовов с большим контекстом.
Результаты (на Multi-Doc Research):
→ GPT-5 Base: 0% (упал/не справился)
→ GPT-5 + RLM: 91%
→ Рассуждение по плотным данным:
→ Base: 0.04%
→ RLM: 58%
Это полный сдвиг от “делаем окна больше” к “делаем навигацию умнее”.
👉 @DataSciencegx
Теперь можно гонять модель на 16B параметров на дефолт железе
LLaDA 2.1-mini использует здоровенную Mixture-of-Experts (MoE) архитектуру, но на каждом шаге активирует только 1.4B параметров.
В итоге получаешь мозги большой модели, но по скорости и по VRAM это ближе к маленькой.
→ 16B всего параметров (большая база знаний)
→ 1.4B активных параметров (очень быстрый инференс)
→ 32k контекст (жирный апгрейд для длинных документов)
Высокая производительность. Низкие затраты на вычисления.
100% open source.
👉 @DataSciencegx
Основа data science.
Теорема Байеса
→ Спам-фильтры. Медицинская диагностика. Любой кейс, где ты обновляешь вероятность, получив новые данные.
Функция потерь OLS (сумма квадратов ошибок)
→ Линейная регрессия. Прогноз цен на жилье. Минимизируем “насколько мы промахнулись”.
Энтропия
→ Деревья решений. Information gain. Мера того, насколько “перемешаны” классы/данные.
Нормальное распределение
→ A/B-тесты. Доверительные интервалы. Предположение, что большинство значений группируется вокруг среднего.
F1-score
→ Несбалансированные датасеты. Фрод/мошенничество. Когда accuracy врет и дает ложное чувство качества.
Сигмоида
→ Логистическая регрессия. Выходы нейросетей. Превращает любое число в вероятность.
Знай формулу. Знай, когда ее применять.
👉 @DataSciencegx
EdgeQuake: высокопроизводительный open-source Graph-RAG фреймворк на Rust
Преобразует документы в “умные” графы знаний для более качественного поиска и генерации.
Классические RAG-системы ищут релевантные куски текста в основном по векторной близости. Для простых запросов это ок, но начинает сыпаться на multi-hop рассуждениях (как X связан с Y через Z?), тематических вопросах (какие основные темы?) и запросах про связи. Проблема в том, что вектора хорошо ловят семантику, но теряют структуру отношений между понятиями.
EdgeQuake решает это, реализуя алгоритм LightRAG на Rust: документы не просто чанкуются и эмбеддятся, их раскладывают в граф знаний из сущностей и связей. На этапе запроса система ходит и по векторному пространству, и по структуре графа, совмещая скорость векторного поиска с “логикой” графового обхода.
Фичи:
✅Knowledge Graphs: извлечение сущностей и построение связей с помощью LLM даёт структурное понимание документов, а не просто матчинг по ключевым словам ✅6 режимов запросов: от быстрого наивного векторного поиска до гибридных запросов с обходом графа, под разные типы вопросов ✅Производительность Rust: async-first архитектура на Tokio и zero-copy операции, тянет тысячи конкурентных запросов ✅Продвинутая обработка PDF (в планах, скоро) ⚠️: детект таблиц, много-колоночная верстка, OCR с фолбэком режима по качеству ✅Production ready: OpenAPI 3.0 REST API, SSE-стриминг, health checks, multi-tenant изоляция воркспейсов ✅Современный фронт: React 19 + интерактивные визуализации графа на Sigma.js👉 @DataSciencegx
У GitHub Copilot теперь есть система памяти, и инженерная команда написала подробный пост о том, как они её реализовали и как оценивали качество:
👉 @DataSciencegx
Что происходит в LLM. Февраль 2026
Несмотря на то, что LLM — главный хайп последних 2 лет, вокруг больших моделей остаётся много путаницы и заблуждений. Чем отличаются модели? Надо ли доучивать модель? Хостить или ходить по API? На что можно рассчитывать при построении агента или RAG-системы? Почему у кого-то работают RAG и агенты, а кто-то вовсе в них разочаровался?
Deepschool ответит на эти и другие вопросы на онлайн-лекции в четверг! За полтора часа вы получите актуальный срез индустрии вокруг LLM:
— актуальные модели и их свойства
— бенчмарки
— self-host VS API
— типы задач
— главные «болячки» ванильных решений
— и актуальные советы по их лечению
Спикер — Дмитрий Калашников, NLP Team Lead в Яндексе🔥
А ещё расскажут про курс «LLM», где вы узнаете, как устроены современные LLM, как их обучать, запускать и оптимизировать — всё под кураторством опытных инженеров.
Всем участникам лекции подарят скидки на обучение 🎁
Подключайтесь в четверг, 12 февраля в 19:00 МСК!
Регистрируйтесь по ссылке и приходите на лекцию в четверг!
Векторный поиск не всегда ответ.
Алгоритм из 90-х, без обучения, без эмбеддингов и без fine-tuning, до сих пор лежит в основе Elasticsearch, OpenSearch и большинства продовых поисковых систем.
Называется он BM25, и стоит понять, почему он никак не вымирает.
Допустим, ты ищешь "transformer attention mechanism" в библиотеке ML-статей.
BM25 считает релевантность документов на трёх базовых идеях:
1. Редкие слова важнее частых
В каждой статье есть "the" и "is", так что такие слова почти ничего не значат.
А вот "transformer" специфичное и информативное, поэтому BM25 даёт ему заметно больший вес. В формуле это отражается через IDF(qᵢ).
2. Повторы помогают, но с убывающей отдачей
Если "attention" встречается в статье 10 раз, это сильный сигнал релевантности. Но рост с 10 до 100 упоминаний почти не меняет итоговый скор.
BM25 использует насыщение (saturation), управляемое f(qᵢ, D) и параметром k₁, чтобы keyword stuffing не мог “накрутить” ранжирование.
3. Длина документа нормализуется
Статья на 50 страницах по природе будет иметь больше вхождений ключевых слов, чем статья на 5 страниц.
BM25 учитывает это через |D|/avgdl, под контролем параметра b, чтобы длинные документы не доминировали в выдаче просто потому, что текста больше.
Три идеи. Ноль нейросетей. Ноль датасетов. Просто аккуратная математика, которая пережила десятилетия.
Вот что многие упускают: BM25 отлично тащит точное совпадение по ключевым словам, а с этим у эмбеддингов реально бывают проблемы.
Когда пользователь ищет "error code 5012", векторный поиск может вернуть семантически похожие коды ошибок. BM25 почти всегда поднимет точное совпадение наверх.
Именно поэтому hybrid search стал дефолтом в топовых RAG-системах.
Комбинация BM25 + векторный поиск даёт и семантику, и точный keyword match в одном пайплайне.
Так что прежде чем кидать GPU в любую задачу поиска, подумай: возможно, BM25 уже решает её. А если нет, то почти наверняка сделает твой семантический поиск заметно лучше в связке.
Этот hybrid search-стек, о котором я говорил выше, на самом деле уже реализован в open-source слое контекстного ретривала для агентов.
GitHub repo: https://github.com/airweave-ai/airweave
👉 @DataSciencegx
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
