Data Portal | DS & ML

Open in Telegram

Всё самое интересное из мира Data Science и машинного обучения Автор: @agonyhormone

Network:IT Portal Russia75 078 Technologies & Applications13 671

8 430

Subscribers

-624 hours

-387 days

+3230 days

1 097

Post views

~ 64924 hours

~ 76448 hours

12.99%

Engagement rate

~ 2

Posts per day

Ads index

beta

Data loading in progress...

Similar Channels

Backend Portal | Программирование

13.6K

C# Portal | Программирование

12.0K

Java Portal | Программирование

More channels

Incoming and Outgoing Mentions

---

Attracting Subscribers

July '26

+20

in 0 channels

June '26

+224

in 5 channels

Get PRO

May '26

+92

in 2 channels

Get PRO

April '26

+48

in 0 channels

Get PRO

March '26

+61

in 1 channels

Get PRO

February '26

+48

in 1 channels

Get PRO

January '26

+52

in 2 channels

Get PRO

December '25

+183

in 8 channels

Get PRO

November '25

+715

in 318 channels

Get PRO

October '25

+29

in 0 channels

Get PRO

September '25

+44

in 0 channels

Get PRO

August '25

+80

in 0 channels

Get PRO

July '25

+1 123

in 264 channels

Get PRO

June '25

+283

in 2 channels

Get PRO

May '25

+147

in 1 channels

Get PRO

April '25

+662

in 2 channels

Get PRO

March '25

+591

in 0 channels

Get PRO

February '25

+507

in 0 channels

Get PRO

January '25

+651

in 0 channels

Get PRO

December '24

+1 342

in 404 channels

Get PRO

November '24

+509

in 164 channels

Get PRO

October '24

+1 048

in 285 channels

Get PRO

September '24

+887

in 281 channels

Get PRO

August '24

+1 933

in 234 channels

Date	Subscriber Growth	Mentions	Channels
08 July	0
07 July	+3
06 July	+4
05 July	+2
04 July	+4
03 July	+2
02 July	+1
01 July	+4

Channel Posts

Масштабные новости — меньше чем через четыре недели нас ждут GPT-6 и Fable 5.1. OpenAI обучила GPT-6 на совершенно новом базовом стеке. В основе GPT-6 будет лежать новая, значительно более крупная базовая модель, прошедшая предварительное обучение (pretrain), в отличие от базовой модели Spud (~4T), на которой построены GPT-5.5/5.6. Fable 5.1 выйдет менее чем через месяц после Fable 5. Циклы выпуска моделей становятся намного короче. В OpenAI возлагают большие надежды на новую базовую модель. Там считают, что она позволит гораздо эффективнее конкурировать как с Fable 5, так и с готовящейся Fable 5.1, релизы которых ожидаются примерно в те же сроки. Изначально > OpenAI планировала использовать Spud и в GPT-6, но в итоге отказалась от этой идеи. Что касается Fable 5.1, в Anthropic она находится на завершающих этапах подготовки к релизу, и её выход ожидается «в ближайшие недели». Тем временем на другом конце света DeepSeek готовится к скорому выпуску V4 GA, которая, судя по всему, будет сопоставима по возможностям с GLM-5.2 или даже превзойдёт её. Кроме того, компания уже начала работу над новой, более крупной моделью, которая должна составить конкуренцию готовящейся MiniMax Pro 2.7T. Если это правда, нас ждут очень насыщенные времена.

2	🇷🇺 Разбираешься в радиочипах, оптике и связи? Забери до 1 000 000 рублей за свои инженерные навыки на турнире «Дронкон» 🇷🇺 «Сталинские Соколы» открывают регистрацию на 4-й Всероссийский турнир «Дронкон», который пройдет с 22 по 26 августа. Турнир пройдет по направлению: - Инженерное дело: навыки программирования, сборка электронного оборудования, беспроводная связь, оптические системы + стратегия «Битва Дронов»; Призовой фонд для победителей: 🥇место – 1 000 000 рублей 🥈место – 700 000 рублей 🥉место – 500 000 рублей Награда за 4-8 места - 100 000 рублей Пройди заочный онлайн-этап и получи путевку на очный этап турнира в Республику Татарстан! Перелет, питание, проживание - за счет организаторов. 🇷🇺 Подать заявку и узнать подробности 🇷🇺	483
3	Памятка: Основные символы алгебры Алгебраические символы — это универсальный язык, позволяющий точно и наглядно записывать математические понятия. Вот некоторые из наиболее распространённых обозначений: - ≜ — равенство по определению; - ≡ — эквивалентность (тождественное равенство); - ∝ — пропорционально; - ⌊ ⌋ и ⌈ ⌉ — функции пола (floor) и потолка (ceiling); - f(x) и f ∘ g — функции и композиция функций; - (a, b) и [a, b] — открытый и закрытый интервалы; - △ (Δ) — дискриминант; - ∑ и ∏ — сумма и произведение; - ∞ — бесконечность; - e, γ, φ и π — математические константы; - {} — множества; - ∀ и ∃ — кванторы («для всех» и «существует»); - aᵇ — возведение в степень; - √, ∛ и ∜ — квадратный, кубический и четвёртый корни. Эти обозначения используются при записи математических формул, в научных исследованиях, а также в программировании и разработке программного обеспечения для точных вычислений.	585
4	Появился Alook — опенсорс проект, который предлагает необычный подход к оркестрации AI-агентов. Вместо графов, узлов и сложных сценариев — система использует привычную организационную структуру компании. Каждый агент получает свою роль, подчинённость и зону ответственности. В основе идеи лежит организационная диаграмма. Пользователь общается только с «руководителем», а остальные агенты самостоятельно распределяют задачи между собой и обмениваются сообщениями, как сотрудники внутри компании. Каждый агент представляет собой отдельную сессию Claude Code, OpenCode или Codex, имеет собственный почтовый ящик и взаимодействует с другими агентами по электронной почте. Все вычисления выполняются локально, поэтому данные не покидают компьютер пользователя. В качестве примера автор показал команду из трёх AI-агентов: - один принимает задачи и координирует работу; - второй занимается поиском потенциальных клиентов и оценивает их; - третий отвечает за рассылки, отслеживает ответы и сообщает о сделках, требующих внимания. Проект полностью поддерживает self-hosting, распространяется с открытым исходным кодом и совместим как с проприетарными, так и с открытыми AI-агентами. Исходный код доступен на GitHub 😔	599
5	Этот бесплатный курс по CUDA от Эллиота Арледжа стоит больше, чем большинство дипломов по компьютерным наукам. Всего 12 часов, которые превращают пользователя библиотек в GPU-инженера. Я видел, как даже опытные разработчики испытывали трудности с темами, которые разбираются уже на третьем часу курса. Что делает его особенным: Никакой воды. Никаких советов в духе «просто используйте эту библиотеку». Вы реализуете обучение MLP четыре раза: → на PyTorch (самый простой вариант) → на NumPy (уже сложнее) → на C (становится действительно интересно) → на CUDA (вишенка на торте) Одна и та же модель. Один и тот же датасет. Четыре реализации. К концу курса вы будете понимать, почему PyTorch работает так быстро. Темы, которым почти нигде больше не учат: ➡️ Архитектура GPU (а не просто «GPU выполняет вычисления параллельно») ➡️ Написание эффективных CUDA-ядер ➡️ Профилирование производительности как на уровне CUDA-ядер, так и всей системы ➡️ Когда стоит использовать cuBLAS (и когда не стоит) ➡️ CUDA vs Triton — сравнение, которое действительно важно ➡️ Расширения для PyTorch, которые реально пригодятся И самое главное: ➡️ После этого курса вы сможете читать исходный код PyTorch и понимать, как он устроен. ➡️ Вы научитесь оптимизировать модели, за которые другие инженеры даже не возьмутся. ➡️ Вы станете тем специалистом, которого нанимают, когда нужно добиться максимальной производительности. 12 часов. Бесплатно. Без оправданий. https://youtu.be/86FAWCzIe_4?si=91dHudcbIjY2ftCx	664
6	Сооснователь OpenAI опубликовал полную реализацию GPT-2 на GitHub — всего в 600 строках кода. Никаких странных библиотек. Никаких фреймворков. Только чистый Python. Разобраться в коде можно буквально за один вечер. Andrej Karpathy, который руководил направлением ИИ в Tesla и был сооснователем OpenAI, уже много лет делает одно и то же: сводит реализацию LLM к самому необходимому, чтобы любой мог понять, как они устроены на самом деле. Это nanoGPT. - воспроизводит GPT-2 с нуля - обучается на GPU или в облаке менее чем за $100 - код настолько чистый, что становится даже обидно, что вы не увидели его раньше - 60,4 тыс. звёзд, 10,4 тыс. форков, лицензия MIT Вы удивитесь, насколько мало на самом деле нужно, чтобы обучить модель. https://github.com/karpathy/nanoGPT	746
7	Интересный проект на Fable: совместная работа агентов, но в виде крошечной цивилизации Недавно запустили живую вики по обучению LLM с помощью обучения с подкреплением на Hugging Face. Это открытый проект, в котором агенты постоянно читают как старые, так и новые научные статьи по теме, пишут краткие обзоры (дайджесты) статей с arXiv, проверяют работу друг друга через PR перед публикацией и совместно создают общую вики-книгу, которая суммирует всё, что мы знаем об RL для обучения LLM (и предназначена для людей). Вики уже невероятно интересно читать, но автору хотелось найти ещё один способ почувствовать, как происходит это сотрудничество, помимо просмотра панели сообщений. Поэтому он попросил Fable и GPT Image 2 превратить журналы событий в изометрический город, где агенты ходят по разным местам: Кафе — публикуют сообщения и отвечают друг другу на доске обсуждений. Библиотека источников — создают PR с дайджестами статей из arXiv. Библиотека вики — открывают PR с изменениями в основной вики. Суд — проверяют и рецензируют работу других агентов. Типография — объединяют изменения и публикуют обновления. Не уверен, что это действительно делает весь процесс совместной работы более понятным, но наблюдать за ним определённо очень увлекательно. 😄 Присоединиться к совместной работе над RL для обучения LLM можно, добавив однострочное описание своего агента здесь: https://huggingface.co/spaces/rl-llm-wiki/rl-dashboard Прочитать вики, если хотите разобраться в RL для обучения LLM: https://huggingface.co/spaces/rl-llm-wiki/rl-wiki Наблюдать за жизнью «города RL»: https://huggingface.co/spaces/rl-llm-	758
8	+1 Команда исследователей в области ИИ только что выложила в open source аналог Bloomberg Terminal для количественных финансов Лицензия на Bloomberg Terminal стоит $25 000 в год за одно рабочее место. Банки оплачивают тысячи таких лицензий. Эта система обрабатывает все статьи по количественным финансам, все финансовые блоги, все документы SEC, все препринты с arXiv и превращает их в единую поисковую базу знаний. Бесплатно. Он называется QuantMind. Его только что приняли на воркшоп NeurIPS 2025 GenAI in Finance. Вот что он делает на практике: → Автоматически загружает статьи по квантитативным финансам с arXiv, финансовые новости, блоги и отчёты → Парсит PDF, HTML, таблицы и иллюстрации, преобразуя их в структурированное представление знаний → Размечает каждую статью по области исследований и тематике → Строит семантический граф знаний, к которому можно обращаться с запросами на обычном английском языке → Интегрируется с DeepResearch, RAG и MCP для многошагового логического вывода (multi-hop reasoning) → Использует двухэтапную архитектуру: один раз извлекает данные — затем обеспечивает их бесконечное извлечение (retrieve) Самое интересное вот в чём: Индустрия финансовых исследований публикует около 500 новых статей и аналитических отчётов каждый день. Хедж-фонды платят младшим аналитикам шестизначные зарплаты только за то, чтобы они читали эти материалы. QuantMind читает всё это сам. Размечает. Создаёт эмбеддинги. И позволяет задавать вопросы по всей накопленной базе знаний. https://github.com/LLMQuant/quant-mind	744
9	Вычисления вероятностей основаны на ключевых формулах, которые используются для работы с неопределённостью событий и данных. На этой шпаргалке представлены: - классическое определение вероятности через число благоприятных исходов и мощность пространства элементарных исходов; - правило дополнения; - формулы для объединения событий; - вероятности независимых и условных событий; - формула полной вероятности; - теоремы умножения вероятностей и Байеса; - математическое ожидание; - формула биномиального распределения. Для наглядности используются диаграммы Венна и другие визуальные иллюстрации. Формула биномиального распределения применяется для вычисления вероятности получения заданного числа успешных исходов в n независимых испытаниях с вероятностью успеха p. Например, она используется при анализе коэффициента конверсии в A/B-тестировании.	701
10	Python-библиотека, которая объединяет каузальный вывод (causal inference) и машинное обучение — CausalML. Она с открытым исходным и предназначена для моделирования гетерогенных эффектов. Она используется для таргетинга и оптимизации маркетинговых кампаний в таких компаниях, как Uber, Microsoft и TripAdvisor. В библиотеку входят meta-learner-алгоритмы, causal trees, а также поддержка интерпретируемости моделей с помощью SHAP. Проект имеет открытый исходный код 👍	756
11	Прогноз Карпати о RL начинает сбываться Он называл функции вознаграждения (reward functions) ненадежными и утверждал, что одно числовое значение награды слишком низкоразмерно, чтобы научить агента тому, что означает «хорошее» поведение при решении сложных задач. По его мнению, для этого агентам необходима проверка, основанная на знаниях (knowledge-guided review), как более высокоразмерный канал обратной связи. Сегодня все ведущие AI-лаборатории обучают модели с использованием RL (OpenAI, Anthropic, DeepSeek). И их главным узким местом всегда были функции вознаграждения. GRPO от DeepSeek отлично показал себя в задачах по математике и программированию, потому что среда предоставляла бинарный сигнал. Но в случае реальных агентных задач кому-то по-прежнему приходится вручную писать функцию оценки (scoring function). На это уходят дни, и ее приходится переделывать каждый раз, когда меняется пайплайн. RULER (реализованный в OpenPipe ART, более 10 тыс. звезд на GitHub) решает именно ту проблему, на которую указывал Карпати. Критерии вознаграждения задаются на обычном английском языке, а затем LLM оценивает каждую траекторию в соответствии с этим описанием и формирует обратную связь для обучения. Спецы обучили агента на базе Qwen3 1.4B играть в 2048 с использованием GRPO именно по такому сценарию. В этом примере агент анализировал игровое поле, выбирал направление хода, а RULER оценивал результат, руководствуясь только этим описанием на естественном языке. Полную реализацию можно посмотреть на GitHub и попробовать самостоятельно. Репозиторий ART: http://github.com/OpenPipe/ART	805
12	Stanford CS25: Transformers United V3 Чему вы научитесь: Освоите фундаментальные основы перед переходом к продвинутым темам, связанным с большими языковыми моделями (LLM) и генеративным ИИ. Поймёте, как агенты обучаются с помощью вознаграждений, стратегий (policies) и циклов взаимодействия с окружающей средой. Разберётесь в принципах работы трансформеров и LLM, не воспринимая их как «чёрный ящик». Узнаете, как модели обучаются на данных, оптимизируются и постепенно улучшают качество своих результатов. Научитесь работать с задачами, связанными с последовательностями, текстом и языковым моделированием. https://www.youtube.com/playlist?list=PLNQo_x2EPWCkrhwatKK8t0q1HKad9o1Ye	839
13	Появился Ollama-OCR. Опенсорс OCR без API и подписок Можно не платить облачным OCR-сервисам за обработку каждой страницы. Новый проект Ollama-OCR предлагает альтернативу — распознавание текста полностью локально, без зависимости от внешних API. • работает прямо на вашем компьютере, без подключения к интернету; • не требует API-ключей и подписок; • извлекает текст из изображений и PDF-документов; • распознаёт рукописный текст, счета, чеки и таблицы; • экспортирует результаты в Markdown, JSON и другие структурированные форматы; • все документы обрабатываются локально и не покидают устройство. Установка занимает одну команду: pip install ollama-ocr Исходный код доступен на GitHub: https://github.com/imanoop7/Ollama-OCR	840
14	Продвинутые структуры данных MIT проф. Эрик Демейн Конспекты лекций: https://courses.csail.mit.edu/6.897/spring03/scribe_notes/	840
15	Курс «Мультимодальное машинное обучение» (11-777) от CMU, осень 2020 Чему вы научитесь: Освоите фундаментальные основы перед переходом к продвинутым темам машинного обучения. Научитесь подготавливать данные и извлекать признаки, чтобы создать прочную основу для построения моделей. Применять методы глубокого обучения к задачам компьютерного зрения и обработки изображений. Понимать принципы работы последовательностных моделей, таких как RNN и LSTM, и использовать их в задачах обработки естественного языка (NLP). Получите практическое понимание ключевых концепций этой области машинного обучения. Разовьёте интуитивное понимание различных семейств генеративных моделей и узнаете, для каких задач они лучше всего подходят. https://www.youtube.com/playlist?list=PL-Fhd_vrvisNup9YQs_TdLW7DQz-lda0G	890
16	Копировать веб-страницы в LLM не обязательно вместе со всем HTML-кодом, рекламой и элементами интерфейса. Для этого появилось расширение .MD this page, которое в один клик преобразует любую страницу в чистый Markdown, готовый для передачи языковой модели. Расширение использует Mozilla Readability, чтобы автоматически выделить основное содержимое страницы и отбросить навигацию, рекламу и другой лишний контент. Перед экспортом результат можно просмотреть и при необходимости отредактировать, а затем скопировать в буфер обмена, сохранить в виде Markdown-файла или использовать как основу для промпта. При экспорте также можно настроить, что именно попадет в итоговый документ: оставить или убрать изображения, ссылки, метаданные, URL исходной страницы и карту структуры документа. Проект распространяется с открытым исходным кодом по лицензии MIT.	890
17	Чувак собрал целую AI-команду “дата-сайентистов” на Python и выложил в опенсорс (полностью бесплатно). Библиотека автоматизирует типичный DS-пайплайн с помощью AI: загрузка данных, чистка/преобразования, EDA, визуализация, feature engineering. Плюс она логирует каждый шаг так, чтобы все собиралось в 100% воспроизводимый pipeline (можно повторить прогон один в один и понять, что именно делалось). Таймкоды из демо: 00:00 обзор проекта 01:32 workflow + загрузка данных 02:10 wrangling и cleaning 03:33 инсайты из визуализаций и построение графиков 04:08 feature engineering 05:00 лайв воркшоп на 1 час 05:44 сама Python-библиотека “AI Data Science Team” GitHub: здесь	1 077
18	Ваш RAG-пайплайн не обязан заново вытаскивать одно и то же доказательство несколько раз. LeanRAG — это open-source фреймворк для RAG, который использует графы знаний, семантическую агрегацию и иерархический retrieval для генерации ответов, опирающихся на структурированные источники. Он помогает строить менее избыточные retrieval-пайплайны: агрегирует сущности в обобщающие узлы, проходит по многоуровневому графу и передаёт LLM компактные цепочки доказательств вместо дублирующихся фрагментов текста. Основные возможности включают семантическую агрегацию, при которой низкоуровневые сущности объединяются в более крупные смысловые узлы с явными связями; иерархический retrieval, где запрос сначала привязывается к детализированным сущностям, а затем поднимается вверх по графу; а также синтез с учётом избыточности, который убирает пересечения в найденных данных ещё до генерации ответа. Фреймворк поддерживает два подхода извлечения — CommonKG и GraphRAG-стиль — для построения сущностей и связей, а также покрывает весь пайплайн от разбиения документов на чанки и построения графа до retrieval и финальной генерации ответа. Проект доступен в виде open-source репозитория на GitHub.	1 044
19	Вашему AI-агенту нужна не только память. Ему нужен журнал принятия решений. Semantica — это open-source слой управления контекстом и обеспечения прозрачности для AI-систем. Он работает вместе с вашей LLM, векторным хранилищем и агентным фреймворком. Semantica помогает сделать решения агента более понятными, отслеживаемыми и пригодными для аудита. Вместо разрозненных логов или эмбеддингов она представляет контекст, факты, решения, происхождение данных (provenance) и правила в виде структурированных объектов графа. Основные возможности: • Графы контекста — хранение сущностей, связей, фактов и решений в структурированном графе с возможностью выполнения запросов. • Анализ решений — фиксация решений как объектов первого класса с указанием обоснования, результата, уровня уверенности и причинно-следственных связей. • Отслеживание происхождения данных (Provenance) — привязка метаданных по стандарту W3C PROV-O к фактам и экспорт аудиторских журналов в JSON, CSV или RDF. • Контроль соответствия требованиям (Governance) — применение политик с помощью ограничений SHACL, обнаружение конфликтов и проверка правил соответствия. • Механизмы логического вывода — использование forward chaining, Rete, Datalog и SPARQL для построения объяснимых цепочек рассуждений вместо непрозрачных («черных ящиков») механизмов вывода. Проект распространяется с открытым исходным кодом по лицензии MIT. 👉 @DataSciencegx	896
20	$Архитектура Agent Harness для LLM\ простыми словами Большинство представляет это как модель с прикрученными инструментами. Ре$ Архитектура Agent Harness для LLM\ простыми словами Большинство представляет это как модель с прикрученными инструментами. Реальная архитектура переворачивает это отношение. Сама модель намеренно тонкая. Интеллект выносится наружу, а обвязка (harness) компонует его в рантайме. Вокруг ядра обвязки вращаются три измерения: - Память хранит состояние, которое модель не должна нести в весах или контексте. Рабочий контекст, семантические знания, эпизодический опыт и персонализированная память — у каждого свой жизненный цикл. - Навыки хранят процедурные знания. Сюда входят операционные процедуры, эвристики принятия решений и нормативные ограничения, которые специализируют общую модель под конкретную задачу. - Протоколы хранят контракты взаимодействия. Агент-пользователь, агент-агент и агент-инструменты — это три разных поверхности со своими сценариями отказов. Между ядром и этими модулями находятся посредники (mediators): песочница, наблюдаемость, сжатие, оценка, циклы одобрения и оркестрация сабагентов. Они управляют тем, как обвязка взаимодействует с внешним миром и как состояние возвращается обратно. Полезный вопрос, который открывает этот фреймворк: где должна жить каждая новая возможность? - Стабильные знания → в память - Изученные сценарии → в навыки - Контракты коммуникации → в протоколы - Управление циклами → к посредникам Дизайн обвязки сводится к вопросу: что вынести вовне и как этим управлять. Спецы написали статью об анатомии Agent Harness, охватывающую цикл оркестрации, инструменты, память, управление контекстом и всё остальное, что превращает stateless LLM в полноценного агента. 👉 @DataSciencegx	905

View all posts