Data Science | Machinelearning [ru]

前往频道在 Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

显示更多

网络:Frontender's notes [ru]俄罗斯33 728 技术与应用6 731...

📈 Telegram 频道 Data Science | Machinelearning [ru] 的分析概览

频道 Data Science | Machinelearning [ru] (@devsp) 俄语语言赛道中的是活跃参与者。目前社区聚集了 20 079 名订阅者，在 技术与应用 类别中位列第 6 731，并在 俄罗斯 地区排名第 33 728 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 20 079 名订阅者。

根据 11 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -38，过去 24 小时变化为 40，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 7.58%。内容发布后 24 小时内通常能获得 4.23% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 1 521 次浏览，首日通常累积 849 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 6。
主题关注点： 内容集中在 llm, nvidia, контекст, openai, архитектура 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

凭借高频更新（最新数据采集于 12 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

20 079

订阅者

+4024 小时

+457 天

-3830 天

1 521

帖子浏览量

~ 84924 小时

~ 99648 小时

7.58%

参与率

~ 1

每日帖子数

Ads index

beta

帖子存档

20 078

На открытом уроке курса «AI-агенты: продвинутое внедрение и использование» рассмотрим: • Архитектуру AI-driven приложений; • Выбор LLM в качестве ядра; • Создание AI-driven Telegram-бота. После урока вы будете знать: • Архитектуру AI-driven приложений; • Иметь чек-лист для выбора LLM под задачу; • Практический навык использования LLM в чат-ботах Telegram. Спикер: Андрей Сорокин, Ведущий разработчик C# ASP NET | Архитектор программного обеспечения Регистрируйтесь сейчас - напомним накануне: регистрация Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqvXoN8b

20 078

Как ИИ захватывает мир: что показал отчёт Microsoft 🔫 Вы когда-нибудь задумывались, насколько быстро ИИ проникает в повседневную жизнь? Microsoft в своём отчёте AI Diffusion Report 2025 поделились любопытной статистикой, которая помогает понять, как именно этот процесс происходит по всему миру. Интересно, что хотя ИИ стремительно развивается, адаптация происходит с разной скоростью. Вот 5 самых ярких инсайтов из отчёта, которые точно стоит обсудить!

• 16,3% людей по всему миру уже используют ИИ Кажется, что это не так уж много, но для новой технологии такие цифры — уже большое достижение. С учётом того, что интернетом пользуются 74% людей, это значит, что почти каждый пятый человек в мире активно использует ИИ для работы, учёбы или повседневных задач. Давайте признаемся, даже несколько лет назад такое казалось бы невозможно! • Неравномерность распространения: лидеры и отстающие Есть страны, где ИИ уже стал нормой. Например, в Норвегии почти каждый второй житель использует ИИ (46,4%), в Ирландии — 44,6%, а в Франции — 44%. Такие цифры говорят о том, что ИИ активно внедряется не только в бизнес и школы, но и в государственные институты. Но вот парадокс: в глобальном масштабе отрыв между развитыми странами и остальными продолжает расти. В странах «глобального Севера» уже 35,6% пользователей, а в странах «глобального Юга» — лишь 16,3%. Это наглядно показывает, как адаптация ИИ распределяется неравномерно. • США теряет позиции, а ОАЭ и Сингапур в лидерах Несмотря на технологическое лидерство, США опустились с 23-го на 24-е место в мировом рейтинге по количеству пользователей ИИ. В то время как ОАЭ и Сингапур с их уже высокими показателями (64% и 60,9% соответственно) показывают, как эффективно можно внедрить ИИ через государственные программы и обучение. Тут уже не только технологии решают, а стратегии внедрения. • ИИ в России: потенциал есть, но есть и барьеры В России ИИ используют около 8% людей. Это ниже среднемирового уровня, но, возможно, это не совсем отражает реальное положение вещей. Например, решения вроде DeepSeek популярны в России, и их использование не всегда попадает в официальные статистики. Оказавшись в условиях ограничений и менее развитой инфраструктуры, российские пользователи всё же находят способы обходить барьеры и внедрять новые технологии. • Open Source как ключ к снижению разрыва Интересно, что в Африке использование ИИ через open-source решения вроде DeepSeek гораздо выше, чем в других регионах. Это наглядно показывает важность децентрализованных решений для стран, которые не могут себе позволить инвестировать в крупные модели и платформы. В такой ситуации open-source решения становятся важным инструментом для равномерного распределения технологий.

Один из самых важных уроков, который мы можем извлечь из отчёта, заключается в том, что не те страны, у которых самые мощные модели ИИ, выигрывают в новой экономике, а те, кто научился быстро обучать людей работать с этими технологиями. Это ключевой фактор, который определяет скорость роста и развития. Data Science

20 078

Как Nvidia справилась с одной из главных проблем ИИ 😮‍💨 Слышали про KV-кэш? Это одна из самых головоломных проблем при масштабировании контекста в трансформерах, и, да, она действительно может доставить много неприятностей. Проблема в том, что при увеличении длины последовательности KV-кэш растет пропорционально, и для каждой головы и каждого слоя накапливаются колоссальные объемы данных. Всё это не только отнимает уйму памяти, но и сильно тормозит работу моделей.

Например, для модели LLaMA с 65 миллиардами параметров при 128k токенах этот кэш может занять целых 335 ГБ памяти. А это, согласитесь, совсем не шутки! И, кстати, не только память страдает, но и производительность. В общем, проблема довольно масштабная. Многие стараются бороться с этим, уменьшая размер кэша по слоям или головам. Но в реальности самый большой потенциал для улучшений — это уменьшение по оси токенов. Ведь далеко не все токены действительно важны для модели. В этом и скрывается главный рычаг. KVzip: попытка решить проблему Когда появились идеи типа KVzip, оптимизация выглядела многообещающе. В теории можно было сжать кэш до 4 раз без потерь качества. Но на практике метод оказался слишком медленным. Слишком много операций, слишком много вычислений — и вот тут-то на сцену выходит Nvidia. Что придумали Nvidia? Nvidia, конечно, не обошли эту проблему стороной. Они взяли концепцию сжатиия KV-кэша, немного доработали её и… вуаля! Теперь получается та же сжатие, но при этом практически без потерь производительности. Всё, что нужно — это обучить маленькую модель, которая будет предсказывать, насколько важен каждый токен для каждого слоя модели. И, внимание, эта модель абсолютно не требует дорогих вычислений, как в случае с KVzip. Просто с помощью линейной модели или двухслойного MLP предсказывается, какие токены можно «отсечь», не потеряв в качестве. И вот что самое крутое: эффективность увеличивается в 3–4 раза, а при этом производительность практически не страдает. Для вычислений добавляется всего 0,02% дополнительных операций, что — по сути — ничто на фоне квадратичного внимания. Результат: сжатие работает, деградации на бенчмарках практически нет. А если вам вдруг стало интересно, то всё это решение уже в опенсорсе. Nvidia делится всем этим с миром, так что мы все можем в дальнейшем использовать этот подход 🍑

Nvidia смогла решить проблему, которая стояла перед всеми, кто работал с масштабными моделями, и сделала это почти бесплатно в плане вычислительных затрат. Data Science

20 078

Stereo Data Ёлка от VK: сведение итогов года в идеальный микс 🎧 Команда VK приглашает специалистов по данным, ML-инженеров и всех, кто следит за трендами, на заключительное событие года — Stereo Data Ёлку, которая пройдёт 24 января в Москве и Санкт-Петербурге. Мероприятие построено вокруг уникальной концепции «стереозвука» для вашего профессионального восприятия: Левый канал (аналитика): глубокий разбор итогов по основным направлениям в ML/DS Правый канал (инсайты): саундчек лучших решений VK RecSys Challenge, который будет доступен только офлайн. Участвуйте офлайн! Stereo Data Ёлка – это атмосферное пространство с идеальным звуком для общения с коллегами. Вас ждёт афтепати с фирменными угощениями, подарки за активность и нетворкинг с лучшими специалистами индустрии. Формат: гибридный (онлайн-трансляция будет здесь), но полное стереопогружение — только на офлайн-площадках. Регистрация открыта до 22 января. Регистрация для Москвы: https://bit.ly/3LGjWJ3?erid=2VtzqwpLZpF Для Санкт-Петербурга: https://bit.ly/4pGNqo2?erid=2VtzqwpLZpF

20 078

Repost from xCode Journal

🤖 OpenAI начала тестировать РЕКЛАМУ на Free и Go планах Это означает, что после ответов могут появляться спонсированные объявления. Тут же стоит вспомнить, что еще в конце 2024 Альтман уверял, что «рассматривает рекламу как крайнюю меру в бизнес-модели». Разумеется, компания теперь божится, что никогда не будет продавать пользовательские данные рекламодателям и принимать деньги за изменение ответа ИИ ✖️ xCode Journal

20 078

Методы вроде TTT-E2E меняют правила игры: вместо хранения всего контекста в памяти модель доучивается прямо во время инференса, сжимая информацию в веса. Результат — константная латентность, качество как у full attention и скорость RNN. TTT-E2E использует два цикла предобучения: 1️⃣ Внутренний — для обновления части весов при генерации каждого токена; 2️⃣ Внешний — для инициализирующих параметров. На инференсе динамические веса обучаются на лету и сбрасываются после запроса, что делает предобучение вычислительно тяжелым и требует мощного GPU с большим VRAM. Собрать такую машину локально — дорого и долго. К счастью, в immers.cloud за пару минут можно запустить сервер с нужной видеокартой — и сразу клонировать репозиторий TTT-E2E без настройки драйверов. Платите только за время работы сервера.

Теперь независимые исследователи могут воспроизводить эксперименты, ранее доступные лишь крупным лабораториям.

20 078

Repost from xCode Journal

🖥 IT остается самым востребованным направлением для старта карьеры Так показало исследование Changellenge. Best Company Award проводится уже в одиннадцатый раз на основе опроса 9 тысяч студентов и выпускников с высоким потенциалом. Главное:

— В IT-сфере самые популярные профессии — дата-аналитик, бизнес-аналитик и AI-разработчик. — Лучшей компанией для начала карьеры, по мнению студентов ключевых IT-направлений, стал Яндекс. За него проголосовали те, кто хочет связать профессию с созданием технологий будущего. — Помимо IT, молодых специалистов также привлекают менеджмент, маркетинг и финансы.

✖️ xCode Journal

20 078

Бот для поиска работы в ИТ Ekleft Bot – доступ к закрытым вакансиям. Регистрируйтесь и прикрепляйте ссылку на резюме. 2-3 минуты, чтобы попасть напрямую в базу IT-компаний. Узнать больше #реклама 16+ О рекламодателе

20 078

Как искусственный интеллект научился диагностировать болезни по одной ночи сна 😖 Представьте, что за одну ночь сна можно получить не просто расслабление, но и ценную информацию о состоянии вашего здоровья. Стэнфордский университет анонсировал создание модели SleepFM, которая способна выявить признаки более чем 130 заболеваний, включая серьёзные проблемы с сердцем, нервной системой и даже деменцию.

На базе SleepFM лежит одна из самых интересных идей в области машинного обучения. В отличие от традиционных методов диагностики, когда пациента подключают к множеству датчиков (ЭЭГ, ЭКГ, сенсоры дыхания и прочее), модель Стэнфорда анализирует гигантский объём данных, которые поступают в рамках одной ночи сна. И, что важно, она делает это без привычной ручной разметки данных, а благодаря инновационному подходу в обучении. Полисомнография, классический метод диагностики сна, даёт огромное количество сырых сигналов, которые в традиционных моделях использовались только для узких задач — например, для поиска апноэ или определения фаз сна. Но эти данные можно использовать гораздо более эффективно, если подойти к анализу с другой стороны. Как работает SleepFM? 🍦 Основная идея заключается в self-supervised learning. Вместо того чтобы учить модель напрямую предсказывать диагноз, исследователи превратили задачу в своего рода «физиологический пазл». Модель получает данные с разных датчиков, например, с сердца, дыхания и мышц, и должна восстановить недостающую информацию, например, мозговые волны. Преимущество этого подхода в том, что нейросеть учится выявлять глубинные взаимосвязи между различными системами организма, а не просто запоминает поверхностные паттерны. А добавленный механизм Channel-Agnostic Attention позволяет модели адаптироваться к реальным условиям: если какой-то датчик потерял сигнал или дал сбой, модель автоматически перераспределит внимание на остальные доступные каналы. Это делает модель гораздо более устойчивой и практичной для использования в реальных условиях. Какие результаты? 🤩 Всё это приводит к впечатляющим результатам. За одну ночь сна модель предсказывает риск 130 заболеваний. Например, точность выявления болезни Паркинсона составляет 89%, деменции — 85%, а риск сердечного приступа — 81%. И это без необходимости вручную разметить данные под каждое заболевание!

Вот так, простой ночной отдых может стать тем, что поможет вовремя распознать серьёзные заболевания. Верите ли вы, что в будущем технологии смогут диагностировать болезни просто по качеству сна? Data Science

20 078

Ученые нашли способ безопасно дублировать информацию в квантовых компьютерах 💻 Учёные из Университета Ватерлоо (Канада) нашли способ безопасно сохранять и дублировать квантовую информацию. Это открытие — большой шаг вперёд для всей квантовой вычислительной науки. Но давайте разберемся, что стоит за этим.

Квантовые компьютеры — это не просто крутые гаджеты для учёных. Это будущее вычислений, где данные могут существовать в состоянии «и-да, и-нет» одновременно, благодаря суперпозиции и квантовой запутанности. Но вот беда, с копированием квантовой информации всё не так просто. Знаете ли вы, что квантовая информация не может быть скопирована как обычный файл? Это не просто ограничение технологий, а сам закон квантовой физики! Он называется теорема о невозможности клонирования (no-cloning theorem). Она утверждает, что вы не можете просто взять и создать точную копию какого-либо квантового состояния. Как обойти квантовые законы? 😠 Ученые придумали способ, как обойти этот закон. Их метод заключается в шифровании квантовых данных, а уже потом их копировании. Всё довольно просто на первый взгляд, но с нюансами. Квантовые данные сначала шифруются, а затем создаются их копии. Причём, вы можете делать это сколько угодно раз. Но есть важное замечание: как только копия расшифровывается, ключ шифрования уничтожается. Это значит, что, если ключ утратил свою силу, все копии вскрываются одновременно.

Теперь открываются совершенно новые горизонты для квантового облачного хранения данных и распределённых квантовых систем. Это может значительно изменить подходы к обработке и хранению данных в будущем, а для нас с вами — это шаг к созданию более безопасных и мощных вычислительных систем. Data Science

20 078

Ускорьте работу разработки Cursor — IDE с ИИ, которая помогает писать код по описанию, искать ошибки и приводить проект в порядок быстрее обычного. Что делает: • генерирует и дополняет код на естественном языке • объясняет непонятные участки • находит ошибки и предлагает фиксы • подсказывает оптимизации и практики • работает как полноценная IDE, только быстрее Для компаний — это реальный способ ускорить команду без найма дополнительных разработчиков: меньше рутины, больше времени на архитектуру и продуктовые задачи. Попробовать Cursor: https://clck.ru/3QeE4z Поставщик в России — «Системный софт» (оплата в рублях, закрывающие документы и поддержка при подключении). Перейти на сайт #реклама 16+ syssoft.ru О рекламодателе

20 078

OpenAI ищет Head of Preparedness. Кто будет готовить нас к рискам ИИ? 🔫 Компания OpenAI анонсировала вакансию для абсолютно новой роли — Head of Preparedness, или, проще говоря, человека, который будет отвечать за подготовку к рискам и последствиям после релиза моделей. Скорее всего, она про то, чтобы понять, какие потенциальные беды нас могут поджидать после того, как модель выйдет в мир.

Его задача — предсказать, что может пойти не так, когда ИИ начнет работать в реальном мире. Например, какие опасности могут возникнуть в сферах, где мы еще не подумали о последствиях? Где модель может не пройти тесты, но все равно принести проблемы? Какие долгосрочные угрозы нас подстерегают? Собственно, почему эта роль так важна? OpenAI сами признают, что столкнулись с проблемами. В 2025 году первый тревожный сигнал появился, когда модели начали оказывать влияние на психическое здоровье людей (не забывайте про те трагические истории с ChatGPT). А еще, с ростом уровня кодирования ИИ, возникли реальные угрозы для кибербезопасности. И вот, это всё стало отправной точкой для создания этой роли. Да, зарплата на должности обещана солидная — $555k с бонусами, что, конечно, не Цукерберговские суммы, но на жизнь точно хватит 💳

Риск того, что ИИ может повлиять на наш мир не только в положительном ключе, а в худшем — реальный. Вопросы в другом: реально ли кто-то может подготовиться ко всем рискам ИИ и, может, это больше маркетинг, чем реальная необходимость? Data Science

20 078

🦾 Чем реально отличается Senior ML от уверенного Middle? На открытом вебинаре разберём продвинутые методы машинного обучения, о которых обычно говорят вскользь или не говорят вовсе. Рекомендательные системы, временные ряды, reinforcement learning, GenAI, байесовские подходы и деплой моделей в прод: где и зачем они применяются сегодня и почему без них невозможно расти дальше в профессии. Это честный разговор о том, какие навыки действительно ценятся на уровне Senior, какие задачи решают специалисты ML Advanced и какие карьерные возможности открываются после перехода на эту ступень. Вы сможете задать любые вопросы и получить ответы от эксперта. 📋 Встречаемся 28 января в 18:00 МСК в преддверии старта курса «Machine Learning. Advanced». Регистрация открыта: https://vk.cc/cTpEgt Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 078

Repost from xCode Journal

😭 Количество задаваемых вопросов на StackOverflow близится к нулю Спад начался еще пару лет назад с появлением ИИ, но сейчас достиг рекордно низких значений. Так, за весь декабрь поступило всего 3800 вопросов, а за первые дни января ~300. F легенде! ✖️ xCode Journal

20 078

Начните год продуктивно! Ещё есть время проверить свой уровень в DS и получить обратную связь, чтобы знать, куда двигаться дальше🚀

20 078

Nvidia и Siemens запускают первый ИИ-завод в 2026 году 😡 Nvidia и Siemens объявили о запуске первого ИИ-завода, который начнёт свою работу в 2026 году. Это будет настоящий технологический прорыв, и сегодня расскажу, что это значит для будущего производства.

Процесс будет выглядеть так, как будто завод становится живым существом, только без всех этих эмоций. Всё потому, что в основе новой Industrial AI Operating System от Nvidia и Siemens — идея внедрения ИИ во все этапы производства. Причём не как просто симуляцию, а как активный «мозг», который будет не просто наблюдать, а и активно управлять процессом. Nvidia предоставит всю свою инфраструктуру для ИИ, включая библиотеки симуляции и фреймворки, а Siemens подкинет профессионалов по промышленному ИИ, а также всё необходимое оборудование. Идея простая, но гениальная: цифровые двойники станут не просто моделями для тестирования, а настоящими агентами, которые помогают улучшать процессы на реальной производственной линии. Вся система будет работать благодаря ИИ-мозгу, который будет непрерывно следить за цифровыми двойниками производственных линий, проверять изменения в процессах и переносить проверенные улучшения в реальный мир. Всё это будет работать так быстро, что процесс будет ускоряться в 2, а то и в 10 раз 😮 Завод Siemens Electronics Factory в Эрлангене (Германия) станет первым местом, где всё это будет реализовано. Здесь будут выпускаться преобразователи и силовая электроника, и если всё пойдет по плану, к 2026 году он будет полностью управляться ИИ. Кроме того, Siemens переводит весь свой симуляционный софт на GPU-ускорение с поддержкой CUDA-X и PhysicsNeMo, что позволит ускорить ключевые процессы на порядок. Это будет настоящий прорыв, который окажет влияние на всю промышленность. Что это даст? 😂 Технология уже протестирована такими гигантами, как Foxconn, HD Hyundai, KION Group и PepsiCo. А самое интересное, что рабочие на этих заводах получат умные очки Ray-Ban с функцией AR. Представьте: вы на сборочной линии, а у вас перед глазами сразу вся информация о безопасности, подсказки и реальная обратная связь прямо на очках.

Думаю, каждому из нас знакомо, как сложно иногда ускорить производственные процессы без потери качества. Внедрение ИИ в промышленность обещает решать эту задачу, а значит, мы сможем не только снизить издержки, но и значительно повысить скорость производства. Вопрос только в том, насколько быстро это станет нормой в мировой практике? Data Science

20 078

Большинство курсов по LLM заканчиваются ровно там, где в реальности всё только начинается - на деплое. Поиграться с промптами в ноутбуке - ок. А вот довести это до прода с архитектурой, стабильностью и масштабированием - тут уже начинаются сложности. И вот тут я наткнулся на курс «LLM-инженер» от GIGASCHOOL и AI Talent Hub» - и он как раз про реальную работу, а не «потыкать модель». Что внутри: 🔘дообучение по-взрослому: fine-tuning, PEFT, LoRA / QLoRA, RLHF 🔘инструменты: LangChain, LangGraph, векторные базы 🔘архитектуры: RAG, поиск, защита LLM-продуктов 🔘MLOps: пайплайны, деплой, трекинг, версионирование 🔘и дальше - мультиагенты и ассистенты Без магии. С кодом, инфраструктурой и нормальной архитектурой - так, как это реально делают в проде. Курс уже идёт третьим потоком, преподают практики из больших AI-команд (Газпромбанк, X5 Tech, HiveTrace и др.). На выходе - готовый проект в портфеле и понимание, что ты делаешь и зачем, а не просто повторяешь туториалы. Старт 26 января, длительность - 25 недель (с каникулами). Есть диплом и рассрочка. Цена вырастет 13 января. Если давно хотел перестать «экспериментировать» и начать реально делать LLM-продукты - выглядит как хороший вариант. Подробности и регистрация

20 078

Cursor делает смелый шаг: от статического контекста к динамическому 😐 В мире ИИ обновления бывают разные, но иногда приходят такие решения, которые заставляют подойти и задуматься, насколько они могут изменить правила игры. Сегодня поговорим о том, как Cursor взял и полностью перешел на динамический контекст.

Для тех, кто не в курсе: раньше многие модели ИИ использовали так называемый статический контекст — когда все данные буквально вываливаются в модель сразу. Логи, документы, история чатов — всё это забрасывается в систему и оказывается доступным в любой момент. Ну а что из этого получается? Контекст переполняется, важные детали теряются, и память модели забивается лишним мусором. Теперь же Cursor решает уйти от этого подхода и переходить на динамическое обнаружение контекста. Это как если бы агент сам по ходу работы мог «собирать» себе нужную информацию, а не ждать, пока её кто-то закинет. Что это означает на практике? 🍿 — История чатов и файлы: Вместо того чтобы хранить всю историю чатов в контексте, теперь Cursor сохраняет её в виде файла. Если при суммировании контекста какие-то важные моменты забылись, агент может зайти в файл, найти нужную информацию и восстановить недостающие детали. — Ответы от тулов: Когда нужно обработать длинный ответ от какого-то инструмента, этот ответ не отправляется в контекст целиком. Вместо этого, в контекст добавляется только ссылка на ответ, а сам JSON-файл с результатами остаётся в отдельном месте. Агент может по мере надобности обращаться к этим файлам — как будто он ищет что-то через grep или tail. — MCP и инструментальные вызовы: Вся эта громоздкая информация, например, описание инструментов и выводы терминальных сессий, теперь тоже не хранится в контексте. В контексте остаются только ссылки на нужные ресурсы, и агент может в любой момент обратиться к более подробному описанию. Звучит красиво, правда? Минимум мусора и максимум пользы. На практике, это позволяет существенно экономить ресурсы. Например, в A/B тестах использование токенов сократилось почти на 47%. Такая система масштабируемая, ведь теперь контекст перестаёт быть хранилищем знаний и превращается в инструкцию, как эти знания получать.

Если задуматься, это открывает новые горизонты для масштабируемых решений, где каждый агент может работать быстрее и эффективнее, не перегружая свою память лишними данными. А вы что думаете? Data Science

20 078

Привет. Вот тебе самые топовые каналы по IT! ⚙️ Free Znanija (IT) — Самая огромная коллекция платных курсов, которые можно скачать бесплатно; 👩‍💻 IT Books — Самая огромная библиотека книг; 💻 Hacking & InfoSec Base — Крутой блог белого хакера; 🛡 CyberGuard — Всё про ИБ; 🤔 ИБ Вакансии — Всё, чтобы найти работу в ИБ; 👩‍💻 linux administration — Всё про Линукс; 👩‍💻 Программистика — Python, python и ещё раз python; 👩‍💻 GameDev Base — Всё про GameDev; 😆 //code — Самые топовые мемы по IT: Подпишись, чтобы не потерять!

20 078

Новый подход к подготовке данных для LLM — как PyTorch для дата-инженеров 😐 При создании мощных языковых моделей важно не только обучать их с нуля или улучшать существующие, но и управлять процессом, делая его воспроизводимым и эффективным. DataFlow предлагает решение, превращая подготовку данных для ИИ в инженерную задачу, аналогично тому, как PyTorch изменил мир нейросетей.

Основная проблема многих современных пайплайнов — это несоответствие и непредсказуемость. Проблема не только в грязных данных, но и в том, что пайплайны часто становятся «семантически нагруженными». То есть LLM уже не просто обрабатывают данные, они участвуют в генерации задач, переформулировке запросов, поиске несоответствий и создании синтетических корпусов данных. Процесс уже не такой прямолинейный, как в классическом ETL, где все описывалось четкими правилами. Здесь нужно больше контроля качества и итеративности на каждом шаге. Вот тут и появляется DataFlow, который предлагает именно LLM-driven обработку данных. Как устроен DataFlow? 🗒 В центре DataFlow лежит идея, что каждый шаг в процессе подготовки данных должен быть оформлен как оператор. Это небольшой модуль, который читает данные, выполняет преобразования и записывает результат обратно в хранилище. Все шаги в системе управляются через глобальное хранилище, которое выступает как единый источник правды. Это позволяет легко переставлять и переиспользовать шаги, а также быстро отслеживать изменения. Каждый оператор взаимодействует с данными через механизмы чтения-преобразования-записи, что делает процесс максимально прозрачным и удобным для отладки. В итоге, такие пайплайны можно настраивать и компилировать, что упрощает обнаружение ошибок и улучшает контроль над процессом. Операторы, пайплайны и мощь модульности 😺 Каждый шаг в DataFlow можно представить как операцию, выполняющую одну из четырёх ролей: генерация, оценка, фильтрация и улучшение. Модели проходят цикл generate → evaluate → filter → refine, а в системе уже собрано почти 200 различных операторов для самых разных задач — от текста и кода до математических задач и извлечения знаний. Что удивительно, этот процесс можно масштабировать и адаптировать под специфические задачи. Например, система помогает создавать Text-to-SQL пайплайны, где важно не только сгенерировать SQL-запрос, но и удостовериться в его исполнимости, сложности и пригодности для обучения. Мультиагентная система: когда агент сам строит пайплайн☕️ Особенность DataFlow заключается не только в автоматизации всех этих процессов, но и в использовании мультиагентной системы — DataFlow-Agent. Этот агент принимает запросы на естественном языке и превращает их в исполнимый DAG-пайплайн. Представьте, что вы говорите агенту: «Сделай мне данные для задачи на основе этого описания», а он уже сам подбирает нужные операторы, проверяет их совместимость и собирает пайплайн.

Система еще в стадии разработки, но DataFlow уже выглядит как серьёзная заявка. Интересно, что будет дальше, и как такие системы могут повлиять на стандарты подготовки данных в будущем. Data Science