Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
显示更多📈 Telegram 频道 Data Science | Machinelearning [ru] 的分析概览
频道 Data Science | Machinelearning [ru] (@devsp) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 20 079 名订阅者,在 技术与应用 类别中位列第 6 731,并在 俄罗斯 地区排名第 33 728 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 20 079 名订阅者。
根据 11 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -38,过去 24 小时变化为 40,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 7.58%。内容发布后 24 小时内通常能获得 4.23% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 1 521 次浏览,首日通常累积 849 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 6。
- 主题关注点: 内容集中在 llm, nvidia, контекст, openai, архитектура 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
凭借高频更新(最新数据采集于 12 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
• 16,3% людей по всему миру уже используют ИИ Кажется, что это не так уж много, но для новой технологии такие цифры — уже большое достижение. С учётом того, что интернетом пользуются 74% людей, это значит, что почти каждый пятый человек в мире активно использует ИИ для работы, учёбы или повседневных задач. Давайте признаемся, даже несколько лет назад такое казалось бы невозможно! • Неравномерность распространения: лидеры и отстающие Есть страны, где ИИ уже стал нормой. Например, в Норвегии почти каждый второй житель использует ИИ (46,4%), в Ирландии — 44,6%, а в Франции — 44%. Такие цифры говорят о том, что ИИ активно внедряется не только в бизнес и школы, но и в государственные институты. Но вот парадокс: в глобальном масштабе отрыв между развитыми странами и остальными продолжает расти. В странах «глобального Севера» уже 35,6% пользователей, а в странах «глобального Юга» — лишь 16,3%. Это наглядно показывает, как адаптация ИИ распределяется неравномерно. • США теряет позиции, а ОАЭ и Сингапур в лидерах Несмотря на технологическое лидерство, США опустились с 23-го на 24-е место в мировом рейтинге по количеству пользователей ИИ. В то время как ОАЭ и Сингапур с их уже высокими показателями (64% и 60,9% соответственно) показывают, как эффективно можно внедрить ИИ через государственные программы и обучение. Тут уже не только технологии решают, а стратегии внедрения. • ИИ в России: потенциал есть, но есть и барьеры В России ИИ используют около 8% людей. Это ниже среднемирового уровня, но, возможно, это не совсем отражает реальное положение вещей. Например, решения вроде DeepSeek популярны в России, и их использование не всегда попадает в официальные статистики. Оказавшись в условиях ограничений и менее развитой инфраструктуры, российские пользователи всё же находят способы обходить барьеры и внедрять новые технологии. • Open Source как ключ к снижению разрыва Интересно, что в Африке использование ИИ через open-source решения вроде DeepSeek гораздо выше, чем в других регионах. Это наглядно показывает важность децентрализованных решений для стран, которые не могут себе позволить инвестировать в крупные модели и платформы. В такой ситуации open-source решения становятся важным инструментом для равномерного распределения технологий.Один из самых важных уроков, который мы можем извлечь из отчёта, заключается в том, что не те страны, у которых самые мощные модели ИИ, выигрывают в новой экономике, а те, кто научился быстро обучать людей работать с этими технологиями. Это ключевой фактор, который определяет скорость роста и развития. Data Science
Например, для модели LLaMA с 65 миллиардами параметров при 128k токенах этот кэш может занять целых 335 ГБ памяти. А это, согласитесь, совсем не шутки! И, кстати, не только память страдает, но и производительность. В общем, проблема довольно масштабная. Многие стараются бороться с этим, уменьшая размер кэша по слоям или головам. Но в реальности самый большой потенциал для улучшений — это уменьшение по оси токенов. Ведь далеко не все токены действительно важны для модели. В этом и скрывается главный рычаг. KVzip: попытка решить проблему Когда появились идеи типа KVzip, оптимизация выглядела многообещающе. В теории можно было сжать кэш до 4 раз без потерь качества. Но на практике метод оказался слишком медленным. Слишком много операций, слишком много вычислений — и вот тут-то на сцену выходит Nvidia. Что придумали Nvidia? Nvidia, конечно, не обошли эту проблему стороной. Они взяли концепцию сжатиия KV-кэша, немного доработали её и… вуаля! Теперь получается та же сжатие, но при этом практически без потерь производительности. Всё, что нужно — это обучить маленькую модель, которая будет предсказывать, насколько важен каждый токен для каждого слоя модели. И, внимание, эта модель абсолютно не требует дорогих вычислений, как в случае с KVzip. Просто с помощью линейной модели или двухслойного MLP предсказывается, какие токены можно «отсечь», не потеряв в качестве. И вот что самое крутое: эффективность увеличивается в 3–4 раза, а при этом производительность практически не страдает. Для вычислений добавляется всего 0,02% дополнительных операций, что — по сути — ничто на фоне квадратичного внимания. Результат: сжатие работает, деградации на бенчмарках практически нет. А если вам вдруг стало интересно, то всё это решение уже в опенсорсе. Nvidia делится всем этим с миром, так что мы все можем в дальнейшем использовать этот подход 🍑Nvidia смогла решить проблему, которая стояла перед всеми, кто работал с масштабными моделями, и сделала это почти бесплатно в плане вычислительных затрат. Data Science
Теперь независимые исследователи могут воспроизводить эксперименты, ранее доступные лишь крупным лабораториям.
— В IT-сфере самые популярные профессии — дата-аналитик, бизнес-аналитик и AI-разработчик. — Лучшей компанией для начала карьеры, по мнению студентов ключевых IT-направлений, стал Яндекс. За него проголосовали те, кто хочет связать профессию с созданием технологий будущего. — Помимо IT, молодых специалистов также привлекают менеджмент, маркетинг и финансы.✖️ xCode Journal
На базе SleepFM лежит одна из самых интересных идей в области машинного обучения. В отличие от традиционных методов диагностики, когда пациента подключают к множеству датчиков (ЭЭГ, ЭКГ, сенсоры дыхания и прочее), модель Стэнфорда анализирует гигантский объём данных, которые поступают в рамках одной ночи сна. И, что важно, она делает это без привычной ручной разметки данных, а благодаря инновационному подходу в обучении. Полисомнография, классический метод диагностики сна, даёт огромное количество сырых сигналов, которые в традиционных моделях использовались только для узких задач — например, для поиска апноэ или определения фаз сна. Но эти данные можно использовать гораздо более эффективно, если подойти к анализу с другой стороны. Как работает SleepFM? 🍦 Основная идея заключается в self-supervised learning. Вместо того чтобы учить модель напрямую предсказывать диагноз, исследователи превратили задачу в своего рода «физиологический пазл». Модель получает данные с разных датчиков, например, с сердца, дыхания и мышц, и должна восстановить недостающую информацию, например, мозговые волны. Преимущество этого подхода в том, что нейросеть учится выявлять глубинные взаимосвязи между различными системами организма, а не просто запоминает поверхностные паттерны. А добавленный механизм Channel-Agnostic Attention позволяет модели адаптироваться к реальным условиям: если какой-то датчик потерял сигнал или дал сбой, модель автоматически перераспределит внимание на остальные доступные каналы. Это делает модель гораздо более устойчивой и практичной для использования в реальных условиях. Какие результаты? 🤩 Всё это приводит к впечатляющим результатам. За одну ночь сна модель предсказывает риск 130 заболеваний. Например, точность выявления болезни Паркинсона составляет 89%, деменции — 85%, а риск сердечного приступа — 81%. И это без необходимости вручную разметить данные под каждое заболевание!Вот так, простой ночной отдых может стать тем, что поможет вовремя распознать серьёзные заболевания. Верите ли вы, что в будущем технологии смогут диагностировать болезни просто по качеству сна? Data Science
Квантовые компьютеры — это не просто крутые гаджеты для учёных. Это будущее вычислений, где данные могут существовать в состоянии «и-да, и-нет» одновременно, благодаря суперпозиции и квантовой запутанности. Но вот беда, с копированием квантовой информации всё не так просто. Знаете ли вы, что квантовая информация не может быть скопирована как обычный файл? Это не просто ограничение технологий, а сам закон квантовой физики! Он называется теорема о невозможности клонирования (no-cloning theorem). Она утверждает, что вы не можете просто взять и создать точную копию какого-либо квантового состояния. Как обойти квантовые законы? 😠 Ученые придумали способ, как обойти этот закон. Их метод заключается в шифровании квантовых данных, а уже потом их копировании. Всё довольно просто на первый взгляд, но с нюансами. Квантовые данные сначала шифруются, а затем создаются их копии. Причём, вы можете делать это сколько угодно раз. Но есть важное замечание: как только копия расшифровывается, ключ шифрования уничтожается. Это значит, что, если ключ утратил свою силу, все копии вскрываются одновременно.Теперь открываются совершенно новые горизонты для квантового облачного хранения данных и распределённых квантовых систем. Это может значительно изменить подходы к обработке и хранению данных в будущем, а для нас с вами — это шаг к созданию более безопасных и мощных вычислительных систем. Data Science
Его задача — предсказать, что может пойти не так, когда ИИ начнет работать в реальном мире. Например, какие опасности могут возникнуть в сферах, где мы еще не подумали о последствиях? Где модель может не пройти тесты, но все равно принести проблемы? Какие долгосрочные угрозы нас подстерегают? Собственно, почему эта роль так важна? OpenAI сами признают, что столкнулись с проблемами. В 2025 году первый тревожный сигнал появился, когда модели начали оказывать влияние на психическое здоровье людей (не забывайте про те трагические истории с ChatGPT). А еще, с ростом уровня кодирования ИИ, возникли реальные угрозы для кибербезопасности. И вот, это всё стало отправной точкой для создания этой роли. Да, зарплата на должности обещана солидная — $555k с бонусами, что, конечно, не Цукерберговские суммы, но на жизнь точно хватит 💳Риск того, что ИИ может повлиять на наш мир не только в положительном ключе, а в худшем — реальный. Вопросы в другом: реально ли кто-то может подготовиться ко всем рискам ИИ и, может, это больше маркетинг, чем реальная необходимость? Data Science
Процесс будет выглядеть так, как будто завод становится живым существом, только без всех этих эмоций. Всё потому, что в основе новой Industrial AI Operating System от Nvidia и Siemens — идея внедрения ИИ во все этапы производства. Причём не как просто симуляцию, а как активный «мозг», который будет не просто наблюдать, а и активно управлять процессом. Nvidia предоставит всю свою инфраструктуру для ИИ, включая библиотеки симуляции и фреймворки, а Siemens подкинет профессионалов по промышленному ИИ, а также всё необходимое оборудование. Идея простая, но гениальная: цифровые двойники станут не просто моделями для тестирования, а настоящими агентами, которые помогают улучшать процессы на реальной производственной линии. Вся система будет работать благодаря ИИ-мозгу, который будет непрерывно следить за цифровыми двойниками производственных линий, проверять изменения в процессах и переносить проверенные улучшения в реальный мир. Всё это будет работать так быстро, что процесс будет ускоряться в 2, а то и в 10 раз 😮 Завод Siemens Electronics Factory в Эрлангене (Германия) станет первым местом, где всё это будет реализовано. Здесь будут выпускаться преобразователи и силовая электроника, и если всё пойдет по плану, к 2026 году он будет полностью управляться ИИ. Кроме того, Siemens переводит весь свой симуляционный софт на GPU-ускорение с поддержкой CUDA-X и PhysicsNeMo, что позволит ускорить ключевые процессы на порядок. Это будет настоящий прорыв, который окажет влияние на всю промышленность. Что это даст? 😂 Технология уже протестирована такими гигантами, как Foxconn, HD Hyundai, KION Group и PepsiCo. А самое интересное, что рабочие на этих заводах получат умные очки Ray-Ban с функцией AR. Представьте: вы на сборочной линии, а у вас перед глазами сразу вся информация о безопасности, подсказки и реальная обратная связь прямо на очках.Думаю, каждому из нас знакомо, как сложно иногда ускорить производственные процессы без потери качества. Внедрение ИИ в промышленность обещает решать эту задачу, а значит, мы сможем не только снизить издержки, но и значительно повысить скорость производства. Вопрос только в том, насколько быстро это станет нормой в мировой практике? Data Science
Для тех, кто не в курсе: раньше многие модели ИИ использовали так называемый статический контекст — когда все данные буквально вываливаются в модель сразу. Логи, документы, история чатов — всё это забрасывается в систему и оказывается доступным в любой момент. Ну а что из этого получается? Контекст переполняется, важные детали теряются, и память модели забивается лишним мусором. Теперь же Cursor решает уйти от этого подхода и переходить на динамическое обнаружение контекста. Это как если бы агент сам по ходу работы мог «собирать» себе нужную информацию, а не ждать, пока её кто-то закинет. Что это означает на практике? 🍿 — История чатов и файлы: Вместо того чтобы хранить всю историю чатов в контексте, теперь Cursor сохраняет её в виде файла. Если при суммировании контекста какие-то важные моменты забылись, агент может зайти в файл, найти нужную информацию и восстановить недостающие детали. — Ответы от тулов: Когда нужно обработать длинный ответ от какого-то инструмента, этот ответ не отправляется в контекст целиком. Вместо этого, в контекст добавляется только ссылка на ответ, а сам JSON-файл с результатами остаётся в отдельном месте. Агент может по мере надобности обращаться к этим файлам — как будто он ищет что-то через grep или tail. — MCP и инструментальные вызовы: Вся эта громоздкая информация, например, описание инструментов и выводы терминальных сессий, теперь тоже не хранится в контексте. В контексте остаются только ссылки на нужные ресурсы, и агент может в любой момент обратиться к более подробному описанию. Звучит красиво, правда? Минимум мусора и максимум пользы. На практике, это позволяет существенно экономить ресурсы. Например, в A/B тестах использование токенов сократилось почти на 47%. Такая система масштабируемая, ведь теперь контекст перестаёт быть хранилищем знаний и превращается в инструкцию, как эти знания получать.Если задуматься, это открывает новые горизонты для масштабируемых решений, где каждый агент может работать быстрее и эффективнее, не перегружая свою память лишними данными. А вы что думаете? Data Science
Основная проблема многих современных пайплайнов — это несоответствие и непредсказуемость. Проблема не только в грязных данных, но и в том, что пайплайны часто становятся «семантически нагруженными». То есть LLM уже не просто обрабатывают данные, они участвуют в генерации задач, переформулировке запросов, поиске несоответствий и создании синтетических корпусов данных. Процесс уже не такой прямолинейный, как в классическом ETL, где все описывалось четкими правилами. Здесь нужно больше контроля качества и итеративности на каждом шаге. Вот тут и появляется DataFlow, который предлагает именно LLM-driven обработку данных. Как устроен DataFlow? 🗒 В центре DataFlow лежит идея, что каждый шаг в процессе подготовки данных должен быть оформлен как оператор. Это небольшой модуль, который читает данные, выполняет преобразования и записывает результат обратно в хранилище. Все шаги в системе управляются через глобальное хранилище, которое выступает как единый источник правды. Это позволяет легко переставлять и переиспользовать шаги, а также быстро отслеживать изменения. Каждый оператор взаимодействует с данными через механизмы чтения-преобразования-записи, что делает процесс максимально прозрачным и удобным для отладки. В итоге, такие пайплайны можно настраивать и компилировать, что упрощает обнаружение ошибок и улучшает контроль над процессом. Операторы, пайплайны и мощь модульности 😺 Каждый шаг в DataFlow можно представить как операцию, выполняющую одну из четырёх ролей: генерация, оценка, фильтрация и улучшение. Модели проходят цикл generate → evaluate → filter → refine, а в системе уже собрано почти 200 различных операторов для самых разных задач — от текста и кода до математических задач и извлечения знаний. Что удивительно, этот процесс можно масштабировать и адаптировать под специфические задачи. Например, система помогает создавать Text-to-SQL пайплайны, где важно не только сгенерировать SQL-запрос, но и удостовериться в его исполнимости, сложности и пригодности для обучения. Мультиагентная система: когда агент сам строит пайплайн☕️ Особенность DataFlow заключается не только в автоматизации всех этих процессов, но и в использовании мультиагентной системы — DataFlow-Agent. Этот агент принимает запросы на естественном языке и превращает их в исполнимый DAG-пайплайн. Представьте, что вы говорите агенту: «Сделай мне данные для задачи на основе этого описания», а он уже сам подбирает нужные операторы, проверяет их совместимость и собирает пайплайн.Система еще в стадии разработки, но DataFlow уже выглядит как серьёзная заявка. Интересно, что будет дальше, и как такие системы могут повлиять на стандарты подготовки данных в будущем. Data Science
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
