Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
显示更多📈 Telegram 频道 Data Science | Machinelearning [ru] 的分析概览
频道 Data Science | Machinelearning [ru] (@devsp) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 20 069 名订阅者,在 技术与应用 类别中位列第 6 732,并在 俄罗斯 地区排名第 33 731 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 20 069 名订阅者。
根据 12 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -35,过去 24 小时变化为 -4,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 7.60%。内容发布后 24 小时内通常能获得 4.48% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 1 526 次浏览,首日通常累积 899 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 7。
- 主题关注点: 内容集中在 llm, nvidia, контекст, openai, архитектура 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
凭借高频更新(最新数据采集于 13 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
Как активировать режим разработчика? — Перейдите в настройки — Выберите раздел коннекторы — Включите опцию дополнительные настройки и активируйте Режим разработчика Что дает Режим разработчика? • Включать Режим разработчика для отдельных чатов через иконку «+» • В меню «Добавить источники» указать адрес вашего MCP-сервера • Настроить дополнительные параметры для подключения и взаимодействия с внешними сервисами Что такое MCP? MCP (Model Context Protocol) — это протокол, который позволяет ИИ взаимодействовать с внешними системами. Например, можно подключить ChatGPT к корпоративным базам данных или интегрировать с системами тикетов вроде Jira, если настроены соответствующие разрешения. Ранее в ChatGPT поддерживались только MCP, одобренные OpenAI. С новым режимом разработчика пользователи и разработчики смогут подключать любые MCP — но при этом важно помнить о безопасности. Подключая сторонние сервисы, вы берете на себя ответственность за безопасность данных и интеграций.Режим разработчика — это мощный инструмент, которым нужно интегрировать ИИ с различными системами и сервисами. Если вы работаете с данными или нуждаетесь в кастомных подключениях, этот режим откроет перед вами новые возможности 🐹 Data Science
Метод, получивший название Memento, использует Memory-augmented MDP — концепцию, где ИИ «вспоминает» решения из прошлого, чтобы справляться с новыми задачами. Такой подход избавляет от необходимости обновлять параметры модели, улучшая эффективность и масштабируемость. Как это работает? Memento состоит из трёх компонентов: • Планировщик, который анализирует задачу и обращается к памяти • Исполнитель, решающий подзадачи • Банк случаев, где сохраняются решения, пригодные для использования в будущем Этот метод не только решает текущие задачи, но и делает систему ИИ более гибкой и адаптивной к изменениям.Для компаний Memento открывает путь к созданию универсальных ИИ-агентов, которые постоянно учатся и развиваются без необходимости дорогого дообучения, при этом оставаясь интегрируемыми с корпоративными системами. Как вы думаете, может ли такая система полностью заменить традиционные методы обучения ИИ в бизнесе? Data Science
Сегодня мы видим, как сокращаются команды, увольняют сотрудников, и компании активно утверждают, что ИИ повысит продуктивность. Но кто будет управлять командами разработки в будущем, если исключить джунов из процесса обучения? Джуны играют ключевую роль в подготовке нового поколения инженеров, и без их участия в обучении мы рискуем потерять тех, кто впоследствии станет лидерами. Да, ИИ изменяет правила игры, но он не может заменить начальные позиции в команде, которые дают шанс развиваться и расти. Современные джуны должны научиться работать с ИИ, адаптируя его возможности под реальные задачи, а не полагаться на него как на замену человеческого труда. Для этого джунам стоит не только овладеть новыми техническими навыками, но и развивать коммуникацию и способность работать с различными стейкхолдерами. Самый важный навык на пути к успеху — это способность к обучению и адаптации в условиях изменений, а ИИ может стать отличным помощником на этом пути, если научиться правильно его использовать. Инструменты ИИ, такие как агентные IDE и автодополнение, помогают ускорить рутинные задачи, но ключевым остаётся умение понимать, где ИИ работает лучше, а где нужен человеческий подход. Джунам нужно освоить этот баланс, чтобы не только эффективно работать с ИИ, но и стать полноценными участниками команды, готовыми к лидерству в будущем.В будущем роль джуна не исчезнет, но изменится. Те, кто не боится принятия новых технологий и адаптации, смогут пройти этот путь и стать лидерами, которые не просто пишут код, но и ведут команды, разрабатывают стратегии и принимают важные решения. Что думаете? 🔥— Нет, это лишь инструмент 👎— Да, ИИ возьмёт на себя всё Data Science
Где горят деньги? По новым расчетам, в 2025 году расходы превысят $8 млрд, а уже к 2028-му достигнут $45 млрд. Для сравнения: в старом прогнозе на этот год фигурировала сумма всего $11 млрд. Львиная доля пойдет на обучение моделей ($9 млрд в 2025-м и $19 млрд в 2026-м), а также на компенсации сотрудникам акциями — их объем в прогнозе вырос на $20 млрд. А как с доходами? Только ChatGPT в 2025-м должен принести почти $10 млрд — на $2 млрд выше прежних ожиданий. К 2030-му выручка чатбота оценивается уже в $90 млрд. Общая выручка компании к концу десятилетия должна достичь $200 млрд. Главная ставка — монетизация бесплатной аудитории через подписки и рекламу: ожидается около $110 млрд допдохода за 2026–2030 годы. При этом OpenAI планирует увеличить средний доход на пользователя с $2 до $15 и довести число еженедельных активных пользователей до 2 млрд.Чем больше OpenAI тратит, тем выше поднимает планку выручки. Но первые реальные прибыли компания ожидает только ближе к 2029–2030 годам 💻 Data Science
В первой части книги внимание уделяется ключевым аспектам работы с агентами, таким как цепочка команд, маршрутизация и параллелизация — все это с реальными примерами кода. Важно подчеркнуть, что каждый из разделов направлен на то, чтобы разработчики могли не только понять теорию, но и интегрировать эти методы в свои проекты. Вторая часть книги посвящена памяти и адаптивности, а также ключевым протоколам взаимодействия между агентами. В процессе изучения материалов разработчики смогут научиться строить модели, которые способны не только решать поставленные задачи, но и улучшать свою работу на основе предыдущего опыта. Также стоит отметить, что книга включает в себя полезные приложения: от углубленных техник подсказок до подробного описания внутреннего устройства агентов, что позволит читателям получить полное представление о создании эффективных и безопасных интеллектуальных систем.Что вы думаете о применении таких систем в реальных проектах? 👍 — Могут изменить подход к разработке 👎 — Технология ещё не готова Data Science
Теперь с появлением рабочих моделей кода всё проще. Мы описываем задачу на человеческом языке, добавляем тесты — и получаем небольшой модуль без лишнего «жира». Такой кусочек кода легко читать, менять и проверять. Где ИИ уже заменяет OSS — Индикаторы и статистика: EMA, RSI, Z-score, корреляции окон — Узкие клиенты для работы с API биржи — Скелеты бэктестов или пайплайнов — Адаптеры и конвертеры форматов Где границы? ИИ отлично справляется с утилитарными задачами. Но криптография, протоколы с жёсткими SLA, движки БД и численные солверы остаются в зоне зрелого OSS — там нужна предсказуемость и годами проверенные решения.ИИ не «убивает» open source, а просто сдвигает баланс. Узкие задачи проще генерировать под себя, а всё сложное и критичное — оставлять за проверенными библиотеками. Чем меньше зависимостей — тем ниже риски и проще поддержка 🍑 Сейчас все уже массово доверяют свой код ии. Норма или ещё рано? Data Science
— Почему tRPC: вместо REST или GraphQL используется TypeScript-first RPC-фреймворк. Он позволяет описывать API без схем, прямо функциями, а типы автоматически «протягиваются» на фронтенд. Итог — меньше бойлерплейта и меньше багов на ранних этапах. — Как работает пайплайн: резюме и вакансия загружаются в сервис, оттуда извлекается текст, ключевые слова выделяются с помощью простых NLP-приёмов (токенизация, поиск существительных и заглавных слов), а дальше результат прогоняется через Gemini, который возвращает JSON с оценкой совпадения, сильными сторонами и рекомендациями. Идея проста: зачем писать свой алгоритм сопоставления навыков, если можно отдать работу модели? Такой подход ускоряет прототипирование и отлично подходит для внутренних инструментов или быстрых демо.В итоге получился рабочий инструмент, который не претендует на замену LinkedIn, но отлично показывает, как современные фреймворки и ИИ можно объединять в боевую связку 🍆 Data Science
Как это работает? ИИ быстро перебирает миллионы молекул, отбраковывает заведомо слабые варианты и подсказывает, какие стоит тестировать дальше. В ход идут базы знаний, данные экспериментов и измерений. Параллельно NAM заменяют часть классических испытаний: «органы-на-чипе», культуры клеток, цифровые модели. Результаты ближе к реальности, а количество опытов на животных уменьшается. Пример: компания Recursion вывела молекулу REC-1245 на клинические испытания всего за 18 месяцев вместо привычных 42. Предполагается, что препарат будет тормозить рост некоторых раковых опухолей. Что это значит? ИИ не отменяет долгих клинических фаз — пока на рынке нет ни одного реально одобренного «ИИ-препарата». Но сам процесс становится быстрее, прозрачнее и дешевле. Если прогнозы сбудутся, фармацевтика в ближайшие годы войдёт в новую эпоху.А вы как думаете? 👍 — ИИ реально ускорит появление новых лекарств 👎 — В итоге всё упрётся в бюрократию и испытания Data Science
Как работает DeepConf? Вместо того чтобы одинаково рассматривать все возможные варианты решения (включая ошибочные), DeepConf анализирует уровень «уверенности» самой модели. Если вероятность правильного ответа падает ниже порога — такой путь просто отсекается. В итоге остаются только сильные кандидаты, среди которых проходит «взвешенное голосование». Экономия ресурсов и рост точности. DeepConf умеет работать в двух режимах: offline (после генерации) и online (на лету). Второй вариант особенно полезен — слабые цепочки обрубаются ещё до конца рассуждений. Это не только ускоряет процесс, но и экономит вычислительные мощности. В тестах метод показал впечатляющий результат: 99,9% точности на AIME 2025 при сокращении числа токенов почти на 85%.Почему это важно? С ростом числа больших моделей нагрузка на инфраструктуру становится критичной. DeepConf показывает, что можно не просто обучать ИИ на всё больших объёмах данных, а учить его мыслить рациональнее, сокращая лишние шаги и снижая цену вычислений 🍑 *Meta признана экстремистской организацией и запрещена на территории РФ Data Science
Где ИИ реально помогает. Современные LLM могут быть не просто «генераторами кода», а инструментами для восстановления концепций, которые когда-то закладывали архитекторы. Это снимает боль с ключевых этапов: • Трассировка кода — автоматический обход AST и выделение связей, которые определяют функциональность • Сбор контекста БД — привязка SQL-запросов к конкретным модулям кода • Визуализации (PlantUML) — превращение кода в диаграммы, понятные не только инженерам • Автоматизация BRD — модели составляют бизнес-требования на основе исходного кода и базы Возьмём e-commerce: розница работает, потом добавили опт, но всё осталось на старой архитектуре. В итоге новая логика строится поверх старых правил. Это и есть концептуальный дрейф. LLM помогают не только его обнаружить, но и предложить варианты архитектурных решений, уменьшая риски при переписывании.ИИ пока не заменяет экспертов, но делает процесс модернизации быстрее, прозрачнее и предсказуемее. Вместо бесконечного копания в коде инженеры получают структурированный контекст и готовые подсказки 😮💨 А как вы считаете: 👍 — ИИ уже стал must-have в модернизации 👎 — Без людей ничего не выйдет 🤔 — Зависит от сложности проекта Data Science
import dask.dataframe as dd
# Загружаем огромный CSV как будто это Pandas
df = dd.read_csv("data.csv")
# Считаем топ-10 самых популярных значений в колонке
top10 = df["category"].value_counts().compute()
print(top10)
🤔 Разбираемся:
• dask под капотом разбивает файл на маленькие части • Вы работаете с DataFrame так же, как в Pandas • compute() запускает реальный расчёт, но только когда нужноМожно анализировать файлы в десятки гигабайт на обычном ноутбуке, без кластеров и суперкомпов. Data Science
Что умеет UDTF? У вас есть текстовое поле, и вы хотите превратить каждое слово в отдельную строку. С UDF так не получится, он вернёт только одно значение. А UDTF легко «разворачивает» данные: одна входная строка превращается в десятки выходных. Таким образом можно: • Разбивать текст на слова, списки на элементы • Рраспаковывать коллекции или делать cartesian-развёртки • Получать более гибкие трансформации без громоздкого кода Как это выглядит? UDTF оформляется как Python-класс с методом eval, где можно yield-ить столько строк, сколько нужно. Например, разбиение строки на слова превращается в лаконичный цикл for word in text.split(): yield (word,). Результат в Spark будет выглядеть как таблица, где каждое слово — отдельная строка. Другой пример — генерация чисел и их квадратов. Обычный цикл for num in range(start, end): yield (num, num*num) вернёт сразу множество строк. Всё прозрачно: одна запись на входе — много записей на выходе. Зачем это в продакшене? Главное преимущество UDTF — гибкость. В задачах анализа данных часто нужно «развернуть» структуру: например, массив тегов превратить в таблицу или подсчитать все комбинации значений. Раньше такие приёмы были неудобными, теперь они встроены в PySpark.UDTF — это 20% кода и 80% удобства. Теперь можно писать генераторы как в Python и получать готовые таблицы в Spark 💳 Data Science
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
