Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Больше📈 Аналитический обзор Telegram-канала Data Science | Machinelearning [ru]
Канал Data Science | Machinelearning [ru] (@devsp) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 20 069 подписчиков, занимая 6 732 место в категории Технологии и приложения и 33 731 место в регионе Россия.
📊 Показатели аудитории и динамика
С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 20 069 подписчиков.
Согласно последним данным от 12 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -35, а за последние 24 часа — -4, при этом общий охват остаётся высоким.
- Статус верификации: Не верифицирован
- Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 7.60%. В первые 24 часа после публикации контент обычно набирает 4.48% реакций от общего числа подписчиков.
- Охват публикаций: В среднем каждый пост получает 1 526 просмотров. В течение первых суток публикация набирает 899 просмотров.
- Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 7.
- Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, nvidia, контекст, openai, архитектура.
📝 Описание и контентная политика
Автор описывает ресурс как площадку для выражения субъективного мнения:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Благодаря высокой частоте обновлений (последние данные получены 13 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.
Как активировать режим разработчика? — Перейдите в настройки — Выберите раздел коннекторы — Включите опцию дополнительные настройки и активируйте Режим разработчика Что дает Режим разработчика? • Включать Режим разработчика для отдельных чатов через иконку «+» • В меню «Добавить источники» указать адрес вашего MCP-сервера • Настроить дополнительные параметры для подключения и взаимодействия с внешними сервисами Что такое MCP? MCP (Model Context Protocol) — это протокол, который позволяет ИИ взаимодействовать с внешними системами. Например, можно подключить ChatGPT к корпоративным базам данных или интегрировать с системами тикетов вроде Jira, если настроены соответствующие разрешения. Ранее в ChatGPT поддерживались только MCP, одобренные OpenAI. С новым режимом разработчика пользователи и разработчики смогут подключать любые MCP — но при этом важно помнить о безопасности. Подключая сторонние сервисы, вы берете на себя ответственность за безопасность данных и интеграций.Режим разработчика — это мощный инструмент, которым нужно интегрировать ИИ с различными системами и сервисами. Если вы работаете с данными или нуждаетесь в кастомных подключениях, этот режим откроет перед вами новые возможности 🐹 Data Science
Метод, получивший название Memento, использует Memory-augmented MDP — концепцию, где ИИ «вспоминает» решения из прошлого, чтобы справляться с новыми задачами. Такой подход избавляет от необходимости обновлять параметры модели, улучшая эффективность и масштабируемость. Как это работает? Memento состоит из трёх компонентов: • Планировщик, который анализирует задачу и обращается к памяти • Исполнитель, решающий подзадачи • Банк случаев, где сохраняются решения, пригодные для использования в будущем Этот метод не только решает текущие задачи, но и делает систему ИИ более гибкой и адаптивной к изменениям.Для компаний Memento открывает путь к созданию универсальных ИИ-агентов, которые постоянно учатся и развиваются без необходимости дорогого дообучения, при этом оставаясь интегрируемыми с корпоративными системами. Как вы думаете, может ли такая система полностью заменить традиционные методы обучения ИИ в бизнесе? Data Science
Сегодня мы видим, как сокращаются команды, увольняют сотрудников, и компании активно утверждают, что ИИ повысит продуктивность. Но кто будет управлять командами разработки в будущем, если исключить джунов из процесса обучения? Джуны играют ключевую роль в подготовке нового поколения инженеров, и без их участия в обучении мы рискуем потерять тех, кто впоследствии станет лидерами. Да, ИИ изменяет правила игры, но он не может заменить начальные позиции в команде, которые дают шанс развиваться и расти. Современные джуны должны научиться работать с ИИ, адаптируя его возможности под реальные задачи, а не полагаться на него как на замену человеческого труда. Для этого джунам стоит не только овладеть новыми техническими навыками, но и развивать коммуникацию и способность работать с различными стейкхолдерами. Самый важный навык на пути к успеху — это способность к обучению и адаптации в условиях изменений, а ИИ может стать отличным помощником на этом пути, если научиться правильно его использовать. Инструменты ИИ, такие как агентные IDE и автодополнение, помогают ускорить рутинные задачи, но ключевым остаётся умение понимать, где ИИ работает лучше, а где нужен человеческий подход. Джунам нужно освоить этот баланс, чтобы не только эффективно работать с ИИ, но и стать полноценными участниками команды, готовыми к лидерству в будущем.В будущем роль джуна не исчезнет, но изменится. Те, кто не боится принятия новых технологий и адаптации, смогут пройти этот путь и стать лидерами, которые не просто пишут код, но и ведут команды, разрабатывают стратегии и принимают важные решения. Что думаете? 🔥— Нет, это лишь инструмент 👎— Да, ИИ возьмёт на себя всё Data Science
Где горят деньги? По новым расчетам, в 2025 году расходы превысят $8 млрд, а уже к 2028-му достигнут $45 млрд. Для сравнения: в старом прогнозе на этот год фигурировала сумма всего $11 млрд. Львиная доля пойдет на обучение моделей ($9 млрд в 2025-м и $19 млрд в 2026-м), а также на компенсации сотрудникам акциями — их объем в прогнозе вырос на $20 млрд. А как с доходами? Только ChatGPT в 2025-м должен принести почти $10 млрд — на $2 млрд выше прежних ожиданий. К 2030-му выручка чатбота оценивается уже в $90 млрд. Общая выручка компании к концу десятилетия должна достичь $200 млрд. Главная ставка — монетизация бесплатной аудитории через подписки и рекламу: ожидается около $110 млрд допдохода за 2026–2030 годы. При этом OpenAI планирует увеличить средний доход на пользователя с $2 до $15 и довести число еженедельных активных пользователей до 2 млрд.Чем больше OpenAI тратит, тем выше поднимает планку выручки. Но первые реальные прибыли компания ожидает только ближе к 2029–2030 годам 💻 Data Science
В первой части книги внимание уделяется ключевым аспектам работы с агентами, таким как цепочка команд, маршрутизация и параллелизация — все это с реальными примерами кода. Важно подчеркнуть, что каждый из разделов направлен на то, чтобы разработчики могли не только понять теорию, но и интегрировать эти методы в свои проекты. Вторая часть книги посвящена памяти и адаптивности, а также ключевым протоколам взаимодействия между агентами. В процессе изучения материалов разработчики смогут научиться строить модели, которые способны не только решать поставленные задачи, но и улучшать свою работу на основе предыдущего опыта. Также стоит отметить, что книга включает в себя полезные приложения: от углубленных техник подсказок до подробного описания внутреннего устройства агентов, что позволит читателям получить полное представление о создании эффективных и безопасных интеллектуальных систем.Что вы думаете о применении таких систем в реальных проектах? 👍 — Могут изменить подход к разработке 👎 — Технология ещё не готова Data Science
Теперь с появлением рабочих моделей кода всё проще. Мы описываем задачу на человеческом языке, добавляем тесты — и получаем небольшой модуль без лишнего «жира». Такой кусочек кода легко читать, менять и проверять. Где ИИ уже заменяет OSS — Индикаторы и статистика: EMA, RSI, Z-score, корреляции окон — Узкие клиенты для работы с API биржи — Скелеты бэктестов или пайплайнов — Адаптеры и конвертеры форматов Где границы? ИИ отлично справляется с утилитарными задачами. Но криптография, протоколы с жёсткими SLA, движки БД и численные солверы остаются в зоне зрелого OSS — там нужна предсказуемость и годами проверенные решения.ИИ не «убивает» open source, а просто сдвигает баланс. Узкие задачи проще генерировать под себя, а всё сложное и критичное — оставлять за проверенными библиотеками. Чем меньше зависимостей — тем ниже риски и проще поддержка 🍑 Сейчас все уже массово доверяют свой код ии. Норма или ещё рано? Data Science
— Почему tRPC: вместо REST или GraphQL используется TypeScript-first RPC-фреймворк. Он позволяет описывать API без схем, прямо функциями, а типы автоматически «протягиваются» на фронтенд. Итог — меньше бойлерплейта и меньше багов на ранних этапах. — Как работает пайплайн: резюме и вакансия загружаются в сервис, оттуда извлекается текст, ключевые слова выделяются с помощью простых NLP-приёмов (токенизация, поиск существительных и заглавных слов), а дальше результат прогоняется через Gemini, который возвращает JSON с оценкой совпадения, сильными сторонами и рекомендациями. Идея проста: зачем писать свой алгоритм сопоставления навыков, если можно отдать работу модели? Такой подход ускоряет прототипирование и отлично подходит для внутренних инструментов или быстрых демо.В итоге получился рабочий инструмент, который не претендует на замену LinkedIn, но отлично показывает, как современные фреймворки и ИИ можно объединять в боевую связку 🍆 Data Science
Как это работает? ИИ быстро перебирает миллионы молекул, отбраковывает заведомо слабые варианты и подсказывает, какие стоит тестировать дальше. В ход идут базы знаний, данные экспериментов и измерений. Параллельно NAM заменяют часть классических испытаний: «органы-на-чипе», культуры клеток, цифровые модели. Результаты ближе к реальности, а количество опытов на животных уменьшается. Пример: компания Recursion вывела молекулу REC-1245 на клинические испытания всего за 18 месяцев вместо привычных 42. Предполагается, что препарат будет тормозить рост некоторых раковых опухолей. Что это значит? ИИ не отменяет долгих клинических фаз — пока на рынке нет ни одного реально одобренного «ИИ-препарата». Но сам процесс становится быстрее, прозрачнее и дешевле. Если прогнозы сбудутся, фармацевтика в ближайшие годы войдёт в новую эпоху.А вы как думаете? 👍 — ИИ реально ускорит появление новых лекарств 👎 — В итоге всё упрётся в бюрократию и испытания Data Science
Как работает DeepConf? Вместо того чтобы одинаково рассматривать все возможные варианты решения (включая ошибочные), DeepConf анализирует уровень «уверенности» самой модели. Если вероятность правильного ответа падает ниже порога — такой путь просто отсекается. В итоге остаются только сильные кандидаты, среди которых проходит «взвешенное голосование». Экономия ресурсов и рост точности. DeepConf умеет работать в двух режимах: offline (после генерации) и online (на лету). Второй вариант особенно полезен — слабые цепочки обрубаются ещё до конца рассуждений. Это не только ускоряет процесс, но и экономит вычислительные мощности. В тестах метод показал впечатляющий результат: 99,9% точности на AIME 2025 при сокращении числа токенов почти на 85%.Почему это важно? С ростом числа больших моделей нагрузка на инфраструктуру становится критичной. DeepConf показывает, что можно не просто обучать ИИ на всё больших объёмах данных, а учить его мыслить рациональнее, сокращая лишние шаги и снижая цену вычислений 🍑 *Meta признана экстремистской организацией и запрещена на территории РФ Data Science
Где ИИ реально помогает. Современные LLM могут быть не просто «генераторами кода», а инструментами для восстановления концепций, которые когда-то закладывали архитекторы. Это снимает боль с ключевых этапов: • Трассировка кода — автоматический обход AST и выделение связей, которые определяют функциональность • Сбор контекста БД — привязка SQL-запросов к конкретным модулям кода • Визуализации (PlantUML) — превращение кода в диаграммы, понятные не только инженерам • Автоматизация BRD — модели составляют бизнес-требования на основе исходного кода и базы Возьмём e-commerce: розница работает, потом добавили опт, но всё осталось на старой архитектуре. В итоге новая логика строится поверх старых правил. Это и есть концептуальный дрейф. LLM помогают не только его обнаружить, но и предложить варианты архитектурных решений, уменьшая риски при переписывании.ИИ пока не заменяет экспертов, но делает процесс модернизации быстрее, прозрачнее и предсказуемее. Вместо бесконечного копания в коде инженеры получают структурированный контекст и готовые подсказки 😮💨 А как вы считаете: 👍 — ИИ уже стал must-have в модернизации 👎 — Без людей ничего не выйдет 🤔 — Зависит от сложности проекта Data Science
import dask.dataframe as dd
# Загружаем огромный CSV как будто это Pandas
df = dd.read_csv("data.csv")
# Считаем топ-10 самых популярных значений в колонке
top10 = df["category"].value_counts().compute()
print(top10)
🤔 Разбираемся:
• dask под капотом разбивает файл на маленькие части • Вы работаете с DataFrame так же, как в Pandas • compute() запускает реальный расчёт, но только когда нужноМожно анализировать файлы в десятки гигабайт на обычном ноутбуке, без кластеров и суперкомпов. Data Science
Что умеет UDTF? У вас есть текстовое поле, и вы хотите превратить каждое слово в отдельную строку. С UDF так не получится, он вернёт только одно значение. А UDTF легко «разворачивает» данные: одна входная строка превращается в десятки выходных. Таким образом можно: • Разбивать текст на слова, списки на элементы • Рраспаковывать коллекции или делать cartesian-развёртки • Получать более гибкие трансформации без громоздкого кода Как это выглядит? UDTF оформляется как Python-класс с методом eval, где можно yield-ить столько строк, сколько нужно. Например, разбиение строки на слова превращается в лаконичный цикл for word in text.split(): yield (word,). Результат в Spark будет выглядеть как таблица, где каждое слово — отдельная строка. Другой пример — генерация чисел и их квадратов. Обычный цикл for num in range(start, end): yield (num, num*num) вернёт сразу множество строк. Всё прозрачно: одна запись на входе — много записей на выходе. Зачем это в продакшене? Главное преимущество UDTF — гибкость. В задачах анализа данных часто нужно «развернуть» структуру: например, массив тегов превратить в таблицу или подсчитать все комбинации значений. Раньше такие приёмы были неудобными, теперь они встроены в PySpark.UDTF — это 20% кода и 80% удобства. Теперь можно писать генераторы как в Python и получать готовые таблицы в Spark 💳 Data Science
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
