Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Показати більше📈 Аналітичний огляд Telegram-каналу Data Science | Machinelearning [ru]
Канал Data Science | Machinelearning [ru] (@devsp) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 20 058 підписників, посідаючи 6 732 місце в категорії Технології та додатки та 33 731 місце у регіоні Росія.
📊 Показники аудиторії та динаміка
З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 20 058 підписників.
За останніми даними від 12 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -35, а за останні 24 години на -4, загальне охоплення залишається високим.
- Статус верифікації: Не верифікований
- Рівень залученості (ER): Середній показник залученості аудиторії становить 7.60%. Протягом перших 24 годин після публікації контент зазвичай збирає 4.48% реакцій від загальної кількості підписників.
- Охоплення публікацій: В середньому кожен допис отримує 1 526 переглядів. Протягом першої доби публікація в середньому набирає 899 переглядів.
- Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 7.
- Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, nvidia, контекст, openai, архитектура.
📝 Опис та контентна політика
Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Завдяки високій частоті оновлень (останні дані отримано 13 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.
Как активировать режим разработчика? — Перейдите в настройки — Выберите раздел коннекторы — Включите опцию дополнительные настройки и активируйте Режим разработчика Что дает Режим разработчика? • Включать Режим разработчика для отдельных чатов через иконку «+» • В меню «Добавить источники» указать адрес вашего MCP-сервера • Настроить дополнительные параметры для подключения и взаимодействия с внешними сервисами Что такое MCP? MCP (Model Context Protocol) — это протокол, который позволяет ИИ взаимодействовать с внешними системами. Например, можно подключить ChatGPT к корпоративным базам данных или интегрировать с системами тикетов вроде Jira, если настроены соответствующие разрешения. Ранее в ChatGPT поддерживались только MCP, одобренные OpenAI. С новым режимом разработчика пользователи и разработчики смогут подключать любые MCP — но при этом важно помнить о безопасности. Подключая сторонние сервисы, вы берете на себя ответственность за безопасность данных и интеграций.Режим разработчика — это мощный инструмент, которым нужно интегрировать ИИ с различными системами и сервисами. Если вы работаете с данными или нуждаетесь в кастомных подключениях, этот режим откроет перед вами новые возможности 🐹 Data Science
Метод, получивший название Memento, использует Memory-augmented MDP — концепцию, где ИИ «вспоминает» решения из прошлого, чтобы справляться с новыми задачами. Такой подход избавляет от необходимости обновлять параметры модели, улучшая эффективность и масштабируемость. Как это работает? Memento состоит из трёх компонентов: • Планировщик, который анализирует задачу и обращается к памяти • Исполнитель, решающий подзадачи • Банк случаев, где сохраняются решения, пригодные для использования в будущем Этот метод не только решает текущие задачи, но и делает систему ИИ более гибкой и адаптивной к изменениям.Для компаний Memento открывает путь к созданию универсальных ИИ-агентов, которые постоянно учатся и развиваются без необходимости дорогого дообучения, при этом оставаясь интегрируемыми с корпоративными системами. Как вы думаете, может ли такая система полностью заменить традиционные методы обучения ИИ в бизнесе? Data Science
Сегодня мы видим, как сокращаются команды, увольняют сотрудников, и компании активно утверждают, что ИИ повысит продуктивность. Но кто будет управлять командами разработки в будущем, если исключить джунов из процесса обучения? Джуны играют ключевую роль в подготовке нового поколения инженеров, и без их участия в обучении мы рискуем потерять тех, кто впоследствии станет лидерами. Да, ИИ изменяет правила игры, но он не может заменить начальные позиции в команде, которые дают шанс развиваться и расти. Современные джуны должны научиться работать с ИИ, адаптируя его возможности под реальные задачи, а не полагаться на него как на замену человеческого труда. Для этого джунам стоит не только овладеть новыми техническими навыками, но и развивать коммуникацию и способность работать с различными стейкхолдерами. Самый важный навык на пути к успеху — это способность к обучению и адаптации в условиях изменений, а ИИ может стать отличным помощником на этом пути, если научиться правильно его использовать. Инструменты ИИ, такие как агентные IDE и автодополнение, помогают ускорить рутинные задачи, но ключевым остаётся умение понимать, где ИИ работает лучше, а где нужен человеческий подход. Джунам нужно освоить этот баланс, чтобы не только эффективно работать с ИИ, но и стать полноценными участниками команды, готовыми к лидерству в будущем.В будущем роль джуна не исчезнет, но изменится. Те, кто не боится принятия новых технологий и адаптации, смогут пройти этот путь и стать лидерами, которые не просто пишут код, но и ведут команды, разрабатывают стратегии и принимают важные решения. Что думаете? 🔥— Нет, это лишь инструмент 👎— Да, ИИ возьмёт на себя всё Data Science
Где горят деньги? По новым расчетам, в 2025 году расходы превысят $8 млрд, а уже к 2028-му достигнут $45 млрд. Для сравнения: в старом прогнозе на этот год фигурировала сумма всего $11 млрд. Львиная доля пойдет на обучение моделей ($9 млрд в 2025-м и $19 млрд в 2026-м), а также на компенсации сотрудникам акциями — их объем в прогнозе вырос на $20 млрд. А как с доходами? Только ChatGPT в 2025-м должен принести почти $10 млрд — на $2 млрд выше прежних ожиданий. К 2030-му выручка чатбота оценивается уже в $90 млрд. Общая выручка компании к концу десятилетия должна достичь $200 млрд. Главная ставка — монетизация бесплатной аудитории через подписки и рекламу: ожидается около $110 млрд допдохода за 2026–2030 годы. При этом OpenAI планирует увеличить средний доход на пользователя с $2 до $15 и довести число еженедельных активных пользователей до 2 млрд.Чем больше OpenAI тратит, тем выше поднимает планку выручки. Но первые реальные прибыли компания ожидает только ближе к 2029–2030 годам 💻 Data Science
В первой части книги внимание уделяется ключевым аспектам работы с агентами, таким как цепочка команд, маршрутизация и параллелизация — все это с реальными примерами кода. Важно подчеркнуть, что каждый из разделов направлен на то, чтобы разработчики могли не только понять теорию, но и интегрировать эти методы в свои проекты. Вторая часть книги посвящена памяти и адаптивности, а также ключевым протоколам взаимодействия между агентами. В процессе изучения материалов разработчики смогут научиться строить модели, которые способны не только решать поставленные задачи, но и улучшать свою работу на основе предыдущего опыта. Также стоит отметить, что книга включает в себя полезные приложения: от углубленных техник подсказок до подробного описания внутреннего устройства агентов, что позволит читателям получить полное представление о создании эффективных и безопасных интеллектуальных систем.Что вы думаете о применении таких систем в реальных проектах? 👍 — Могут изменить подход к разработке 👎 — Технология ещё не готова Data Science
Теперь с появлением рабочих моделей кода всё проще. Мы описываем задачу на человеческом языке, добавляем тесты — и получаем небольшой модуль без лишнего «жира». Такой кусочек кода легко читать, менять и проверять. Где ИИ уже заменяет OSS — Индикаторы и статистика: EMA, RSI, Z-score, корреляции окон — Узкие клиенты для работы с API биржи — Скелеты бэктестов или пайплайнов — Адаптеры и конвертеры форматов Где границы? ИИ отлично справляется с утилитарными задачами. Но криптография, протоколы с жёсткими SLA, движки БД и численные солверы остаются в зоне зрелого OSS — там нужна предсказуемость и годами проверенные решения.ИИ не «убивает» open source, а просто сдвигает баланс. Узкие задачи проще генерировать под себя, а всё сложное и критичное — оставлять за проверенными библиотеками. Чем меньше зависимостей — тем ниже риски и проще поддержка 🍑 Сейчас все уже массово доверяют свой код ии. Норма или ещё рано? Data Science
— Почему tRPC: вместо REST или GraphQL используется TypeScript-first RPC-фреймворк. Он позволяет описывать API без схем, прямо функциями, а типы автоматически «протягиваются» на фронтенд. Итог — меньше бойлерплейта и меньше багов на ранних этапах. — Как работает пайплайн: резюме и вакансия загружаются в сервис, оттуда извлекается текст, ключевые слова выделяются с помощью простых NLP-приёмов (токенизация, поиск существительных и заглавных слов), а дальше результат прогоняется через Gemini, который возвращает JSON с оценкой совпадения, сильными сторонами и рекомендациями. Идея проста: зачем писать свой алгоритм сопоставления навыков, если можно отдать работу модели? Такой подход ускоряет прототипирование и отлично подходит для внутренних инструментов или быстрых демо.В итоге получился рабочий инструмент, который не претендует на замену LinkedIn, но отлично показывает, как современные фреймворки и ИИ можно объединять в боевую связку 🍆 Data Science
Как это работает? ИИ быстро перебирает миллионы молекул, отбраковывает заведомо слабые варианты и подсказывает, какие стоит тестировать дальше. В ход идут базы знаний, данные экспериментов и измерений. Параллельно NAM заменяют часть классических испытаний: «органы-на-чипе», культуры клеток, цифровые модели. Результаты ближе к реальности, а количество опытов на животных уменьшается. Пример: компания Recursion вывела молекулу REC-1245 на клинические испытания всего за 18 месяцев вместо привычных 42. Предполагается, что препарат будет тормозить рост некоторых раковых опухолей. Что это значит? ИИ не отменяет долгих клинических фаз — пока на рынке нет ни одного реально одобренного «ИИ-препарата». Но сам процесс становится быстрее, прозрачнее и дешевле. Если прогнозы сбудутся, фармацевтика в ближайшие годы войдёт в новую эпоху.А вы как думаете? 👍 — ИИ реально ускорит появление новых лекарств 👎 — В итоге всё упрётся в бюрократию и испытания Data Science
Как работает DeepConf? Вместо того чтобы одинаково рассматривать все возможные варианты решения (включая ошибочные), DeepConf анализирует уровень «уверенности» самой модели. Если вероятность правильного ответа падает ниже порога — такой путь просто отсекается. В итоге остаются только сильные кандидаты, среди которых проходит «взвешенное голосование». Экономия ресурсов и рост точности. DeepConf умеет работать в двух режимах: offline (после генерации) и online (на лету). Второй вариант особенно полезен — слабые цепочки обрубаются ещё до конца рассуждений. Это не только ускоряет процесс, но и экономит вычислительные мощности. В тестах метод показал впечатляющий результат: 99,9% точности на AIME 2025 при сокращении числа токенов почти на 85%.Почему это важно? С ростом числа больших моделей нагрузка на инфраструктуру становится критичной. DeepConf показывает, что можно не просто обучать ИИ на всё больших объёмах данных, а учить его мыслить рациональнее, сокращая лишние шаги и снижая цену вычислений 🍑 *Meta признана экстремистской организацией и запрещена на территории РФ Data Science
Где ИИ реально помогает. Современные LLM могут быть не просто «генераторами кода», а инструментами для восстановления концепций, которые когда-то закладывали архитекторы. Это снимает боль с ключевых этапов: • Трассировка кода — автоматический обход AST и выделение связей, которые определяют функциональность • Сбор контекста БД — привязка SQL-запросов к конкретным модулям кода • Визуализации (PlantUML) — превращение кода в диаграммы, понятные не только инженерам • Автоматизация BRD — модели составляют бизнес-требования на основе исходного кода и базы Возьмём e-commerce: розница работает, потом добавили опт, но всё осталось на старой архитектуре. В итоге новая логика строится поверх старых правил. Это и есть концептуальный дрейф. LLM помогают не только его обнаружить, но и предложить варианты архитектурных решений, уменьшая риски при переписывании.ИИ пока не заменяет экспертов, но делает процесс модернизации быстрее, прозрачнее и предсказуемее. Вместо бесконечного копания в коде инженеры получают структурированный контекст и готовые подсказки 😮💨 А как вы считаете: 👍 — ИИ уже стал must-have в модернизации 👎 — Без людей ничего не выйдет 🤔 — Зависит от сложности проекта Data Science
import dask.dataframe as dd
# Загружаем огромный CSV как будто это Pandas
df = dd.read_csv("data.csv")
# Считаем топ-10 самых популярных значений в колонке
top10 = df["category"].value_counts().compute()
print(top10)
🤔 Разбираемся:
• dask под капотом разбивает файл на маленькие части • Вы работаете с DataFrame так же, как в Pandas • compute() запускает реальный расчёт, но только когда нужноМожно анализировать файлы в десятки гигабайт на обычном ноутбуке, без кластеров и суперкомпов. Data Science
Что умеет UDTF? У вас есть текстовое поле, и вы хотите превратить каждое слово в отдельную строку. С UDF так не получится, он вернёт только одно значение. А UDTF легко «разворачивает» данные: одна входная строка превращается в десятки выходных. Таким образом можно: • Разбивать текст на слова, списки на элементы • Рраспаковывать коллекции или делать cartesian-развёртки • Получать более гибкие трансформации без громоздкого кода Как это выглядит? UDTF оформляется как Python-класс с методом eval, где можно yield-ить столько строк, сколько нужно. Например, разбиение строки на слова превращается в лаконичный цикл for word in text.split(): yield (word,). Результат в Spark будет выглядеть как таблица, где каждое слово — отдельная строка. Другой пример — генерация чисел и их квадратов. Обычный цикл for num in range(start, end): yield (num, num*num) вернёт сразу множество строк. Всё прозрачно: одна запись на входе — много записей на выходе. Зачем это в продакшене? Главное преимущество UDTF — гибкость. В задачах анализа данных часто нужно «развернуть» структуру: например, массив тегов превратить в таблицу или подсчитать все комбинации значений. Раньше такие приёмы были неудобными, теперь они встроены в PySpark.UDTF — это 20% кода и 80% удобства. Теперь можно писать генераторы как в Python и получать готовые таблицы в Spark 💳 Data Science
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
