Data Science | Machinelearning [ru]

前往频道在 Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

显示更多

网络:Frontender's notes [ru]俄罗斯33 730 技术与应用6 734...

📈 Telegram 频道 Data Science | Machinelearning [ru] 的分析概览

频道 Data Science | Machinelearning [ru] (@devsp) 俄语语言赛道中的是活跃参与者。目前社区聚集了 20 042 名订阅者，在 技术与应用 类别中位列第 6 734，并在 俄罗斯 地区排名第 33 730 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 20 042 名订阅者。

根据 15 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -82，过去 24 小时变化为 -1，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 7.88%。内容发布后 24 小时内通常能获得 4.47% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 1 580 次浏览，首日通常累积 896 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 7。
主题关注点： 内容集中在 llm, nvidia, контекст, openai, архитектура 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

凭借高频更新（最新数据采集于 16 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

20 042

订阅者

-124 小时

+307 天

-8230 天

1 580

帖子浏览量

~ 89624 小时

~ 1 08548 小时

7.88%

参与率

~ 1

每日帖子数

Ads index

beta

帖子存档

20 042

Миграция фреймворков через AI. Где ломается наивный подход Принято считать, что миграция с одной библиотеки на другую - типичная задача для LLM. Открыл файл, попросил переписать с React на Vue, получил результат. На паре компонентов работает. На реальном проекте перестаёт работать к десятому файлу. 👉 одинаковые паттерны переписываются по-разному 👉 контекст между файлами теряется 👉 решения деградируют к пятой итерации 👉 тесты, которые зеленели, начинают падать Код выглядит мигрированным, но ведёт себя иначе. Что работает Детерминистический рефакторинг: LLM формулирует правила перехода на двух-трёх файлах, дальше OpenRewrite или ts-morph применяет их через AST. После каждого этапа компиляция и тесты. Бонусом ревью плана до применения и откатываемость. Это один из десятка приёмов, без которых AI-разработка на больших проектах разваливается. SPEC-разработка, AGENTS.md, SKILLS.md, контекст-инжиниринг, Plan Mode. Всё можно изучить в документации, собрать в систему самому - примерно год. Команда Naition научит этому за 12 недель на буткемпе с преподавателями из Google, Yandex Cloud, Сбера и других компаний. Формат: живые онлайн-встреч: 30 минут теории, час разбора кейса, полтора часа практики на своём коде. За 14 уроков вы научитесь: • Настраивать ИИ-окружение — RAG-системы, MCP, SPEC-разработка, агенты и контекст под свой стек. • Создавать фичи в разы быстрее, используя ИИ в каждом этапе — от планирования до внедрения. • Управлять полноценной командой ИИ-агентов — ваш продукт 24/7 создают бекэнд / фронтэнд разработчики, системные аналитики, DevOps и другие агенты. И не только! Записаться Старт 5 мая. По промокоду FRONTENDER — скидка 20%. Бонус для участников первых когорт: 3 месяца в закрытом клубе после обучения. Записаться Команда также собрала бесплатную дорожную карту из 40+ концептов со ссылками на источники. По сути оглавление того, что сейчас составляет базовую инженерную грамотность для работы с AI. Забрать роадмеп по ссылке

20 042

Repost from xCode Journal

❌ «Никакого кода вручную — такая политика» Так говорит айтишник Disney. Дело в том, что компания Disney сделала для своих программистов «панель мониторинга внедрения ИИ» с лидербордом. Чем больше дней подряд ты используешь Cursor или Claude, тем больше у тебя ачивок. Некоторые сотрудники говорят, что чувствуют давление «максимально использовать токены». ✖️ xCode Journal

20 042

На Stepik запустили годный курс по «Troubleshooting Docker и Kubernetes: поиск и устранение проблем» В программе только важные аспекты: — troubleshooting Docker и образов — диагностика сетевых проблем — настройка readiness/liveness probes — отладка pod’ов, деплоев и ingress — анализ логов контейнеров и кластера — разбор ошибок CrashLoopBackOff, OOMKilled, ImagePullBackOff и других Собеседования на DevOps/SRE сейчас всё чаще строятся вокруг реальных инцидентов. Данный курс фокусируется именно на таких сценариях и помогает в подготовке к практическим вопросам 48 часов доступен со скидкой 25% ↗️ Пройти курс на Stepik

20 042

Repost from xCode Journal

🤣 ИИ не дурак — прям так и не написал. Просто скопировал. 💥 xCode Journal

20 042

GPU в облаке: RTX 4090, A100, H100, 6000 Blackwell Рендеринг в Blender, CAD-модели и обучение LLM — задачи разные, но упираются в одно: нужный GPU не всегда стоит на рабочей машине. Облачная аренда позволяет взять подходящую карту на час или на длительность проекта, без покупки железа. В Cloud4Y доступна линейка NVIDIA под любые задачи: - RTX 4090 и 5090 — для рендера, моушна и инференса небольших моделей; - A100 (40/80 GB) и H100 (80 GB) — для обучения и инференса LLM; - RTX 6000 Blackwell — для нагрузок следующего поколения. CUDA, PyTorch и TensorFlow уже стоят, удалённый доступ — через RDP, Parsec, NICE DCV. ЦОД уровня Tier III в Москве, Стамбуле и Новосибирске, почасовой биллинг в рублях, инфраструктура соответствует ФЗ-152. Новым клиентам — скидка 20% на GPU NVIDIA, 30 дней бесплатного доступа юридическим лицам. Попробовать #реклама 16+ cloud4y.ru О рекламодателе

20 042

Repost from xCode Journal

🐱 GitHub покидают разрабы и опенсорс проекты Разработчик Митчелл Хашимото, создатель популярного эмулятора терминала Ghostty, переносит проект из-за проблем со стабильностью платформы.

«Я пользователь GitHub под номером 1299, присоединился в феврале 2008 года. Я заходил на GitHub почти каждый день в течение более 18 лет. Для меня никогда не было вопроса, куда размещать свои проекты: всегда GitHub. Мне очень грустно это говорить, но пришло время уходить», — пишет он.

✖️ xCode Journal

20 042

⚡️Я долго собирал IT-каналы вручную. Добавлял, удалял, снова искал. В итоге понял одно: проблема не в каналах. Проблема в том, что хорошие раскиданы, а плохие занимают место. Сделал IT Base - папку где только то, что реально читаю сам. Разработка, продукт, стартапы, tech-карьера. Одно касание и ты внутри. 👉🏻 Забирай

20 042

Random Forest vs Gradient Boosting — реальное сравнение Самый частый вопрос в табличных данных: что выбрать — Random Forest или Gradient Boosting?

Ответ, который никто не любит: зависит от задачи.

Но давай разберёмся по-честному, без мифов. Что такое Random Forest Это ансамбль деревьев, где: 👉 каждое дерево обучается независимо 👉 используются случайные подвыборки данных и фич

Идея: уменьшить variance за счёт усреднения.

Что такое Gradient Boosting Это ансамбль деревьев, где: 👉 каждое следующее дерево исправляет ошибки предыдущего 👉 обучение идёт последовательно

Идея: минимизировать ошибку шаг за шагом.

Главное отличие 👉 Random Forest → деревья независимы 👉 Gradient Boosting → деревья зависят друг от друга 👉 RF = параллель 👉 GB = последовательность Качество модели В большинстве задач: 👉 Gradient Boosting выигрывает Почему: 👉 лучше улавливает сложные зависимости 👉 оптимизирует ошибку напрямую Поэтому: 👉 XGBoost 👉 LightGBM 👉 CatBoost

Стали стандартом индустрии.

Переобучение Random Forest: 👉 устойчив к переобучению 👉 работает «из коробки» Gradient Boosting: 👉 легко переобучается 👉 требует настройки

GB мощнее, но опаснее.

Скорость Обучение: 👉 RF → быстрее и параллелится 👉 GB → медленнее (последовательность) Инференс: 👉 часто сопоставим Чувствительность к данным Random Forest: 👉 менее чувствителен к шуму 👉 проще в использовании Gradient Boosting: 👉 чувствителен к: 👉 шуму 👉 выбросам 👉 плохим фичам

Зато раскрывает хороший feature engineering.

Когда выбирать Random Forest 👉 нужен быстрый baseline 👉 мало времени на тюнинг 👉 данные шумные 👉 нужна стабильность

«Запустил и работает».

Когда выбирать Gradient Boosting 👉 нужна максимальная точность 👉 есть время на тюнинг 👉 данные относительно чистые 👉 важен результат

«Выжать максимум».

Главный инсайт

Random Forest — надёжный середняк. Gradient Boosting — инструмент для победы.

В одном предложении

Хочешь быстро и стабильно → Random Forest. Хочешь максимум качества → Gradient Boosting.

20 042

Станьте специалистом по Data Science высокого уровня на программе от ФКН НИУ ВШЭ Хотите не просто теоретически разбираться в устройстве нейросетях, а и уметь создавать их самостоятельно? Центр непрерывного образования ФКН НИУ ВШЭ запускает полный цикл обучения: от нуля до профессионального уровня. Профессиональная переподготовка «Специалист по Data Science»: 🟣Первая программа профессиональной переподготовки, получившая аккредитацию Альянса в сфере искусственного интеллекта. 🟣Вы пройдете весь путь: от высшей математики и программирования до нейросетей и работы с большими данными. Программа включает курсы по ключевым дисциплинам: 🟣Математика для анализа данных 🟣Алгоритмы и структуры данных 🟣Python для автоматизации 🟣Прикладная статистика для машинного обучения 🟣Машинное и глубинное обучение По окончании обучения вы получите диплом о профессиональной переподготовке от НИУ ВШЭ. Старт: 19 мая. Подробнее о программе 📍

20 042

Repost from xCode Journal

😁 Они просто обеспечивают себе рабочие места 💥 xCode Journal

20 042

🤔Как создать автономного ИИ-агента для анализа трендов и поиска точек роста? 📅6 мая в 20:00 приглашаем на открытый вебинар курса «Разработка ИИ-агентов» с Артёмом Ревой. На занятии разберём, как с помощью LangGraph выстраивать сценарий работы агента с несколькими этапами анализа, подключать протокол взаимодействия моделей (MCP) в среде разработки Cursor и расширять возможности интеллектуального помощника. Покажем, как собрать агента для работы с Google Trends: находить аномалии, сравнивать запросы и выявлять перспективные темы. Вы узнаете, как превращать сырые данные в понятные рекомендации и использовать их для выбора направлений с высоким потенциалом роста. 💡Участие бесплатное — регистрируйтесь: https://vk.cc/cXdK5S Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru, erid: 2VtzqvE1tfh

20 042

Repost from xCode Journal

👀 Нашли быстрый единый вход во все LLM сразу — GoModel Этот сервис на Go даёт OpenAI-совместимый API поверх всего зоопарка: от OpenAI и Claude до Groq и Ollama. По сути это уже API-шлюз для LLM, как nginx когда-то для веба. Главный кайф — двухслойный кэш ✖️ xCode Journal

20 042

Большие данные требуют порядка, а платформа — инструментов, которые этот порядок поддерживают. Такой вывод можно сделать после митапа YTsaurus, посвященного трехлетию выхода платформы в опенсорс. Максим Бабенко — руководитель команды, преподаватель ШАДа и ВШЭ, кандидат физико-математических наук — рассказал о развитии платформы и её возможностях для ML. В Яндексе YTsaurus активно используется как основная инфраструктура для запуска GPU-вычислений. Все обучение моделей и batch-инференс делается при помощи YTsaurus. Команда активно развивает платформу, появились разные вспомогательные инструменты и микросервисы, за последний год вышло много обновлений.

20 042

Repost from xCode Journal

🤩 Claude Code можно юзать бесплатно На GitHub появился прокси, который подменяет API и гоняет запросы через бесплатные или локальные модели. Запросы перенаправляются к NVIDIA NIM (~40 запросов в минуту бесплатно), OpenRouter, где более 100 моделей, а также через LM Studio или llama.cpp. Весь остальной функционал на месте — агентский режим, работа с файлами и другие фичи будут доступны. ✖️ xCode Journal

20 042

Роскошный максимум: получить приглашение в команду SberAds за один день! 😉 Сделать это можно на One Day Offer* для Data Analyst**, который пройдёт уже 25 апреля. Сбер ждёт специалистов, которые готовы: ✔️ создавать и улучшать модели для real-time аукционов ✔️ трансформировать SberAds — вывести на пик эффективности, качества и релевантности рекламы ✔️ стать частью команды из 8000+ коллег (это вау! 🤩) Занимай место в проекте мечты! * One Day Offer — предложение о работе за один день. ** Data Analyst — аналитик данных.

20 042

Repost from xCode Journal

😁 Даёшь опенсорс 💥 xCode Journal

20 042

На бесплатном вебинаре курса: • Разберём, как устроено отслеживание в промышленности, как связаны алгоритмы компьютерного зрения, геометрия сцены и ограничения реального времени на роботах. • Покажем проблемы в реальных условиях: движение камеры, смаз, смена масштаба, задержки. Обсудим связь зрения, геометрии камеры и механики подвеса. Для кого: Специалисты по компьютерному зрению с опытом 1–3 года, Python-разработчики с базой в нейросетях, а также те, кто изучал CV самостоятельно и хочет понять прикладные задачи. Результаты: — Поймёте, как проектируется система отслеживания человека на подвижной камере в реальном времени. — Узнаете ограничения при работе с видео на роботах и мобильных платформах. — Сможете применять подход в видеоаналитике, робототехнике и умных камерах. Спикер: Анастасия Капралова, генеральный директор kapralov ai, 8+ лет в ИИ-разработке Регистрируйтесь сейчас — напомним накануне: регистрация Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 042

Data Leakage: как незаметно сломать модель Самая коварная ошибка в ML — это не плохая модель. Это data leakage. Потому что: 👉 модель показывает идеальные метрики 👉 ты радуешься 👉 выкатываешь в прод 👉 всё разваливается

И ты не понимаешь почему.

Что такое Data Leakage Data leakage — это ситуация, когда модель получает доступ к информации из будущего или из target’а, которой не будет в реальном использовании.

Модель читерит, а не учится.

Почему это так опасно Потому что leakage: 👉 не очевиден 👉 не даёт ошибок 👉 сильно улучшает метрики

Чем лучше скор — тем подозрительнее.

Классические примеры leakage 1. Нормализация до split Сделали scaling на всём датасете, а потом разбили на train/test.

Модель уже «видела» test.

2. Target encoding на всех данных Посчитали средний target по категории используя весь датасет.

В train попала информация из test.

3. Фичи из будущего Пример: 👉 предсказываем отток 👉 используем действия после момента предсказания

Модель знает будущее.

4. Дубликаты Один и тот же объект: 👉 в train 👉 и в test

Модель просто запоминает.

5. Неправильный split Временные ряды: 👉 случайный split

Модель обучается на будущем.

Как понять, что у тебя leakage Сигналы: 👉 слишком высокий score 👉 огромный разрыв между offline и продом 👉 модель «слишком уверена» 👉 странно важные фичи

Если выглядит слишком хорошо — скорее всего, так и есть.

Как защититься 1. Делай split до любых преобразований Сначала: 👉 train / test Потом: 👉 scaling 👉 encoding 👉 feature engineering 2. Следи за временем 👉 train = прошлое 👉 test = будущее 3. Используй pipeline Все трансформации: 👉 обучаются только на train 👉 применяются к test 4. Проверяй фичи Задай вопрос:

Эта информация доступна в момент предсказания?

Если нет — удаляй. 5. Делай sanity check 👉 обучись на случайных данных 👉 убери подозрительные фичи

Если качество не падает — что-то не так.

Главный инсайт

Data leakage — это не баг. Это иллюзия качества.

В одном предложении

Если модель слишком хороша — сначала проверь leakage, а потом радуйся.

20 042

Ваша команда аналитики тонет в авралах? Задачи копятся, данным не доверяют, аналитики заняты ручными выгрузками вместо реальной аналитики — знакомо? 22 апреля в 19:00 МСК приходите на живой практикум «Порядок в данных» от Павла Беляева, тимлида дата-аналитики в Яндекс.eLama. За 1 вечер разберём: — Как выстроить спринт-планирование и расставить приоритеты без конфликтов; — Как внедрить мониторинг качества данных и регламент обработки инцидентов; — Как автоматизировать рутину через Python + Airflow; — Как освободить аналитиков от бесконечных разовых выгрузок. Это работающая система от практика, который управляет командой аналитики в одной из крупнейших рекламных платформ страны. 🎁 Бонус для каждого участника: гайд «15 промптов для работы аналитика» Участие бесплатное, количество мест ограничено. ➡️Зарегистрироваться: https://tglink.io/1df75bbf05e794 Реклама. ООО "АЙТИ РЕЗЮМЕ". ИНН 4025460134. erid: 2W5zFFy8eVX

20 042

Как мы автоматизировали Code Review с помощью LLM ⚡️ В Авито большой поток пул-реквестов. Разработчики регулярно отвлекаются на ревью чужого кода, отчего быстрее устают. К тому же у каждого ревьюера своё представление о том, как делать правильно. Мы автоматизировали часть проверок с помощью LLM, чтобы освободить разработчиков от этой задачи. Модель анализирует код и находит максимум потенциальных ошибок, но благодаря валидации оставляет комментарии только по делу. Разработчики получают полезную обратную связь и могут сосредоточиться на основной работе. О том, как устроена система, почему выбрали селфхостинг и какие метрики отслеживаем, рассказывает Марк Каширский, DS-инженер команды LLM Авито. Прочитать подробности на Хабре