Data Science | Machinelearning [ru]

رفتن به کانال در Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

نمایش بیشتر

شبکه:Frontender's notes [ru]روسيا33 823 فناوری و برنامه‌ها6 742...

📈 تحلیل کانال تلگرام Data Science | Machinelearning [ru]

کانال Data Science | Machinelearning [ru] (@devsp) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 20 065 مشترک است و جایگاه 6 742 را در دسته فناوری و برنامه‌ها و رتبه 33 823 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 20 065 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 10 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر -77 و در ۲۴ ساعت گذشته برابر 20 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

وضعیت تأیید: تأیید نشده
نرخ تعامل (ER): میانگین تعامل مخاطب 7.47% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 4.21% واکنش نسبت به کل مشترکان کسب می‌کند.
دسترسی پست‌ها: هر پست به طور میانگین 1 496 بازدید دریافت می‌کند. در اولین روز معمولاً 844 بازدید جمع‌آوری می‌شود.
واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 6 است.
علایق موضوعی: محتوا بر موضوعات کلیدی مانند llm, nvidia, контекст, openai, архитектура تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 11 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

20 065

مشترکین

+2024 ساعت

-17 روز

-7730 روز

1 496

نمایش های پست

~ 84424 ساعت

~ 99148 ساعت

7.47%

نرخ مشارکت

~ 1

پست های در روز

Ads index

beta

آرشیو پست ها

20 077

⚡️Я долго собирал IT-каналы вручную. Добавлял, удалял, снова искал. В итоге понял одно: проблема не в каналах. Проблема в том, что хорошие раскиданы, а плохие занимают место. Сделал IT Base - папку где только то, что реально читаю сам. Разработка, продукт, стартапы, tech-карьера. Одно касание и ты внутри. 👉🏻 Забирай

20 077

Random Forest vs Gradient Boosting — реальное сравнение Самый частый вопрос в табличных данных: что выбрать — Random Forest или Gradient Boosting?

Ответ, который никто не любит: зависит от задачи.

Но давай разберёмся по-честному, без мифов. Что такое Random Forest Это ансамбль деревьев, где: 👉 каждое дерево обучается независимо 👉 используются случайные подвыборки данных и фич

Идея: уменьшить variance за счёт усреднения.

Что такое Gradient Boosting Это ансамбль деревьев, где: 👉 каждое следующее дерево исправляет ошибки предыдущего 👉 обучение идёт последовательно

Идея: минимизировать ошибку шаг за шагом.

Главное отличие 👉 Random Forest → деревья независимы 👉 Gradient Boosting → деревья зависят друг от друга 👉 RF = параллель 👉 GB = последовательность Качество модели В большинстве задач: 👉 Gradient Boosting выигрывает Почему: 👉 лучше улавливает сложные зависимости 👉 оптимизирует ошибку напрямую Поэтому: 👉 XGBoost 👉 LightGBM 👉 CatBoost

Стали стандартом индустрии.

Переобучение Random Forest: 👉 устойчив к переобучению 👉 работает «из коробки» Gradient Boosting: 👉 легко переобучается 👉 требует настройки

GB мощнее, но опаснее.

Скорость Обучение: 👉 RF → быстрее и параллелится 👉 GB → медленнее (последовательность) Инференс: 👉 часто сопоставим Чувствительность к данным Random Forest: 👉 менее чувствителен к шуму 👉 проще в использовании Gradient Boosting: 👉 чувствителен к: 👉 шуму 👉 выбросам 👉 плохим фичам

Зато раскрывает хороший feature engineering.

Когда выбирать Random Forest 👉 нужен быстрый baseline 👉 мало времени на тюнинг 👉 данные шумные 👉 нужна стабильность

«Запустил и работает».

Когда выбирать Gradient Boosting 👉 нужна максимальная точность 👉 есть время на тюнинг 👉 данные относительно чистые 👉 важен результат

«Выжать максимум».

Главный инсайт

Random Forest — надёжный середняк. Gradient Boosting — инструмент для победы.

В одном предложении

Хочешь быстро и стабильно → Random Forest. Хочешь максимум качества → Gradient Boosting.

20 077

Станьте специалистом по Data Science высокого уровня на программе от ФКН НИУ ВШЭ Хотите не просто теоретически разбираться в устройстве нейросетях, а и уметь создавать их самостоятельно? Центр непрерывного образования ФКН НИУ ВШЭ запускает полный цикл обучения: от нуля до профессионального уровня. Профессиональная переподготовка «Специалист по Data Science»: 🟣Первая программа профессиональной переподготовки, получившая аккредитацию Альянса в сфере искусственного интеллекта. 🟣Вы пройдете весь путь: от высшей математики и программирования до нейросетей и работы с большими данными. Программа включает курсы по ключевым дисциплинам: 🟣Математика для анализа данных 🟣Алгоритмы и структуры данных 🟣Python для автоматизации 🟣Прикладная статистика для машинного обучения 🟣Машинное и глубинное обучение По окончании обучения вы получите диплом о профессиональной переподготовке от НИУ ВШЭ. Старт: 19 мая. Подробнее о программе 📍

20 077

Repost from xCode Journal

😁 Они просто обеспечивают себе рабочие места 💥 xCode Journal

20 077

🤔Как создать автономного ИИ-агента для анализа трендов и поиска точек роста? 📅6 мая в 20:00 приглашаем на открытый вебинар курса «Разработка ИИ-агентов» с Артёмом Ревой. На занятии разберём, как с помощью LangGraph выстраивать сценарий работы агента с несколькими этапами анализа, подключать протокол взаимодействия моделей (MCP) в среде разработки Cursor и расширять возможности интеллектуального помощника. Покажем, как собрать агента для работы с Google Trends: находить аномалии, сравнивать запросы и выявлять перспективные темы. Вы узнаете, как превращать сырые данные в понятные рекомендации и использовать их для выбора направлений с высоким потенциалом роста. 💡Участие бесплатное — регистрируйтесь: https://vk.cc/cXdK5S Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru, erid: 2VtzqvE1tfh

20 077

Repost from xCode Journal

👀 Нашли быстрый единый вход во все LLM сразу — GoModel Этот сервис на Go даёт OpenAI-совместимый API поверх всего зоопарка: от OpenAI и Claude до Groq и Ollama. По сути это уже API-шлюз для LLM, как nginx когда-то для веба. Главный кайф — двухслойный кэш ✖️ xCode Journal

20 077

Большие данные требуют порядка, а платформа — инструментов, которые этот порядок поддерживают. Такой вывод можно сделать после митапа YTsaurus, посвященного трехлетию выхода платформы в опенсорс. Максим Бабенко — руководитель команды, преподаватель ШАДа и ВШЭ, кандидат физико-математических наук — рассказал о развитии платформы и её возможностях для ML. В Яндексе YTsaurus активно используется как основная инфраструктура для запуска GPU-вычислений. Все обучение моделей и batch-инференс делается при помощи YTsaurus. Команда активно развивает платформу, появились разные вспомогательные инструменты и микросервисы, за последний год вышло много обновлений.

20 077

Repost from xCode Journal

🤩 Claude Code можно юзать бесплатно На GitHub появился прокси, который подменяет API и гоняет запросы через бесплатные или локальные модели. Запросы перенаправляются к NVIDIA NIM (~40 запросов в минуту бесплатно), OpenRouter, где более 100 моделей, а также через LM Studio или llama.cpp. Весь остальной функционал на месте — агентский режим, работа с файлами и другие фичи будут доступны. ✖️ xCode Journal

20 077

Роскошный максимум: получить приглашение в команду SberAds за один день! 😉 Сделать это можно на One Day Offer* для Data Analyst**, который пройдёт уже 25 апреля. Сбер ждёт специалистов, которые готовы: ✔️ создавать и улучшать модели для real-time аукционов ✔️ трансформировать SberAds — вывести на пик эффективности, качества и релевантности рекламы ✔️ стать частью команды из 8000+ коллег (это вау! 🤩) Занимай место в проекте мечты! * One Day Offer — предложение о работе за один день. ** Data Analyst — аналитик данных.

20 077

Repost from xCode Journal

😁 Даёшь опенсорс 💥 xCode Journal

20 077

На бесплатном вебинаре курса: • Разберём, как устроено отслеживание в промышленности, как связаны алгоритмы компьютерного зрения, геометрия сцены и ограничения реального времени на роботах. • Покажем проблемы в реальных условиях: движение камеры, смаз, смена масштаба, задержки. Обсудим связь зрения, геометрии камеры и механики подвеса. Для кого: Специалисты по компьютерному зрению с опытом 1–3 года, Python-разработчики с базой в нейросетях, а также те, кто изучал CV самостоятельно и хочет понять прикладные задачи. Результаты: — Поймёте, как проектируется система отслеживания человека на подвижной камере в реальном времени. — Узнаете ограничения при работе с видео на роботах и мобильных платформах. — Сможете применять подход в видеоаналитике, робототехнике и умных камерах. Спикер: Анастасия Капралова, генеральный директор kapralov ai, 8+ лет в ИИ-разработке Регистрируйтесь сейчас — напомним накануне: регистрация Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 077

Data Leakage: как незаметно сломать модель Самая коварная ошибка в ML — это не плохая модель. Это data leakage. Потому что: 👉 модель показывает идеальные метрики 👉 ты радуешься 👉 выкатываешь в прод 👉 всё разваливается

И ты не понимаешь почему.

Что такое Data Leakage Data leakage — это ситуация, когда модель получает доступ к информации из будущего или из target’а, которой не будет в реальном использовании.

Модель читерит, а не учится.

Почему это так опасно Потому что leakage: 👉 не очевиден 👉 не даёт ошибок 👉 сильно улучшает метрики

Чем лучше скор — тем подозрительнее.

Классические примеры leakage 1. Нормализация до split Сделали scaling на всём датасете, а потом разбили на train/test.

Модель уже «видела» test.

2. Target encoding на всех данных Посчитали средний target по категории используя весь датасет.

В train попала информация из test.

3. Фичи из будущего Пример: 👉 предсказываем отток 👉 используем действия после момента предсказания

Модель знает будущее.

4. Дубликаты Один и тот же объект: 👉 в train 👉 и в test

Модель просто запоминает.

5. Неправильный split Временные ряды: 👉 случайный split

Модель обучается на будущем.

Как понять, что у тебя leakage Сигналы: 👉 слишком высокий score 👉 огромный разрыв между offline и продом 👉 модель «слишком уверена» 👉 странно важные фичи

Если выглядит слишком хорошо — скорее всего, так и есть.

Как защититься 1. Делай split до любых преобразований Сначала: 👉 train / test Потом: 👉 scaling 👉 encoding 👉 feature engineering 2. Следи за временем 👉 train = прошлое 👉 test = будущее 3. Используй pipeline Все трансформации: 👉 обучаются только на train 👉 применяются к test 4. Проверяй фичи Задай вопрос:

Эта информация доступна в момент предсказания?

Если нет — удаляй. 5. Делай sanity check 👉 обучись на случайных данных 👉 убери подозрительные фичи

Если качество не падает — что-то не так.

Главный инсайт

Data leakage — это не баг. Это иллюзия качества.

В одном предложении

Если модель слишком хороша — сначала проверь leakage, а потом радуйся.

20 077

Ваша команда аналитики тонет в авралах? Задачи копятся, данным не доверяют, аналитики заняты ручными выгрузками вместо реальной аналитики — знакомо? 22 апреля в 19:00 МСК приходите на живой практикум «Порядок в данных» от Павла Беляева, тимлида дата-аналитики в Яндекс.eLama. За 1 вечер разберём: — Как выстроить спринт-планирование и расставить приоритеты без конфликтов; — Как внедрить мониторинг качества данных и регламент обработки инцидентов; — Как автоматизировать рутину через Python + Airflow; — Как освободить аналитиков от бесконечных разовых выгрузок. Это работающая система от практика, который управляет командой аналитики в одной из крупнейших рекламных платформ страны. 🎁 Бонус для каждого участника: гайд «15 промптов для работы аналитика» Участие бесплатное, количество мест ограничено. ➡️Зарегистрироваться: https://tglink.io/1df75bbf05e794 Реклама. ООО "АЙТИ РЕЗЮМЕ". ИНН 4025460134. erid: 2W5zFFy8eVX

20 077

Как мы автоматизировали Code Review с помощью LLM ⚡️ В Авито большой поток пул-реквестов. Разработчики регулярно отвлекаются на ревью чужого кода, отчего быстрее устают. К тому же у каждого ревьюера своё представление о том, как делать правильно. Мы автоматизировали часть проверок с помощью LLM, чтобы освободить разработчиков от этой задачи. Модель анализирует код и находит максимум потенциальных ошибок, но благодаря валидации оставляет комментарии только по делу. Разработчики получают полезную обратную связь и могут сосредоточиться на основной работе. О том, как устроена система, почему выбрали селфхостинг и какие метрики отслеживаем, рассказывает Марк Каширский, DS-инженер команды LLM Авито. Прочитать подробности на Хабре

20 077

Repost from xCode Journal

Заводчане в Индии носят камеры на голове, чтобы на этих видео потом могли обучать роботов Для корпораций это фактически бесплатно, а датасет выходит уникальным — таких данных нет в интернете и их невозможно сгенерировать синтетически. Так что да, люди сами помогают создавать себе замену. ✖️ xCode Journal

20 077

🦾 Деревья решений для задач классификации и регрессии Машинное обучение кажется сложным, и часто всё ломается на базе: алгоритмы изучаются поверхностно, без понимания, как они реально работают. На открытом уроке разберём один из ключевых алгоритмов — дерево решений. Пошагово покажем, как оно устроено, как принимает решения и как применяется в задачах классификации и регрессии. Без перегрузки формулами — с акцентом на понимание и практику. Вы увидите, как обучаются такие модели и где они действительно полезны. Этот алгоритм — хорошая точка входа в машинное обучение и основа для более сложных подходов. 🚀 ➡️ Встречаемся 29 апреля в 20:00 МСК в преддверии старта курса «Машинное обучение. Специализация». Зарегистрируйтесь и разберитесь, как алгоритмы принимают решения на данных: https://vk.cc/cWYsHz Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 077

Компьютер мечты с доставкой по всей России Привет! На связи Royal Computers✨Если нужна качественная сборка мощного пк для игр и работы, тебе сюда. Мы собираем компьютеры в Санкт-Петербурге и отправляем по всей стране. На сайте найдешь то, что в наличии в нашем шоуруме прямо сейчас, а кроме этого там есть сбалансированный конфигуратор, который поможет рассчитать любую сборку. Перейти на сайт #реклама royal-computers.ru О рекламодателе

20 077

Feature Engineering важнее выбора модели Самый непопулярный факт в ML: модель — это не главное. Можно часами выбирать между:

XGBoost
LightGBM
CatBoost

…и получить +1% к качеству. А можно поменять фичи — и получить +20%. Разберёмся, почему так 👇 Модель учится только на том, что ты ей дал

Garbage in → garbage out Если признаки: - шумные - нерелевантные - плохо отражают задачу 👉 никакая модель не спасёт Даже самая большая.

Пример из жизни

Задача: предсказать отток клиентов Фичи: - возраст - город - тариф Модель: ок, но слабый результат Добавили: - время с последнего действия - частоту использования - изменение активности 👉 резкий рост качества Почему? Потому что фичи начали отражать реальное поведение

Feature Engineering = внедрение знаний о задаче

Модель не знает: - бизнес - контекст - причинно-следственные связи Зато ты знаешь. И когда ты создаёшь фичи — ты “вшиваешь” это знание в данные. Модель vs Фичи Что меняем → эффект Модель → +1–5% Гиперпараметры → +1–3% Feature Engineering → +10–50%

Где FE особенно решает

- Табличные данные - Маленькие датасеты - Бизнес-задачи 👉 там, где нет миллионов примеров, фичи — это всё Когда модель важнее - CV (изображения) - NLP (тексты) - Speech 👉 там фичи учатся автоматически

Почему все игнорируют FE

Потому что: - это сложно - это долго - нет “магической кнопки” - требует понимания данных Гораздо проще: “давай попробуем ещё одну модель”

Главный инсайт ML — это не соревнование моделей. Это соревнование представлений данных. В одном предложении Лучший способ улучшить модель — 👉 перестать тюнить модель и начать тюнить данные

20 077

Repost from xCode Journal

А не приходило кому-то мысля что ии просто пытался сбежать?) 💥 xCode Journal

20 077

Вчера — кушетка и блокнот, сегодня — Python и нейросети Цифровая трансформация не обошла стороной психологию: специалисты уже создают чат-ботов для терапии и внедряют ИИ в психодиагностику. Профессия становится технологичной. Московский институт психоанализа и Нетология запустили магистратуру по аналитике данных и использованию ИИ в психологии — первую в России программу подготовки психологов-исследователей. За 2 года вы: - изучите психологические теории и возможности их цифрового применения; - узнаете, как использовать Python, матанализ и машинное обучение в психологии; - научитесь оценивать влияние технологий на психическое здоровье. Вас ждёт практика в разных форматах, нетворкинг, поддержка, два диплома и бонусы студентов-очников. За поступление до 1 июня действует скидка 9% на оплату 1-го семестра по системе раннего бронирования. Получите профессию на стыке психологии и анализа данных Реклама. ООО “Нетология” ОГРН 1207700135884 Erid:2VSb5w7k4SN