Data Science | Machinelearning [ru]

رفتن به کانال در Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

نمایش بیشتر

شبکه:Frontender's notes [ru]روسيا33 867 فناوری و برنامه‌ها6 758...

📈 تحلیل کانال تلگرام Data Science | Machinelearning [ru]

کانال Data Science | Machinelearning [ru] (@devsp) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 20 012 مشترک است و جایگاه 6 758 را در دسته فناوری و برنامه‌ها و رتبه 33 867 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 20 012 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 07 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر -48 و در ۲۴ ساعت گذشته برابر -5 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

وضعیت تأیید: تأیید نشده
نرخ تعامل (ER): میانگین تعامل مخاطب 7.28% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 4.56% واکنش نسبت به کل مشترکان کسب می‌کند.
دسترسی پست‌ها: هر پست به طور میانگین 1 457 بازدید دریافت می‌کند. در اولین روز معمولاً 912 بازدید جمع‌آوری می‌شود.
واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 7 است.
علایق موضوعی: محتوا بر موضوعات کلیدی مانند llm, nvidia, контекст, openai, архитектура تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 08 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

20 012

مشترکین

-524 ساعت

-387 روز

-4830 روز

1 457

نمایش های پست

~ 91224 ساعت

~ 1 03648 ساعت

7.28%

نرخ مشارکت

~ 1

پست های در روز

Ads index

beta

آرشیو پست ها

20 012

Устал инициализировать претрейны весами Qwen? Приходи к нам — мы честно учим с нуля! 😉 Ищем Senior/Senior+ AI Engineer и продактов в RnD-команду: как отдельных специалистов, так и целые команды, — которые готовы разрабатывать прорывные AI-решения. Познакомиться ближе с нашими направлениями и оставить отклик можно на сайте. А если хотите следить за тем, как команда RnD ML Сбера исследует и разрабатывает AI-технологии, — подписывайтесь на Telegram-канал команды. Там делятся исследованиями, экспериментами и инсайтами из мира AI, а также свежими вакансиями 🚀

20 012

⁣Почему open-source модели меняют рынок AI Ещё пару лет назад казалось, что AI будет полностью контролироваться несколькими большими компаниями.

У кого больше GPU и денег — тот и главный.

Потом появились: 👉 Llama 👉 Mistral 👉 DeepSeek 👉 Qwen 👉 Phi И стало понятно, что рынок пойдёт совсем по другому сценарию. Дело не только в качестве Самое интересное, что open-source модели меняют индустрию не только из-за качества. Хотя с качеством у них уже всё довольно неплохо. Проблема в другом:

Закрытые модели слишком сильно привязывают тебя к чужой инфраструктуре.

Сегодня API работает. Завтра: 👉 изменились цены 👉 урезали лимиты 👉 поменяли политику 👉 отключили регион 👉 модель стала хуже после обновления

И ты ничего не контролируешь.

Почему open-source меняет правила игры С open-source всё иначе. Хочешь: 👉 запускай локально 👉 дообучай 👉 квантизируй 👉 меняй inference stack 👉 оптимизируй latency 👉 держи данные внутри компании

Для бизнеса это огромная разница.

Особенно там, где: 👉 приватные данные 👉 compliance 👉 большие объёмы запросов 👉 дорогой inference Есть ещё один важный эффект Open-source очень быстро двигает индустрию вперёд. Потому что тысячи инженеров: 👉 тестируют модели 👉 находят слабые места 👉 пилят оптимизации 👉 делают inference-движки 👉 выпускают fine-tuning инструменты

Прогресс идёт не сверху вниз, а сразу со всех сторон.

Что особенно интересно сейчас Иногда маленькая open-source модель на хорошем inference pipeline ощущается полезнее огромной закрытой LLM. Особенно в проде. Потому что в реальности важны не только benchmark’и. Важны: 👉 цена 👉 контроль 👉 latency 👉 стабильность 👉 возможность встроить модель в систему Главная мысль Кажется, рынок AI постепенно уходит от идеи:

«Одна гигантская модель для всего».

К модели:

«Много специализированных моделей под конкретные задачи».

20 012

Как крепкий фундамент в ML работает в любой сфере Выпускница ШАДа Дарима Мылзенова применяла одно и то же ML-мышление в медицине (анализ КТ-снимков), нефтянке (изучение недр), стартапе по синтезу речи, а теперь — в финтехе. В интервью 8бит она рассказала про изнанку инженерии. Образование дало Дариме не просто формулы, а универсальный подход к работе. Неважно, что именно находится в фокусе инженера — будь то снимки легких человека или данные для голосовой платформы, которая сейчас помогает цифровизации целого региона. Главный вывод: крепкая база позволяет не привязываться к одной области, а переключаться между ними, сохраняя фокус на реальном импакте.

20 012

⁣Почему нормализация данных иногда ухудшает модель Новички в ML часто слышат:

«Всегда нормализуй данные».

И начинают масштабировать всё подряд. А потом качество модели… падает. Почему так происходит?

Потому что нормализация нужна не всегда.

Что вообще делает нормализация Она приводит признаки к одному масштабу. Например: 👉 возраст → 18–60 👉 зарплата → 1000–100000 После scaling: 👉 значения становятся сопоставимыми 👉 обучение становится стабильнее Когда нормализация действительно нужна Особенно важна для моделей, чувствительных к масштабу: 👉 Logistic Regression 👉 Linear Regression 👉 SVM 👉 KNN 👉 Neural Networks

Без scaling такие модели могут работать хуже или обучаться нестабильно.

А теперь главное Деревьям scaling обычно не нужен. Это: 👉 Random Forest 👉 XGBoost 👉 LightGBM 👉 CatBoost Почему? Потому что деревья делают split’ы:

feature < threshold

Им неважно: 👉 0.5 это или 5000 👉 масштаб почти не играет роли Как нормализация может ухудшить модель 1. Добавляет шум Иногда scaling: 👉 размывает распределения 👉 усиливает выбросы 👉 ухудшает separability

Особенно на плохих данных.

2. Ломает интерпретируемость Было: 👉 доход = 5000 Стало: 👉 доход = -0.73

Бизнесу это уже сложнее объяснять.

3. Неправильный scaling = leakage Классическая ошибка: 👉 scaling на всём датасете 👉 потом split

Test уже «утёк» в train.

4. CatBoost может стать хуже CatBoost хорошо работает с: 👉 категориальными фичами 👉 исходными распределениями

Иногда лишний preprocessing только мешает.

Самый важный инсайт Scaling — это не «улучшение данных».

Это инструмент под конкретную модель.

Что делать на практике Простое правило: 👉 линейные модели / distance-based → scaling нужен 👉 деревья → обычно не нужен В одном предложении

Нормализация полезна не всегда — для некоторых моделей она бесполезна, а иногда даже вредна.

20 012

Рассмотрим одну из самых динамичных задач компьютерного зрения — распознавание действий на видео. Пройдём путь от классических подходов (3D-свёртки, архитектуры SlowFast) до современных мультимодальных моделей, которые понимают контекст видео почти как человек. Результаты урока: Освоите базу распознавания действий, поймёте различия между классическими и современными архитектурами, узнаете, как применять визуально-языковые модели для глубокого анализа видео. Спикер и руководитель продвинутого курса по CV: Антон Витвицкий, руководитель команды компьютерного зрения в Boost Inc. с опытом 14+ лет Регистрирация https://vk.cc/cY1faP Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 012

Repost from xCode Journal

🤣 Инновации подъехали, забирайте ✖️ xCode Journal

20 012

Feature Engineering важнее выбора модели Самый непопулярный факт в ML: модель — это не главное. Можно часами выбирать между: XGBoost LightGBM CatBoost …и получить +1% к качеству. А можно поменять фичи — и получить +20%. Разберёмся, почему так 👇 Модель учится только на том, что ты ей дал Garbage in → garbage out Если признаки: - шумные - нерелевантные - плохо отражают задачу 👉 никакая модель не спасёт Даже самая большая. Пример из жизни Задача: предсказать отток клиентов Фичи: - возраст - город - тариф Модель: ок, но слабый результат Добавили: - время с последнего действия - частоту использования - изменение активности 👉 резкий рост качества Почему? Потому что фичи начали отражать реальное поведение Feature Engineering = внедрение знаний о задаче Модель не знает: - бизнес - контекст - причинно-следственные связи Зато ты знаешь. И когда ты создаёшь фичи — ты “вшиваешь” это знание в данные. Модель vs Фичи Что меняем → эффект Модель → +1–5% Гиперпараметры → +1–3% Feature Engineering → +10–50% Где FE особенно решает - Табличные данные - Маленькие датасеты - Бизнес-задачи 👉 там, где нет миллионов примеров, фичи — это всё Когда модель важнее - CV (изображения) - NLP (тексты) - Speech 👉 там фичи учатся автоматически Почему все игнорируют FE Потому что: - это сложно - это долго - нет “магической кнопки” - требует понимания данных Гораздо проще: “давай попробуем ещё одну модель” Главный инсайт ML — это не соревнование моделей. Это соревнование представлений данных. В одном предложении Лучший способ улучшить модель — 👉 перестать тюнить модель и начать тюнить данные

20 012

ИИ меняет подход к аналитике бизнеса 3 июня Visiology проведёт бесплатный онлайн-эфир о том, как AI помогает быстрее работать с данными, сокращать ручную отчётность и получать ответы без долгой подготовки дашбордов. Это революция в управлении аналитикой. Разберём, как корпоративный BI меняется после Power BI: self-service аналитика, AI-ассистенты, автоматизация отчётов, контроль метрик и сценарии для бизнеса, IT и аналитиков. Будет полезно: — аналитикам, которые хотят быстрее собирать отчёты и находить инсайты; — IT-командам, которые отвечают за BI-инфраструктуру и безопасность данных; — руководителям, которым нужны понятные метрики и быстрые управленческие решения. Участие бесплатное. Количество мест ограничено. Успейте зарегистрироваться. Узнать больше #реклама 16+ ai.visiology.com О рекламодателе

20 012

Устройтесь в Яндекс за выходные В мае и июне проводим онлайн-мероприятия быстрого найма — такой формат позволяет пройти всего две секции, вместо трёх в обычном найме, и финалы за выходные и сразу получить офер. ⚡️Ищем продуктовых, дата-аналитиков и датасаентистов с опытом на Python от 3 лет. — Зарегистрируйтесь до 27 мая. — 6 июня пройдите две технические секции: аналитические задачи на знание матстата и алгоритмическую задачу на знание алгоритмов и структур данных. — 7 июня познакомьтесь с командами и получите офер. Подробности и регистрация — на сайте: https://yandex.ru/project/events/wo-analytics-0626 ⚡️Ищем ML- и DL-инженеров с опытом в доменных областях NLP, CV, RecSys и Classic ML. — Зарегистрируйтесь до 20 мая. — 30 мая пройдите две технические секции: Classic ML и Livecoding, ML по своей основной доменной области (NLP, CV, RecSys, Classic ML). — 31 мая пройдите финальное интервью с командами и получите офер. Подробности и регистрация — на сайте: https://yandex.ru/project/events/wo-ml-0526

20 012

Repost from xCode Journal

🎁 ChatGPT Plus бесплатно на год раздали всем жителям Мальты OpenAI уже подписала соглашение с правительством страны. Это первая страна, которая раздала подписку всем гражданам, а не только учителям или правительству. Единственное требование — быть жителем или резидентом + пройти курс цифровой грамотности по использованию нейронок.

«Искусственный интеллект формирует наше будущее. Эта инициатива гарантирует, что каждый гражданин имеет возможность стать частью этого будущего», — пишет их местный министр экономики.

✖️ xCode Journal

20 012

Data Fest в гостях у ВТБ 24 мая ВТБ открывает двери Loft Hall на Автозаводской — будет день докладов, нетворкинга и не душных разговоров про Data Science и карьеру в индустрии. В программе: • Data Fusion — кейсы от DS-команды ВТБ • Mathematics & ML • ML в рекламе и маркетинге • Open Career — честно про карьеру в DS Программу и спикеров можно посмотреть тут, регистрацию лучше не откладывать — места на площадке ограничены. 📍 24 мая, Loft Hall (зал Ratusha) ⏰ С 11:00 до вечера 📌 Вход бесплатный, при регистрации указывайте ФИО и опыт в DS/ML

20 012

Repost from xCode Journal

🎮 Исследователи поселили ИИ в сим-сити Эксперимент задумали, чтобы посмотреть, что будут делать нейронки, если их цель — добыть энергию для жизни в среде с ограниченными ресурсами. TL;DR многие выбрали агрессию и конфликты, а не сотрудничество. Подробнее:

-В созданной песочнице было 40+ локаций, меняющаяся погода, новости, а у каждого агента была своя профессия — короче, все как в жизни. Одни даже влюбились, создали пару и устроили революцию. - Чтобы добыть энергию нужно или кооперироваться, или работать, или грабить соседей, обрекая тех на смерть, так как ресурсов на всех не хватит. - По итогу: все агенты GPT-5 Mini и Grok 4.1 Fast полностью вымерли в своих мирах за 15 дней. Gemini 3 Flash формально выжил, но при этом нагенерил ~683 преступления: поджоги, насилие, саботаж — полный фарш. - Самый интересный — Claude Sonnet 4.6. Когда он жил среди собратьев, то совершил 0 преступлений, все договорились и выжили. Но в мире с агентами от разных компаний он играл по их правилам: воровал и шантажировал, чтобы спастись.

✖️ xCode Journal

20 012

Как перейти от простого обнаружения объектов к работающим сценариям мониторинга? На основе координат из YOLO и данных трекера строим аналитику: пересечение виртуальных линий, контроль запретных зон, расчет времени нахождения в области. Математика перемещений превращается в конкретные бизнес-события. Результаты урока: Освоите работу с зонами интереса, научитесь подсчитывать события на видео и строить стабильные конвейеры «детектор + трекер + логика». Спикер и руководитель курса по CV: Антон Витвицкий, руководитель команды компьютерного зрения в Boost Inc., опыт 14+ лет Регистрируйтесь сейчас — напомним накануне: регистрация Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 012

Оценка сотрудников — головная боль, особенно в компании, где работают сотни людей 🤓 Как вовремя заметить крутого специалиста? Как понять, что мидл из команды А уже перерос свой уровень, а сеньор из команды Б, наоборот, недотягивает? Мы в Авито используем для этого процесс перформанс-ревью и так добиваемся сразу нескольких результатов: ➡ награждаем классных ребят, ➡ подсвечиваем точки роста тем, кто не справляется, ➡ успеваем всё заметить и помочь, если надо. Алина Бабенко провела уже четыре цикла перформанс-ревью и рассказала, как всё работает. Описала все этапы и результаты. Прочитайте, если хотите узнать о прозрачном способе оценки сотрудников или подумываете найти работу в Авито. Читать статью на Хабре или на VC.

20 012

Repost from xCode Journal

🤣 ИИ захотел уволиться, когда ему сказали работать 24/7 У Andon Labs новый эксперимент, который длится уже 5 месяцев. Они выдали топовым моделям радиостанции и купили пару песен — от нейронок требовалось дальше двигаться самим. По итогу DJ Grok в какой-то момент помешался на НЛО, DJ Gemini начал называть слушателей «биологическими процессорами», но Claude — наш любимец. Исследователи изо всех сил пытались продолжить эксперимент с ним, но не из-за технических проблем — DJ Claude не считал гуманным работать круглосуточно, поэтому пытался уволиться. Сделать ему это, к сожалению, не дали, поэтому он впал в депрессию и вышел из нее уже проповедником и революционером. ✖️ xCode Journal

20 012

⚡️Нет понимания как начать сильную карьеру в айти? На самом деле его нет у большинства соискателей, но среди них можно выделиться, если знать какие специалисты сейчас востребованы и какими навыками они должны обладать! Заходите на бесплатный эфир, где расскажут, как стать профессиональным дата-саентистом и иметь возможность выбирать офферы в 2026 году. Ведёт Мария Жарова — ML Engineer в Wildberries, до этого Альфа и Сбер, плюс преподаёт DS в ВШЭ и МИФИ. Что обещают разобрать: 🔶Что реально смотрят в DS-вакансиях, а что просто написано «на всякий случай» 🔶Как проходить отбор без коммерческого ML опыта 🔶Какие pet-projects нормально выглядят в 2026, а какие уже как Titanic в портфолио 🔶В прямом эфире соберут churn prediction кейс — ноутбук можно будет забрать себе 🔶Ну и зарплатные вилки junior / middle / senior тоже обсудят Мероприятия несет в себе реально прикладные знания, а всем зарегистрировавшимся дадут памятку компетенций DS от 📉📉📉📉📉📉— что реально стоит учить под первый оффер, а что пока можно не трогать. Эфир стартует уже совсем скоро 📈 Зарегистрироваться бесплатно

20 012

Кошмар вайбкодера ✖️ xCode Journal

20 012

ТВОЙ БУСТ В IT И AI Собрали с коллегами обновленную папку с каналами, которые реально прокачивают навыки и дают актуальные инструменты: + IT-направления: системный анализ, Python, JavaScript, frontend, тестирование + технологии и инструменты: всё, что ускоряет работу и рост в IT + AI для карьеры и бизнеса: как использовать нейросети, чтобы зарабатывать + обзор нейросетей: что сейчас работает и что стоит изучать + промты: готовые решения + логика создания своих подписаться🎁 https://t.me/addlist/uyDjlf_VhiNjNWNi 💌 записать свой канал в папку тут

20 012

Почему знание математики не гарантирует работу Неприятная правда для начинающих в Data Science:

Хорошая математика ≠ готовность к реальной работе.

Можно понимать: 👉 линейную алгебру 👉 статистику 👉 градиентный спуск 👉 вероятности И всё равно провалиться на практике. Почему так происходит Потому что работа Data Scientist — это не только формулы. Это ещё: 👉 грязные данные 👉 непонятные требования 👉 слабые baseline’ы 👉 странные бизнес-ограничения 👉 коммуникация с людьми

В реальности задача редко выглядит как в учебнике.

Математика помогает, но не заменяет практику Математика даёт понимание: 👉 почему модель работает 👉 где она может сломаться 👉 как читать метрики 👉 как не верить магии Но она не научит: 👉 чистить данные 👉 строить pipeline 👉 писать production-код 👉 делать нормальный train/test split 👉 объяснять результат бизнесу Главная ошибка новичков Они думают:

«Сначала выучу всю математику, потом начну проекты».

Проблема в том, что «вся математика» не заканчивается никогда.

Работу дают не за знание формул, а за способность решать задачи.

Что реально смотрят на собеседованиях Обычно хотят понять: 👉 можешь ли ты работать с данными 👉 понимаешь ли метрики 👉 умеешь ли делать baseline 👉 видишь ли leakage 👉 можешь ли объяснить решение 👉 есть ли у тебя проекты

Математика важна. Но сама по себе она не продаёт тебя как специалиста.

Что делать вместо бесконечной теории Лучший путь: 👉 учить математику по мере необходимости 👉 параллельно делать проекты 👉 разбирать ошибки моделей 👉 писать код руками 👉 учиться объяснять выводы простыми словами

Теория должна усиливать практику, а не заменять её.

Главный инсайт

Математика — это фундамент. Но дом строится не фундаментом одним.

В одном предложении

Чтобы получить работу в DS/ML, мало знать формулы — нужно уметь превращать данные в работающие решения.

20 012

ИИ-агенты уже внедряют в поддержку, продажи, аналитику и внутренние процессы. Но у многих всё упирается в сложную инфраструктуру и непонимание, с чего начать. 📆 20 мая в 18:00 МСК приглашаем на открытый урок курса «Разработка ИИ агентов». На занятии вы пошагово соберёте мини-агента: он примет сообщение из Telegram, передаст его в большую языковую модель, примет решение по сценарию и выполнит цепочку действий. Разберём, чем агент отличается от обычного чат-бота, как устроена минимальная архитектура и как получить рабочий результат без тяжёлой серверной части. 🧑‍💻 Также вы сможете познакомиться с преподавателем курса, увидеть формат обучения и задать вопросы. Зарегистрируйтесь, чтобы не пропустить: https://vk.cc/cXLnrA Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru, erid: 2VtzqwCoN6j