Data Science | Machinelearning [ru]

Kanalga Telegram’da o‘tish

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Ko'proq ko'rsatish

Tarmoq:Frontender's notes [ru]Rossiya33 728 Texnologiyalar & Aralashmalar6 731...

📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi

Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 20 077 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 731-o'rinni va Rossiya mintaqasida 33 728-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 20 077 obunachiga ega bo‘ldi.

11 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -38 ga, so‘nggi 24 soatda esa 40 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 7.58% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 4.23% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 1 521 marta ko‘riladi; birinchi sutkada odatda 849 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 6 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 12 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

20 077

Obunachilar

+4024 soatlar

+457 kunlar

-3830 kunlar

1 521

Post ko'rishlar

~ 84924 soatlar

~ 99648 soatlar

7.58%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

20 077

— Вот бы пару миллионов на развитие проекта… — Ваш запрос принят, проверяйте баланс 🤑 Такой диалог уже не кажется странным. Ведь Selectel запустил программу поддержки ИИ-проектов. Десять участников получат до 2 000 000 ₽ на надежную инфраструктуру под задачи машинного обучения. Подать заявку могут и стартапы, и крупные компании. Успейте заполнить форму до 30 июня, чтобы принять участие. В заявке приложите ссылки на сайт и другие материалы — так вы повысите шансы на одобрение. Получить грант в Selectel ➡️ https://slc.tl/uxc7z Реклама. АО "Селектел". erid:2W5zFG3XGHP

20 077

Галлюцинации LLM: где модель помогает, а где уверенно врёт Большие языковые модели выглядят как всезнающие эксперты. Текст гладкий, уверенный, логичный. Ровно до тех пор, пока не выясняется, что все это были галлюцинации. Давай разберёмся, где галлюцинации — это ожидаемое поведение модели, а где они quietly превращаются в серьёзную проблему.

1. Где галлюцинации — это «нормально» Модель не знает, она продолжает LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину. Недостаток или неоднозначность данных Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения. Креативные задачи В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде. 2. Где начинаются проблемы Фактические вопросы Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду. Генерация кода • Функции, которых не существует. • API, которых никогда не было. • Код выглядит правильно — пока не запускаешь. Критические домены Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа. Уверенный тон без знаний Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается. 3. Что реально снижает галлюцинации RAG (привязка к данным) Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий. Дообучение и выравнивание RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой. Чёткие инструкции: — отвечай только по контексту — если не знаешь — скажи — обоснуй каждый шаг Иногда этого уже достаточно. • Пост-проверки и правила • Тесты для кода • Проверка ссылок • Фильтры на запрещённые паттерны Попросить модель: — проверить себя — оценить уверенность — пересмотреть ответ 4. Что отличает надёжную систему от «просто LLM» — Модель не единственный источник истины — Есть данные, проверки и ограничения — Ошибка ловится до пользователя — Уверенность ≠ корректность

Галлюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать. Data Science

20 077

Data Engineers в 2ГИС Сейчас ищем сразу двух Middle Data Engineer’ов в команды SMT и Holocron. Обе команды занимаются новой корпоративной дата-платформой: уходят от легаси, проектируют архитектуру заново и строят инфраструктуру для данных, которой будут пользоваться десятки команд внутри 2ГИС. Что по стеку: — Spark — Kafka — ClickHouse — S3 — Python / Scala — SQL Что по задачам: — ETL/ELT и пайплайны — highload Kafka-топики — миграция с Hadoop/HDFS — OLAP и BI — работа с большими объёмами данных — архитектурные решения и развитие платформы Подойдёт тем, кому интересно не просто поддерживать готовое, а строить data-инфраструктуру и влиять на технические решения. Можно удалённо Вакансии: Middle Data Engineer — SMT Middle Data Engineer — Holocron Другие инженерные инсайты от 2ГИС → в Telegram-канале RnD

20 077

ИИ в аналитике — новый стандарт для бизнеса Сегодня компании, внедряющие ИИ в аналитику, получают решения и инсайты быстрее конкурентов. Те, кто остаётся на старых подходах, теряют скорость и преимущество. Аналитика с искусственным интеллектом становится новым стандартом рынка — и те, кто не объединит бизнес-аналитику и ИИ сейчас, рискуют остаться за бортом. 3 июня Visiology проведёт бесплатный онлайн-эфир о том, как ИИ ускоряет работу с данными, сокращает ручную отчётность и помогает получать ответы без долгой подготовки. Обсудим: — ИИ-помощников для аналитики и поиска закономерностей; — автоматизацию отчётности; — как быстрее находить ответы в данных; и многое другое. Эфир полезен аналитикам, ИТ-командам и руководителям. Количество мест ограничено — успейте зарегистрироваться. Узнать больше #реклама 16+ ai.visiology.com О рекламодателе

20 077

Repost from xCode Journal

🤣 Мем отлично отражает настроения в сообществе прямо сейчас ✖️ xCode Journal

20 077

Устал инициализировать претрейны весами Qwen? Приходи к нам — мы честно учим с нуля! 😉 Ищем Senior/Senior+ AI Engineer и продактов в RnD-команду: как отдельных специалистов, так и целые команды, — которые готовы разрабатывать прорывные AI-решения. Познакомиться ближе с нашими направлениями и оставить отклик можно на сайте. А если хотите следить за тем, как команда RnD ML Сбера исследует и разрабатывает AI-технологии, — подписывайтесь на Telegram-канал команды. Там делятся исследованиями, экспериментами и инсайтами из мира AI, а также свежими вакансиями 🚀

20 077

⁣Почему open-source модели меняют рынок AI Ещё пару лет назад казалось, что AI будет полностью контролироваться несколькими большими компаниями.

У кого больше GPU и денег — тот и главный.

Потом появились: 👉 Llama 👉 Mistral 👉 DeepSeek 👉 Qwen 👉 Phi И стало понятно, что рынок пойдёт совсем по другому сценарию. Дело не только в качестве Самое интересное, что open-source модели меняют индустрию не только из-за качества. Хотя с качеством у них уже всё довольно неплохо. Проблема в другом:

Закрытые модели слишком сильно привязывают тебя к чужой инфраструктуре.

Сегодня API работает. Завтра: 👉 изменились цены 👉 урезали лимиты 👉 поменяли политику 👉 отключили регион 👉 модель стала хуже после обновления

И ты ничего не контролируешь.

Почему open-source меняет правила игры С open-source всё иначе. Хочешь: 👉 запускай локально 👉 дообучай 👉 квантизируй 👉 меняй inference stack 👉 оптимизируй latency 👉 держи данные внутри компании

Для бизнеса это огромная разница.

Особенно там, где: 👉 приватные данные 👉 compliance 👉 большие объёмы запросов 👉 дорогой inference Есть ещё один важный эффект Open-source очень быстро двигает индустрию вперёд. Потому что тысячи инженеров: 👉 тестируют модели 👉 находят слабые места 👉 пилят оптимизации 👉 делают inference-движки 👉 выпускают fine-tuning инструменты

Прогресс идёт не сверху вниз, а сразу со всех сторон.

Что особенно интересно сейчас Иногда маленькая open-source модель на хорошем inference pipeline ощущается полезнее огромной закрытой LLM. Особенно в проде. Потому что в реальности важны не только benchmark’и. Важны: 👉 цена 👉 контроль 👉 latency 👉 стабильность 👉 возможность встроить модель в систему Главная мысль Кажется, рынок AI постепенно уходит от идеи:

«Одна гигантская модель для всего».

К модели:

«Много специализированных моделей под конкретные задачи».

20 077

Как крепкий фундамент в ML работает в любой сфере Выпускница ШАДа Дарима Мылзенова применяла одно и то же ML-мышление в медицине (анализ КТ-снимков), нефтянке (изучение недр), стартапе по синтезу речи, а теперь — в финтехе. В интервью 8бит она рассказала про изнанку инженерии. Образование дало Дариме не просто формулы, а универсальный подход к работе. Неважно, что именно находится в фокусе инженера — будь то снимки легких человека или данные для голосовой платформы, которая сейчас помогает цифровизации целого региона. Главный вывод: крепкая база позволяет не привязываться к одной области, а переключаться между ними, сохраняя фокус на реальном импакте.

20 077

⁣Почему нормализация данных иногда ухудшает модель Новички в ML часто слышат:

«Всегда нормализуй данные».

И начинают масштабировать всё подряд. А потом качество модели… падает. Почему так происходит?

Потому что нормализация нужна не всегда.

Что вообще делает нормализация Она приводит признаки к одному масштабу. Например: 👉 возраст → 18–60 👉 зарплата → 1000–100000 После scaling: 👉 значения становятся сопоставимыми 👉 обучение становится стабильнее Когда нормализация действительно нужна Особенно важна для моделей, чувствительных к масштабу: 👉 Logistic Regression 👉 Linear Regression 👉 SVM 👉 KNN 👉 Neural Networks

Без scaling такие модели могут работать хуже или обучаться нестабильно.

А теперь главное Деревьям scaling обычно не нужен. Это: 👉 Random Forest 👉 XGBoost 👉 LightGBM 👉 CatBoost Почему? Потому что деревья делают split’ы:

feature < threshold

Им неважно: 👉 0.5 это или 5000 👉 масштаб почти не играет роли Как нормализация может ухудшить модель 1. Добавляет шум Иногда scaling: 👉 размывает распределения 👉 усиливает выбросы 👉 ухудшает separability

Особенно на плохих данных.

2. Ломает интерпретируемость Было: 👉 доход = 5000 Стало: 👉 доход = -0.73

Бизнесу это уже сложнее объяснять.

3. Неправильный scaling = leakage Классическая ошибка: 👉 scaling на всём датасете 👉 потом split

Test уже «утёк» в train.

4. CatBoost может стать хуже CatBoost хорошо работает с: 👉 категориальными фичами 👉 исходными распределениями

Иногда лишний preprocessing только мешает.

Самый важный инсайт Scaling — это не «улучшение данных».

Это инструмент под конкретную модель.

Что делать на практике Простое правило: 👉 линейные модели / distance-based → scaling нужен 👉 деревья → обычно не нужен В одном предложении

Нормализация полезна не всегда — для некоторых моделей она бесполезна, а иногда даже вредна.

20 077

Рассмотрим одну из самых динамичных задач компьютерного зрения — распознавание действий на видео. Пройдём путь от классических подходов (3D-свёртки, архитектуры SlowFast) до современных мультимодальных моделей, которые понимают контекст видео почти как человек. Результаты урока: Освоите базу распознавания действий, поймёте различия между классическими и современными архитектурами, узнаете, как применять визуально-языковые модели для глубокого анализа видео. Спикер и руководитель продвинутого курса по CV: Антон Витвицкий, руководитель команды компьютерного зрения в Boost Inc. с опытом 14+ лет Регистрирация https://vk.cc/cY1faP Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 077

Repost from xCode Journal

🤣 Инновации подъехали, забирайте ✖️ xCode Journal

20 077

Feature Engineering важнее выбора модели Самый непопулярный факт в ML: модель — это не главное. Можно часами выбирать между: XGBoost LightGBM CatBoost …и получить +1% к качеству. А можно поменять фичи — и получить +20%. Разберёмся, почему так 👇 Модель учится только на том, что ты ей дал Garbage in → garbage out Если признаки: - шумные - нерелевантные - плохо отражают задачу 👉 никакая модель не спасёт Даже самая большая. Пример из жизни Задача: предсказать отток клиентов Фичи: - возраст - город - тариф Модель: ок, но слабый результат Добавили: - время с последнего действия - частоту использования - изменение активности 👉 резкий рост качества Почему? Потому что фичи начали отражать реальное поведение Feature Engineering = внедрение знаний о задаче Модель не знает: - бизнес - контекст - причинно-следственные связи Зато ты знаешь. И когда ты создаёшь фичи — ты “вшиваешь” это знание в данные. Модель vs Фичи Что меняем → эффект Модель → +1–5% Гиперпараметры → +1–3% Feature Engineering → +10–50% Где FE особенно решает - Табличные данные - Маленькие датасеты - Бизнес-задачи 👉 там, где нет миллионов примеров, фичи — это всё Когда модель важнее - CV (изображения) - NLP (тексты) - Speech 👉 там фичи учатся автоматически Почему все игнорируют FE Потому что: - это сложно - это долго - нет “магической кнопки” - требует понимания данных Гораздо проще: “давай попробуем ещё одну модель” Главный инсайт ML — это не соревнование моделей. Это соревнование представлений данных. В одном предложении Лучший способ улучшить модель — 👉 перестать тюнить модель и начать тюнить данные

20 077

ИИ меняет подход к аналитике бизнеса 3 июня Visiology проведёт бесплатный онлайн-эфир о том, как AI помогает быстрее работать с данными, сокращать ручную отчётность и получать ответы без долгой подготовки дашбордов. Это революция в управлении аналитикой. Разберём, как корпоративный BI меняется после Power BI: self-service аналитика, AI-ассистенты, автоматизация отчётов, контроль метрик и сценарии для бизнеса, IT и аналитиков. Будет полезно: — аналитикам, которые хотят быстрее собирать отчёты и находить инсайты; — IT-командам, которые отвечают за BI-инфраструктуру и безопасность данных; — руководителям, которым нужны понятные метрики и быстрые управленческие решения. Участие бесплатное. Количество мест ограничено. Успейте зарегистрироваться. Узнать больше #реклама 16+ ai.visiology.com О рекламодателе

20 077

Устройтесь в Яндекс за выходные В мае и июне проводим онлайн-мероприятия быстрого найма — такой формат позволяет пройти всего две секции, вместо трёх в обычном найме, и финалы за выходные и сразу получить офер. ⚡️Ищем продуктовых, дата-аналитиков и датасаентистов с опытом на Python от 3 лет. — Зарегистрируйтесь до 27 мая. — 6 июня пройдите две технические секции: аналитические задачи на знание матстата и алгоритмическую задачу на знание алгоритмов и структур данных. — 7 июня познакомьтесь с командами и получите офер. Подробности и регистрация — на сайте: https://yandex.ru/project/events/wo-analytics-0626 ⚡️Ищем ML- и DL-инженеров с опытом в доменных областях NLP, CV, RecSys и Classic ML. — Зарегистрируйтесь до 20 мая. — 30 мая пройдите две технические секции: Classic ML и Livecoding, ML по своей основной доменной области (NLP, CV, RecSys, Classic ML). — 31 мая пройдите финальное интервью с командами и получите офер. Подробности и регистрация — на сайте: https://yandex.ru/project/events/wo-ml-0526

20 077

Repost from xCode Journal

🎁 ChatGPT Plus бесплатно на год раздали всем жителям Мальты OpenAI уже подписала соглашение с правительством страны. Это первая страна, которая раздала подписку всем гражданам, а не только учителям или правительству. Единственное требование — быть жителем или резидентом + пройти курс цифровой грамотности по использованию нейронок.

«Искусственный интеллект формирует наше будущее. Эта инициатива гарантирует, что каждый гражданин имеет возможность стать частью этого будущего», — пишет их местный министр экономики.

✖️ xCode Journal

20 077

Data Fest в гостях у ВТБ 24 мая ВТБ открывает двери Loft Hall на Автозаводской — будет день докладов, нетворкинга и не душных разговоров про Data Science и карьеру в индустрии. В программе: • Data Fusion — кейсы от DS-команды ВТБ • Mathematics & ML • ML в рекламе и маркетинге • Open Career — честно про карьеру в DS Программу и спикеров можно посмотреть тут, регистрацию лучше не откладывать — места на площадке ограничены. 📍 24 мая, Loft Hall (зал Ratusha) ⏰ С 11:00 до вечера 📌 Вход бесплатный, при регистрации указывайте ФИО и опыт в DS/ML

20 077

Repost from xCode Journal

🎮 Исследователи поселили ИИ в сим-сити Эксперимент задумали, чтобы посмотреть, что будут делать нейронки, если их цель — добыть энергию для жизни в среде с ограниченными ресурсами. TL;DR многие выбрали агрессию и конфликты, а не сотрудничество. Подробнее:

-В созданной песочнице было 40+ локаций, меняющаяся погода, новости, а у каждого агента была своя профессия — короче, все как в жизни. Одни даже влюбились, создали пару и устроили революцию. - Чтобы добыть энергию нужно или кооперироваться, или работать, или грабить соседей, обрекая тех на смерть, так как ресурсов на всех не хватит. - По итогу: все агенты GPT-5 Mini и Grok 4.1 Fast полностью вымерли в своих мирах за 15 дней. Gemini 3 Flash формально выжил, но при этом нагенерил ~683 преступления: поджоги, насилие, саботаж — полный фарш. - Самый интересный — Claude Sonnet 4.6. Когда он жил среди собратьев, то совершил 0 преступлений, все договорились и выжили. Но в мире с агентами от разных компаний он играл по их правилам: воровал и шантажировал, чтобы спастись.

✖️ xCode Journal

20 077

Как перейти от простого обнаружения объектов к работающим сценариям мониторинга? На основе координат из YOLO и данных трекера строим аналитику: пересечение виртуальных линий, контроль запретных зон, расчет времени нахождения в области. Математика перемещений превращается в конкретные бизнес-события. Результаты урока: Освоите работу с зонами интереса, научитесь подсчитывать события на видео и строить стабильные конвейеры «детектор + трекер + логика». Спикер и руководитель курса по CV: Антон Витвицкий, руководитель команды компьютерного зрения в Boost Inc., опыт 14+ лет Регистрируйтесь сейчас — напомним накануне: регистрация Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 077

Оценка сотрудников — головная боль, особенно в компании, где работают сотни людей 🤓 Как вовремя заметить крутого специалиста? Как понять, что мидл из команды А уже перерос свой уровень, а сеньор из команды Б, наоборот, недотягивает? Мы в Авито используем для этого процесс перформанс-ревью и так добиваемся сразу нескольких результатов: ➡ награждаем классных ребят, ➡ подсвечиваем точки роста тем, кто не справляется, ➡ успеваем всё заметить и помочь, если надо. Алина Бабенко провела уже четыре цикла перформанс-ревью и рассказала, как всё работает. Описала все этапы и результаты. Прочитайте, если хотите узнать о прозрачном способе оценки сотрудников или подумываете найти работу в Авито. Читать статью на Хабре или на VC.

20 077

Repost from xCode Journal

🤣 ИИ захотел уволиться, когда ему сказали работать 24/7 У Andon Labs новый эксперимент, который длится уже 5 месяцев. Они выдали топовым моделям радиостанции и купили пару песен — от нейронок требовалось дальше двигаться самим. По итогу DJ Grok в какой-то момент помешался на НЛО, DJ Gemini начал называть слушателей «биологическими процессорами», но Claude — наш любимец. Исследователи изо всех сил пытались продолжить эксперимент с ним, но не из-за технических проблем — DJ Claude не считал гуманным работать круглосуточно, поэтому пытался уволиться. Сделать ему это, к сожалению, не дали, поэтому он впал в депрессию и вышел из нее уже проповедником и революционером. ✖️ xCode Journal