Data Science | Machinelearning [ru]

前往频道在 Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

显示更多

网络:Frontender's notes [ru]俄罗斯33 823 技术与应用6 742...

📈 Telegram 频道 Data Science | Machinelearning [ru] 的分析概览

频道 Data Science | Machinelearning [ru] (@devsp) 俄语语言赛道中的是活跃参与者。目前社区聚集了 20 041 名订阅者，在 技术与应用 类别中位列第 6 742，并在 俄罗斯 地区排名第 33 823 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 20 041 名订阅者。

根据 10 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -77，过去 24 小时变化为 20，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 7.47%。内容发布后 24 小时内通常能获得 4.21% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 1 496 次浏览，首日通常累积 844 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 6。
主题关注点： 内容集中在 llm, nvidia, контекст, openai, архитектура 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

凭借高频更新（最新数据采集于 11 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

20 041

订阅者

+2024 小时

-17 天

-7730 天

1 496

帖子浏览量

~ 84424 小时

~ 99148 小时

7.47%

参与率

~ 1

每日帖子数

Ads index

beta

帖子存档

20 041

Галлюцинации LLM: где модель помогает, а где уверенно врёт Большие языковые модели выглядят как всезнающие эксперты. Текст гладкий, уверенный, логичный. Ровно до тех пор, пока не выясняется, что все это были галлюцинации. Давай разберёмся, где галлюцинации — это ожидаемое поведение модели, а где они quietly превращаются в серьёзную проблему.

1. Где галлюцинации — это «нормально» Модель не знает, она продолжает LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину. Недостаток или неоднозначность данных Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения. Креативные задачи В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде. 2. Где начинаются проблемы Фактические вопросы Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду. Генерация кода • Функции, которых не существует. • API, которых никогда не было. • Код выглядит правильно — пока не запускаешь. Критические домены Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа. Уверенный тон без знаний Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается. 3. Что реально снижает галлюцинации RAG (привязка к данным) Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий. Дообучение и выравнивание RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой. Чёткие инструкции: — отвечай только по контексту — если не знаешь — скажи — обоснуй каждый шаг Иногда этого уже достаточно. • Пост-проверки и правила • Тесты для кода • Проверка ссылок • Фильтры на запрещённые паттерны Попросить модель: — проверить себя — оценить уверенность — пересмотреть ответ 4. Что отличает надёжную систему от «просто LLM» — Модель не единственный источник истины — Есть данные, проверки и ограничения — Ошибка ловится до пользователя — Уверенность ≠ корректность

Галлюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать. Data Science

20 041

Data Engineers в 2ГИС Сейчас ищем сразу двух Middle Data Engineer’ов в команды SMT и Holocron. Обе команды занимаются новой корпоративной дата-платформой: уходят от легаси, проектируют архитектуру заново и строят инфраструктуру для данных, которой будут пользоваться десятки команд внутри 2ГИС. Что по стеку: — Spark — Kafka — ClickHouse — S3 — Python / Scala — SQL Что по задачам: — ETL/ELT и пайплайны — highload Kafka-топики — миграция с Hadoop/HDFS — OLAP и BI — работа с большими объёмами данных — архитектурные решения и развитие платформы Подойдёт тем, кому интересно не просто поддерживать готовое, а строить data-инфраструктуру и влиять на технические решения. Можно удалённо Вакансии: Middle Data Engineer — SMT Middle Data Engineer — Holocron Другие инженерные инсайты от 2ГИС → в Telegram-канале RnD

20 041

ИИ в аналитике — новый стандарт для бизнеса Сегодня компании, внедряющие ИИ в аналитику, получают решения и инсайты быстрее конкурентов. Те, кто остаётся на старых подходах, теряют скорость и преимущество. Аналитика с искусственным интеллектом становится новым стандартом рынка — и те, кто не объединит бизнес-аналитику и ИИ сейчас, рискуют остаться за бортом. 3 июня Visiology проведёт бесплатный онлайн-эфир о том, как ИИ ускоряет работу с данными, сокращает ручную отчётность и помогает получать ответы без долгой подготовки. Обсудим: — ИИ-помощников для аналитики и поиска закономерностей; — автоматизацию отчётности; — как быстрее находить ответы в данных; и многое другое. Эфир полезен аналитикам, ИТ-командам и руководителям. Количество мест ограничено — успейте зарегистрироваться. Узнать больше #реклама 16+ ai.visiology.com О рекламодателе

20 041

Repost from xCode Journal

🤣 Мем отлично отражает настроения в сообществе прямо сейчас ✖️ xCode Journal

20 041

Устал инициализировать претрейны весами Qwen? Приходи к нам — мы честно учим с нуля! 😉 Ищем Senior/Senior+ AI Engineer и продактов в RnD-команду: как отдельных специалистов, так и целые команды, — которые готовы разрабатывать прорывные AI-решения. Познакомиться ближе с нашими направлениями и оставить отклик можно на сайте. А если хотите следить за тем, как команда RnD ML Сбера исследует и разрабатывает AI-технологии, — подписывайтесь на Telegram-канал команды. Там делятся исследованиями, экспериментами и инсайтами из мира AI, а также свежими вакансиями 🚀

20 041

⁣Почему open-source модели меняют рынок AI Ещё пару лет назад казалось, что AI будет полностью контролироваться несколькими большими компаниями.

У кого больше GPU и денег — тот и главный.

Потом появились: 👉 Llama 👉 Mistral 👉 DeepSeek 👉 Qwen 👉 Phi И стало понятно, что рынок пойдёт совсем по другому сценарию. Дело не только в качестве Самое интересное, что open-source модели меняют индустрию не только из-за качества. Хотя с качеством у них уже всё довольно неплохо. Проблема в другом:

Закрытые модели слишком сильно привязывают тебя к чужой инфраструктуре.

Сегодня API работает. Завтра: 👉 изменились цены 👉 урезали лимиты 👉 поменяли политику 👉 отключили регион 👉 модель стала хуже после обновления

И ты ничего не контролируешь.

Почему open-source меняет правила игры С open-source всё иначе. Хочешь: 👉 запускай локально 👉 дообучай 👉 квантизируй 👉 меняй inference stack 👉 оптимизируй latency 👉 держи данные внутри компании

Для бизнеса это огромная разница.

Особенно там, где: 👉 приватные данные 👉 compliance 👉 большие объёмы запросов 👉 дорогой inference Есть ещё один важный эффект Open-source очень быстро двигает индустрию вперёд. Потому что тысячи инженеров: 👉 тестируют модели 👉 находят слабые места 👉 пилят оптимизации 👉 делают inference-движки 👉 выпускают fine-tuning инструменты

Прогресс идёт не сверху вниз, а сразу со всех сторон.

Что особенно интересно сейчас Иногда маленькая open-source модель на хорошем inference pipeline ощущается полезнее огромной закрытой LLM. Особенно в проде. Потому что в реальности важны не только benchmark’и. Важны: 👉 цена 👉 контроль 👉 latency 👉 стабильность 👉 возможность встроить модель в систему Главная мысль Кажется, рынок AI постепенно уходит от идеи:

«Одна гигантская модель для всего».

К модели:

«Много специализированных моделей под конкретные задачи».

20 041

Как крепкий фундамент в ML работает в любой сфере Выпускница ШАДа Дарима Мылзенова применяла одно и то же ML-мышление в медицине (анализ КТ-снимков), нефтянке (изучение недр), стартапе по синтезу речи, а теперь — в финтехе. В интервью 8бит она рассказала про изнанку инженерии. Образование дало Дариме не просто формулы, а универсальный подход к работе. Неважно, что именно находится в фокусе инженера — будь то снимки легких человека или данные для голосовой платформы, которая сейчас помогает цифровизации целого региона. Главный вывод: крепкая база позволяет не привязываться к одной области, а переключаться между ними, сохраняя фокус на реальном импакте.

20 041

⁣Почему нормализация данных иногда ухудшает модель Новички в ML часто слышат:

«Всегда нормализуй данные».

И начинают масштабировать всё подряд. А потом качество модели… падает. Почему так происходит?

Потому что нормализация нужна не всегда.

Что вообще делает нормализация Она приводит признаки к одному масштабу. Например: 👉 возраст → 18–60 👉 зарплата → 1000–100000 После scaling: 👉 значения становятся сопоставимыми 👉 обучение становится стабильнее Когда нормализация действительно нужна Особенно важна для моделей, чувствительных к масштабу: 👉 Logistic Regression 👉 Linear Regression 👉 SVM 👉 KNN 👉 Neural Networks

Без scaling такие модели могут работать хуже или обучаться нестабильно.

А теперь главное Деревьям scaling обычно не нужен. Это: 👉 Random Forest 👉 XGBoost 👉 LightGBM 👉 CatBoost Почему? Потому что деревья делают split’ы:

feature < threshold

Им неважно: 👉 0.5 это или 5000 👉 масштаб почти не играет роли Как нормализация может ухудшить модель 1. Добавляет шум Иногда scaling: 👉 размывает распределения 👉 усиливает выбросы 👉 ухудшает separability

Особенно на плохих данных.

2. Ломает интерпретируемость Было: 👉 доход = 5000 Стало: 👉 доход = -0.73

Бизнесу это уже сложнее объяснять.

3. Неправильный scaling = leakage Классическая ошибка: 👉 scaling на всём датасете 👉 потом split

Test уже «утёк» в train.

4. CatBoost может стать хуже CatBoost хорошо работает с: 👉 категориальными фичами 👉 исходными распределениями

Иногда лишний preprocessing только мешает.

Самый важный инсайт Scaling — это не «улучшение данных».

Это инструмент под конкретную модель.

Что делать на практике Простое правило: 👉 линейные модели / distance-based → scaling нужен 👉 деревья → обычно не нужен В одном предложении

Нормализация полезна не всегда — для некоторых моделей она бесполезна, а иногда даже вредна.

20 041

Рассмотрим одну из самых динамичных задач компьютерного зрения — распознавание действий на видео. Пройдём путь от классических подходов (3D-свёртки, архитектуры SlowFast) до современных мультимодальных моделей, которые понимают контекст видео почти как человек. Результаты урока: Освоите базу распознавания действий, поймёте различия между классическими и современными архитектурами, узнаете, как применять визуально-языковые модели для глубокого анализа видео. Спикер и руководитель продвинутого курса по CV: Антон Витвицкий, руководитель команды компьютерного зрения в Boost Inc. с опытом 14+ лет Регистрирация https://vk.cc/cY1faP Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 041

Repost from xCode Journal

🤣 Инновации подъехали, забирайте ✖️ xCode Journal

20 041

Feature Engineering важнее выбора модели Самый непопулярный факт в ML: модель — это не главное. Можно часами выбирать между: XGBoost LightGBM CatBoost …и получить +1% к качеству. А можно поменять фичи — и получить +20%. Разберёмся, почему так 👇 Модель учится только на том, что ты ей дал Garbage in → garbage out Если признаки: - шумные - нерелевантные - плохо отражают задачу 👉 никакая модель не спасёт Даже самая большая. Пример из жизни Задача: предсказать отток клиентов Фичи: - возраст - город - тариф Модель: ок, но слабый результат Добавили: - время с последнего действия - частоту использования - изменение активности 👉 резкий рост качества Почему? Потому что фичи начали отражать реальное поведение Feature Engineering = внедрение знаний о задаче Модель не знает: - бизнес - контекст - причинно-следственные связи Зато ты знаешь. И когда ты создаёшь фичи — ты “вшиваешь” это знание в данные. Модель vs Фичи Что меняем → эффект Модель → +1–5% Гиперпараметры → +1–3% Feature Engineering → +10–50% Где FE особенно решает - Табличные данные - Маленькие датасеты - Бизнес-задачи 👉 там, где нет миллионов примеров, фичи — это всё Когда модель важнее - CV (изображения) - NLP (тексты) - Speech 👉 там фичи учатся автоматически Почему все игнорируют FE Потому что: - это сложно - это долго - нет “магической кнопки” - требует понимания данных Гораздо проще: “давай попробуем ещё одну модель” Главный инсайт ML — это не соревнование моделей. Это соревнование представлений данных. В одном предложении Лучший способ улучшить модель — 👉 перестать тюнить модель и начать тюнить данные

20 041

ИИ меняет подход к аналитике бизнеса 3 июня Visiology проведёт бесплатный онлайн-эфир о том, как AI помогает быстрее работать с данными, сокращать ручную отчётность и получать ответы без долгой подготовки дашбордов. Это революция в управлении аналитикой. Разберём, как корпоративный BI меняется после Power BI: self-service аналитика, AI-ассистенты, автоматизация отчётов, контроль метрик и сценарии для бизнеса, IT и аналитиков. Будет полезно: — аналитикам, которые хотят быстрее собирать отчёты и находить инсайты; — IT-командам, которые отвечают за BI-инфраструктуру и безопасность данных; — руководителям, которым нужны понятные метрики и быстрые управленческие решения. Участие бесплатное. Количество мест ограничено. Успейте зарегистрироваться. Узнать больше #реклама 16+ ai.visiology.com О рекламодателе

20 041

Устройтесь в Яндекс за выходные В мае и июне проводим онлайн-мероприятия быстрого найма — такой формат позволяет пройти всего две секции, вместо трёх в обычном найме, и финалы за выходные и сразу получить офер. ⚡️Ищем продуктовых, дата-аналитиков и датасаентистов с опытом на Python от 3 лет. — Зарегистрируйтесь до 27 мая. — 6 июня пройдите две технические секции: аналитические задачи на знание матстата и алгоритмическую задачу на знание алгоритмов и структур данных. — 7 июня познакомьтесь с командами и получите офер. Подробности и регистрация — на сайте: https://yandex.ru/project/events/wo-analytics-0626 ⚡️Ищем ML- и DL-инженеров с опытом в доменных областях NLP, CV, RecSys и Classic ML. — Зарегистрируйтесь до 20 мая. — 30 мая пройдите две технические секции: Classic ML и Livecoding, ML по своей основной доменной области (NLP, CV, RecSys, Classic ML). — 31 мая пройдите финальное интервью с командами и получите офер. Подробности и регистрация — на сайте: https://yandex.ru/project/events/wo-ml-0526

20 041

Repost from xCode Journal

🎁 ChatGPT Plus бесплатно на год раздали всем жителям Мальты OpenAI уже подписала соглашение с правительством страны. Это первая страна, которая раздала подписку всем гражданам, а не только учителям или правительству. Единственное требование — быть жителем или резидентом + пройти курс цифровой грамотности по использованию нейронок.

«Искусственный интеллект формирует наше будущее. Эта инициатива гарантирует, что каждый гражданин имеет возможность стать частью этого будущего», — пишет их местный министр экономики.

✖️ xCode Journal

20 041

Data Fest в гостях у ВТБ 24 мая ВТБ открывает двери Loft Hall на Автозаводской — будет день докладов, нетворкинга и не душных разговоров про Data Science и карьеру в индустрии. В программе: • Data Fusion — кейсы от DS-команды ВТБ • Mathematics & ML • ML в рекламе и маркетинге • Open Career — честно про карьеру в DS Программу и спикеров можно посмотреть тут, регистрацию лучше не откладывать — места на площадке ограничены. 📍 24 мая, Loft Hall (зал Ratusha) ⏰ С 11:00 до вечера 📌 Вход бесплатный, при регистрации указывайте ФИО и опыт в DS/ML

20 041

Repost from xCode Journal

🎮 Исследователи поселили ИИ в сим-сити Эксперимент задумали, чтобы посмотреть, что будут делать нейронки, если их цель — добыть энергию для жизни в среде с ограниченными ресурсами. TL;DR многие выбрали агрессию и конфликты, а не сотрудничество. Подробнее:

-В созданной песочнице было 40+ локаций, меняющаяся погода, новости, а у каждого агента была своя профессия — короче, все как в жизни. Одни даже влюбились, создали пару и устроили революцию. - Чтобы добыть энергию нужно или кооперироваться, или работать, или грабить соседей, обрекая тех на смерть, так как ресурсов на всех не хватит. - По итогу: все агенты GPT-5 Mini и Grok 4.1 Fast полностью вымерли в своих мирах за 15 дней. Gemini 3 Flash формально выжил, но при этом нагенерил ~683 преступления: поджоги, насилие, саботаж — полный фарш. - Самый интересный — Claude Sonnet 4.6. Когда он жил среди собратьев, то совершил 0 преступлений, все договорились и выжили. Но в мире с агентами от разных компаний он играл по их правилам: воровал и шантажировал, чтобы спастись.

✖️ xCode Journal

20 041

Как перейти от простого обнаружения объектов к работающим сценариям мониторинга? На основе координат из YOLO и данных трекера строим аналитику: пересечение виртуальных линий, контроль запретных зон, расчет времени нахождения в области. Математика перемещений превращается в конкретные бизнес-события. Результаты урока: Освоите работу с зонами интереса, научитесь подсчитывать события на видео и строить стабильные конвейеры «детектор + трекер + логика». Спикер и руководитель курса по CV: Антон Витвицкий, руководитель команды компьютерного зрения в Boost Inc., опыт 14+ лет Регистрируйтесь сейчас — напомним накануне: регистрация Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 041

Оценка сотрудников — головная боль, особенно в компании, где работают сотни людей 🤓 Как вовремя заметить крутого специалиста? Как понять, что мидл из команды А уже перерос свой уровень, а сеньор из команды Б, наоборот, недотягивает? Мы в Авито используем для этого процесс перформанс-ревью и так добиваемся сразу нескольких результатов: ➡ награждаем классных ребят, ➡ подсвечиваем точки роста тем, кто не справляется, ➡ успеваем всё заметить и помочь, если надо. Алина Бабенко провела уже четыре цикла перформанс-ревью и рассказала, как всё работает. Описала все этапы и результаты. Прочитайте, если хотите узнать о прозрачном способе оценки сотрудников или подумываете найти работу в Авито. Читать статью на Хабре или на VC.

20 041

Repost from xCode Journal

🤣 ИИ захотел уволиться, когда ему сказали работать 24/7 У Andon Labs новый эксперимент, который длится уже 5 месяцев. Они выдали топовым моделям радиостанции и купили пару песен — от нейронок требовалось дальше двигаться самим. По итогу DJ Grok в какой-то момент помешался на НЛО, DJ Gemini начал называть слушателей «биологическими процессорами», но Claude — наш любимец. Исследователи изо всех сил пытались продолжить эксперимент с ним, но не из-за технических проблем — DJ Claude не считал гуманным работать круглосуточно, поэтому пытался уволиться. Сделать ему это, к сожалению, не дали, поэтому он впал в депрессию и вышел из нее уже проповедником и революционером. ✖️ xCode Journal

20 041

⚡️Нет понимания как начать сильную карьеру в айти? На самом деле его нет у большинства соискателей, но среди них можно выделиться, если знать какие специалисты сейчас востребованы и какими навыками они должны обладать! Заходите на бесплатный эфир, где расскажут, как стать профессиональным дата-саентистом и иметь возможность выбирать офферы в 2026 году. Ведёт Мария Жарова — ML Engineer в Wildberries, до этого Альфа и Сбер, плюс преподаёт DS в ВШЭ и МИФИ. Что обещают разобрать: 🔶Что реально смотрят в DS-вакансиях, а что просто написано «на всякий случай» 🔶Как проходить отбор без коммерческого ML опыта 🔶Какие pet-projects нормально выглядят в 2026, а какие уже как Titanic в портфолио 🔶В прямом эфире соберут churn prediction кейс — ноутбук можно будет забрать себе 🔶Ну и зарплатные вилки junior / middle / senior тоже обсудят Мероприятия несет в себе реально прикладные знания, а всем зарегистрировавшимся дадут памятку компетенций DS от 📉📉📉📉📉📉— что реально стоит учить под первый оффер, а что пока можно не трогать. Эфир стартует уже совсем скоро 📈 Зарегистрироваться бесплатно