Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
نمایش بیشتر📈 تحلیل کانال تلگرام Data Science | Machinelearning [ru]
کانال Data Science | Machinelearning [ru] (@devsp) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 20 032 مشترک است و جایگاه 6 717 را در دسته فناوری و برنامهها و رتبه 33 839 را در منطقه روسيا دارد.
📊 شاخصهای مخاطب و پویایی
از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 20 032 مشترک جذب کرده است.
بر اساس آخرین دادهها در تاریخ 03 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 95 و در ۲۴ ساعت گذشته برابر -6 بوده و همچنان دسترسی گستردهای حفظ شده است.
- وضعیت تأیید: تأیید نشده
- نرخ تعامل (ER): میانگین تعامل مخاطب 8.01% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 4.51% واکنش نسبت به کل مشترکان کسب میکند.
- دسترسی پستها: هر پست به طور میانگین 1 606 بازدید دریافت میکند. در اولین روز معمولاً 904 بازدید جمعآوری میشود.
- واکنشها و تعامل: مخاطبان بهطور فعال حمایت میکنند؛ میانگین واکنش به هر پست 9 است.
- علایق موضوعی: محتوا بر موضوعات کلیدی مانند llm, nvidia, контекст, openai, архитектура تمرکز دارد.
📝 توضیح و سیاست محتوایی
نویسنده این فضا را محل بیان دیدگاههای شخصی توصیف میکند:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
به لطف بهروزرسانیهای پرتکرار (آخرین داده در تاریخ 04 ژوئن, 2026)، کانال همواره بهروز و دارای دسترسی بالاست. تحلیلها نشان میدهد مخاطبان بهطور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامهها تبدیل کردهاند.
Но при этом плохо понимают, зачем бизнесу нужна модель.И это потом очень заметно в работе. Когда ML уходит в вакуум Например, человек может месяцами улучшать ROC-AUC: 👉 с 0.91 до 0.93
Хотя для бизнеса разницы почти нет.Или строить сложную систему там, где хватило бы пары SQL-правил. И наоборот: 👉 модель с «неидеальными» метриками 👉 может приносить много денег потому что хорошо встроена в процесс. Откуда начинается проблема Большинство курсов учат: 👉 обучать модели 👉 подбирать гиперпараметры 👉 улучшать benchmark Но почти не учат задавать вопросы: 👉 что именно пытается оптимизировать бизнес? 👉 сколько стоит ошибка? 👉 как модель будут использовать? 👉 кто принимает решения на основе предсказаний?
Хотя это важнее половины ML-стека.Метрика ≠ цель бизнеса Многие воспринимают задачу как:
«Получить максимальную метрику».Хотя в реальности задача обычно звучит иначе: 👉 уменьшить churn 👉 снизить потери 👉 ускорить процесс 👉 сократить ручную работу
И иногда лучший ML-проект — это вообще не ML.Прод быстро возвращает в реальность Бизнесу всё равно: 👉 какой у тебя encoder 👉 сколько слоёв 👉 какой learning rate Его интересует: 👉 работает ли система 👉 экономит ли деньги 👉 не ломается ли каждую неделю Частая ошибка Люди начинают: 👉 с модели 👉 обсуждают архитектуру 👉 спорят про CatBoost vs XGBoost
Ещё до того, как нормально поняли саму задачу.Хотя хороший DS обычно сначала пытается понять: 👉 откуда берутся данные 👉 как принимаются решения 👉 где появляется ценность И только потом думает про модель. Главная мысль Сильные специалисты часто отличаются не тем, что знают больше алгоритмов.
А тем, что умеют связывать: 👉 данные 👉 продукт 👉 ограничения 👉 деньги 👉 реальный процессБез этого ML очень быстро превращается в дорогую игрушку.
Почему существующих методов недостаточно? Современные VLM-модели неплохо понимают картинки, но начинают теряться, когда нужно действовать последовательно: открыть нужный раздел, выбрать объект, применить фильтр, построить маршрут или выполнить инструкцию шаг за шагом. И обучение таким сценариям в реальном мире дорогое и времязатратное. Можно тренировать модели в симуляторах, но существующие подходы требуют либо постоянного подбора коэффициентов вручную, либо большего количества памяти для хранения результатов о предыдущих шагах, либо смешивают обучение действию и оценке пользы выполненного действия. 🗒 Так был разработан метод VL-DAC. Модель обучалась сразу в нескольких средах для развития отдельных навыков: •MiniWorld — навигация и маршруты •Gym-Cards — выбор объекта по заданным условиям •ALFWorld — выполнение инструкций и взаимодействие с внешними объектами •WebShop — работа с веб-интерфейсами Что получилось на практике? После обучения модель Qwen2-VL-7B стала более чем на 50% лучше справляться с интерактивными задачами, улучшила пространственную ориентацию и веб-навигацию Самое интересное — модель учится не только совершать действия, но и понимать, были ли они полезны для достижения цели. Это делает перенос навыков из симуляции в реальные задачи намного стабильнее 😐Такой подход может пригодиться везде, где ИИ должен не просто видеть, а действовать: от банковских интерфейсов и ритейла до робототехники и логистики. Data Science
«Всегда нормализуй данные».Проблема в том, что это не универсальное правило. Иногда после scaling модель становится не лучше, а хуже.
Особенно это удивляет людей после перехода с учебных задач на реальные данные.Зачем вообще нужна нормализация Она приводит признаки к одному масштабу. Например: 👉 возраст: 18–60 👉 зарплата: 1000–300000 Для некоторых моделей это действительно критично. В первую очередь: 👉 Logistic Regression 👉 SVM 👉 KNN 👉 нейросети
Они чувствительны к масштабу признаков.Без scaling: 👉 обучение может быть нестабильным 👉 градиенты становятся странными 👉 одна фича начинает доминировать над другими Но дальше начинается самое интересное Для деревьев scaling обычно почти бесполезен. 👉 Random Forest 👉 XGBoost 👉 LightGBM 👉 CatBoost работают через split’ы:
feature < thresholdИм не особо важно: 👉 0.5 это 👉 5000 👉 или 500000
Структура дерева от этого почти не меняется.И поэтому люди иногда строят огромный preprocessing pipeline, который вообще ничего не улучшает. Иногда scaling реально портит модель Особенно если: 👉 много выбросов 👉 странные распределения 👉 heavy tails 👉 шумные данные
После StandardScaler часть фич может стать менее информативной.Автоматический scaling — частая ловушка Многие делают scaling, даже не задавая вопрос:
«А моей модели это вообще нужно?»Просто потому что: 👉 «так принято» Хотя на практике: 👉 CatBoost отлично работает на сырых данных 👉 табличные бустинги сами справляются с масштабами 👉 лишняя обработка только усложняет pipeline Отдельная классика — leakage через scaling Когда человек: 👉 нормализует весь датасет 👉 потом делает train/test split
И модель уже косвенно «видела» test.Метрики после такого обычно очень красивые. До первого прода. Главная мысль Одна из главных проблем в ML — привычка применять техники автоматически.
Scaling — это не улучшение данных само по себе. Это инструмент под конкретный алгоритм.
За 1 вечер разберём: — Как выстроить спринт-планирование и расставить приоритеты без конфликтов; — Как внедрить мониторинг качества данных и регламент обработки инцидентов; — Как автоматизировать рутину через Python + Airflow; — Как освободить аналитиков от бесконечных разовых выгрузок.Это работающая система от практика, который управляет командой аналитики в одной из крупнейших рекламных платформ страны. Участие бесплатное, количество мест ограничено. ➡️Зарегистрироваться: https://tglink.io/3c723cc71ea9b3 Реклама. ООО "АЙТИ РЕЗЮМЕ". ИНН 4025460134. erid: 2W5zFHEhTnR
Что же отличает этот подход от обычных поисковых систем? В том, что агент не просто делает один запрос и «сдаётся». Он строит целую цепочку шагов, как опытный аналитик, постепенно уточняя информацию и проверяя факты. ❓ Как работает агент? Основной принцип работы модели заключается в чередовании двух инструментов: поиска и просмотра страниц. Поиск предоставляет список URL с короткими фрагментами текста, а просмотр — длинные фрагменты выбранных страниц. Все найденные данные фиксируются в контексте, создавая «след», который агент использует для дальнейших шагов, а не полагается исключительно на память. Команда не использовала стандартные API для поиска. Вместо этого был создан собственный конвейер, который фильтрует и обрабатывает информацию гораздо точнее. Результаты поиска проходят через BM25, эмбеддинги и ререйканинг, что даёт возможность LLM собирать более точные и тематичные сниппеты. ❗️ Почему обычный «вики-ретривер» не подходит? InfoAgent делает акцент на задаче, где важно не просто находить факты, а проверять их на глубоком уровне. Для этого они специально «размывают» данные — имена заменяются на описания, даты превращаются в диапазоны, а точные формулировки перефразируются. Это заставляет модель не торопиться и искать более точные данные. При этом вопросы подбираются таким образом, чтобы агент не мог дать быстрый ответ — они требуют развернутого анализа. ⁉️ Как обучают модель? Основным этапом обучения является создание длинных траекторий запросов, иногда до 20 шагов, где каждый запрос уточняет предыдущий. Изначально агент учится на размеченных данных (SFT), а затем проходит этап усиления с помощью обучения с подкреплением (RL). Это помогает модели не останавливаться на первом попавшемся ответе, а продолжать искать до тех пор, пока не будет найдено точное решение. 🔼 На практике, агент InfoAgent демонстрирует выдающиеся результаты. Например, на сложных бенчмарках он показывает отличные результаты, часто обходя более крупные модели с большим количеством параметров. При этом переход от SFT к RL существенно повышает точность поиска, делая результаты более разнообразными и точными.InfoAgent наглядно демонстрирует, как можно улучшить работу LLM с поиском в интернете. Он учит модель не просто генерировать ответы, а проводить глубокий анализ данных, проверять факты и делать выводы, как это делал бы каждый их нас. В конечном итоге, это подход, который может стать незаменимым в продуктах, где важна точность, проверка источников и репродукция информации. Data Science
И качество оказалось намного хуже, чем ты ожидал.Первая мысль обычно:
«Нужна модель посложнее».По опыту, это ошибка процентов в 80 случаев.
Чаще проблема вообще не в модели.Первое, что стоит проверить — данные Очень часто оказывается, что: 👉 target шумный 👉 классы плохо разделяются 👉 половина фич бесполезна 👉 в данных мало сигнала
Некоторые задачи в принципе плохо предсказываются.И это нормально. Есть ощущение, что многие ждут от ML магии:
«Если модель умная — она всё найдёт сама».Не найдёт. Если в данных нет устойчивой закономерности, XGBoost её не создаст. Вторая проблема — leakage или плохой split Особенно в табличных данных. Иногда offline всё красиво: 👉 ROC-AUC = 0.95 👉 accuracy почти идеальная А потом модель разваливается на новых данных. И наоборот тоже бывает:
Метрики низкие, потому что split слишком жёсткий и реалистичный.Ещё одна частая история — неправильная метрика Например: 👉 оптимизируют accuracy при сильном дисбалансе 👉 смотрят ROC-AUC там, где важен precision 👉 радуются хорошему loss, который ничего не значит для бизнеса
Модель может быть «математически хорошей» и бесполезной одновременно.Baseline почти всегда недооценивают Иногда: 👉 логистическая регрессия 👉 среднее по группе 👉 простое правило руками дают результат близкий к сложной модели.
И это не провал.Наоборот. Это хороший сигнал, что задача либо почти линейная, либо данных мало. Есть ещё неприятная вещь Некоторые задачи просто не стоят ML. Серьёзно. Бывает, что: 👉 данных недостаточно 👉 поддержка модели дороже выгоды 👉 бизнес-эффект минимальный Но многие продолжают: 👉 тюнить learning rate 👉 менять архитектуры 👉 гонять AutoML 👉 перебирать 40 моделей
Потому что «мы же делаем AI».Хотя даже нормально не посмотрели: 👉 распределения 👉 ошибки модели 👉 качество target’а
А именно там обычно и лежит ответ.
1. Где галлюцинации — это «нормально» Модель не знает, она продолжает LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину. Недостаток или неоднозначность данных Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения. Креативные задачи В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде. 2. Где начинаются проблемы Фактические вопросы Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду. Генерация кода • Функции, которых не существует. • API, которых никогда не было. • Код выглядит правильно — пока не запускаешь. Критические домены Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа. Уверенный тон без знаний Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается. 3. Что реально снижает галлюцинации RAG (привязка к данным) Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий. Дообучение и выравнивание RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой. Чёткие инструкции: — отвечай только по контексту — если не знаешь — скажи — обоснуй каждый шаг Иногда этого уже достаточно. • Пост-проверки и правила • Тесты для кода • Проверка ссылок • Фильтры на запрещённые паттерны Попросить модель: — проверить себя — оценить уверенность — пересмотреть ответ 4. Что отличает надёжную систему от «просто LLM» — Модель не единственный источник истины — Есть данные, проверки и ограничения — Ошибка ловится до пользователя — Уверенность ≠ корректностьГаллюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать. Data Science
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
