Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
显示更多📈 Telegram 频道 Data Science | Machinelearning [ru] 的分析概览
频道 Data Science | Machinelearning [ru] (@devsp) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 20 077 名订阅者,在 技术与应用 类别中位列第 6 731,并在 俄罗斯 地区排名第 33 728 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 20 077 名订阅者。
根据 11 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -38,过去 24 小时变化为 40,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 7.58%。内容发布后 24 小时内通常能获得 4.23% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 1 521 次浏览,首日通常累积 849 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 6。
- 主题关注点: 内容集中在 llm, nvidia, контекст, openai, архитектура 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
凭借高频更新(最新数据采集于 12 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
🎓 Диплом гособразцаОфициальный диплом о профессиональной переподготовке с квалификацией «Специалист по большим данным».
💯 ПрактикаБолее 40 практических работ в формате симуляции реальной работы DL-инженера — всё пойдёт в портфолио.
🙌🏽 Онлайн обучениеУчитесь из любой точки мира, совмещая с работой, а доступ к материалам останется навсегда. Курс подходит для специалистов любого уровня: новичок, аналитик, ML-инженер или выпускник — на программе опытные менторы помогут выстроить вашу персональную траекторию роста в Deep Learning. Что вы освоите: 🟠Создание и обучение нейросетей с нуля 🟠Компьютерное зрение (Computer Vision) 🟠NLP (обработка текста) 🟠Генеративные модели 🟠MLOps и продакшн-подход 🕖 Старт обучения — 12 марта, количество мест на поток ограничено Бронируйте место на курсе прямо сейчас и получите скидку 30% 😶ПОЛУЧИТЬ СКИДКУ НА КУРС
— Вписываем в браузер адрес chrome://flags/; — Находим параметр Optimization Guide On Device Model и отключаем его; — Повторяем с пунктом Prompt API; — Находим на диске по пути AppData/Local/Google/Chrome/User Data/OptGuideOnDeviceModel/ файл весом в 4 ГБ и удаляем его.Не благодарите ✖️ xCode Journal
До Transformer были: 👉 RNN 👉 LSTM 👉 GRU Они читали текст последовательно — слово за словом. Проблемы: 👉 плохо запоминали длинный контекст 👉 обучались медленно 👉 не параллелились Нужно было что-то принципиально другое.Главная идея Transformer — Attention
Transformer не читает текст по порядку. Он смотрит на всё предложение сразу и решает, какие слова важны друг для друга. Например: «Я положил ноутбук на стол, потому что он был тяжёлый» Что значит «он»? Transformer вычисляет, к какому слову это относится, через механизм внимания. Это называется Self-Attention.Что такое Self-Attention интуитивно
Представь, что каждое слово: 👉 смотрит на остальные слова 👉 решает, кому доверять больше 👉 взвешивает их влияние Математически это: 👉 Query 👉 Key 👉 Value 👉 Softmax 👉 взвешенная сумма Интуитивно — это просто умное распределение внимания.Почему это революция
👉 модель видит весь контекст сразу 👉 можно обучать параллельно 👉 отлично работает с длинными последовательностями 👉 хорошо масштабируется Именно поэтому после статьи Attention Is All You Need всё изменилось.Из чего состоит Transformer
Если сильно упростить: 👉 Embedding 👉 Positional Encoding 👉 Multi-Head Attention 👉 Feed Forward Network 👉 Residual + LayerNorm И всё это повторяется много раз слоями.Почему LLM — это просто большой Transformer
Потому что если: 👉 увеличить количество слоёв 👉 увеличить размерность 👉 увеличить объём данных получается модель, способная: 👉 писать код 👉 объяснять физику 👉 переводить языки 👉 вести диалогВ одном предложении Transformer — это архитектура, которая понимает текст через внимание ко всему контексту сразу.
Формула максимально простая:
Accuracy =
(количество правильных предсказаний / общее количество объектов)
Если модель угадывает 90% объектов - кажется, что всё отлично.
Но есть одна проблема 👇
Когда Accuracy полностью врёт
Представим задачу: 👉 1000 клиентов 👉 950 — не уйдут (класс 0) 👉 50 — уйдут (класс 1) Модель, которая всегда предсказывает «0», получит: 👉 950 правильных предсказаний 👉 Accuracy = 95% 95% — звучит круто. Но модель вообще не находит тех 50 клиентов, ради которых бизнес запускал проект. Она бесполезна.Проблема №1 — дисбаланс классов
Accuracy не чувствительна к перекосу данных. В задачах: 👉 Fraud detection 👉 Churn prediction 👉 Medical diagnosis дисбаланс — это норма, а не исключение. И accuracy начинает вводить в заблуждение.Проблема №2 — разные ошибки стоят по-разному
В медицине: 👉 False Negative → пациент болен, модель сказала «здоров» 👉 False Positive → пациент здоров, модель сказала «болен» Цена ошибок совершенно разная. Accuracy этого не учитывает.Что использовать вместо Accuracy?
Зависит от задачи. Если важен поиск редкого класса: 👉 Recall 👉 Precision 👉 F1-score Если важен баланс: 👉 ROC-AUC 👉 PR-AUC Если классы несбалансированы: 👉 Balanced AccuracyКогда Accuracy всё-таки можно использовать? 👉 Когда классы сбалансированы 👉 Когда стоимость ошибок одинакова 👉 Когда это baseline Во всех остальных случаях - это иллюзия качества. Вывод Accuracy - не плохая метрика. Плохой - слепой выбор метрики. Метрика должна соответствовать бизнес-задаче. Иначе вы оптимизируете красивую цифру, а не реальную пользу.
🎓 Диплом гособразцаОфициальный диплом о профессиональной переподготовке с квалификацией «Специалист по большим данным».
💯 ПрактикаБолее 40 практических работ в формате симуляции реальной работы DL-инженера — всё пойдёт в портфолио.
🙌🏽 Онлайн обучениеУчитесь из любой точки мира, совмещая с работой, а доступ к материалам останется навсегда. Курс подходит для специалистов любого уровня: новичок, аналитик, ML-инженер или выпускник — на программе опытные менторы помогут выстроить вашу персональную траекторию роста в Deep Learning. Что вы освоите: 🟠Создание и обучение нейросетей с нуля 🟠Компьютерное зрение (Computer Vision) 🟠NLP (обработка текста) 🟠Генеративные модели 🟠MLOps и продакшн-подход 🕖 Старт обучения — 12 марта, количество мест на поток ограничено Бронируйте место на курсе прямо сейчас и получите скидку 30% 😶ПОЛУЧИТЬ СКИДКУ НА КУРС
Формула максимально простая:
Accuracy =
(количество правильных предсказаний / общее количество объектов)
Если модель угадывает 90% объектов - кажется, что всё отлично.
Но есть одна проблема 👇
Когда Accuracy полностью врёт
Представим задачу: 👉 1000 клиентов 👉 950 — не уйдут (класс 0) 👉 50 — уйдут (класс 1) Модель, которая всегда предсказывает «0», получит: 👉 950 правильных предсказаний 👉 Accuracy = 95% 95% — звучит круто. Но модель вообще не находит тех 50 клиентов, ради которых бизнес запускал проект. Она бесполезна.Проблема №1 — дисбаланс классов
Accuracy не чувствительна к перекосу данных. В задачах: 👉 Fraud detection 👉 Churn prediction 👉 Medical diagnosis дисбаланс — это норма, а не исключение. И accuracy начинает вводить в заблуждение.Проблема №2 — разные ошибки стоят по-разному
В медицине: 👉 False Negative → пациент болен, модель сказала «здоров» 👉 False Positive → пациент здоров, модель сказала «болен» Цена ошибок совершенно разная. Accuracy этого не учитывает.Что использовать вместо Accuracy?
Зависит от задачи. Если важен поиск редкого класса: 👉 Recall 👉 Precision 👉 F1-score Если важен баланс: 👉 ROC-AUC 👉 PR-AUC Если классы несбалансированы: 👉 Balanced AccuracyКогда Accuracy всё-таки можно использовать? 👉 Когда классы сбалансированы 👉 Когда стоимость ошибок одинакова 👉 Когда это baseline Во всех остальных случаях - это иллюзия качества. Вывод Accuracy - не плохая метрика. Плохой - слепой выбор метрики. Метрика должна соответствовать бизнес-задаче. Иначе вы оптимизируете красивую цифру, а не реальную пользу.
1. Где галлюцинации — это «нормально» Модель не знает, она продолжает LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину. Недостаток или неоднозначность данных Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения. Креативные задачи В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде. 2. Где начинаются проблемы Фактические вопросы Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду. Генерация кода • Функции, которых не существует. • API, которых никогда не было. • Код выглядит правильно — пока не запускаешь. Критические домены Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа. Уверенный тон без знаний Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается. 3. Что реально снижает галлюцинации RAG (привязка к данным) Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий. Дообучение и выравнивание RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой. Чёткие инструкции: — отвечай только по контексту — если не знаешь — скажи — обоснуй каждый шаг Иногда этого уже достаточно. • Пост-проверки и правила • Тесты для кода • Проверка ссылок • Фильтры на запрещённые паттерны Попросить модель: — проверить себя — оценить уверенность — пересмотреть ответ 4. Что отличает надёжную систему от «просто LLM» — Модель не единственный источник истины — Есть данные, проверки и ограничения — Ошибка ловится до пользователя — Уверенность ≠ корректностьГаллюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать. Data Science
Где данные всё ещё — это win • Очищенный веб вместо «сырого интернета» CommonCrawl никуда не делся, но в обучение идут уже не сырые скрейпы, а сильно отфильтрованные корпуса. Примеры вроде FineWeb и FineWeb-Edu на Hugging Face показывают новый стандарт: меньше объёма, больше смысла, жёсткая дедупликация и фильтрация AI-мусора. • Код и инженерные следы Даже если вопросов становится меньше, разработчики продолжают писать код. Репозитории, PR, issue-дискуссии, changelog’и и migration-гайды — стабильный источник свежего прикладного знания, особенно для reasoning и tool-use. • Книги и архивы public domain Происходит тихий разворот к «старым» источникам. Они качественнее случайного веба и юридически безопаснее. Например, корпус public-domain книг от Harvard University — это почти учебник для будущих моделей. • Логи взаимодействий с продуктами Диалоги пользователей с ассистентами, оценки «полезно / не полезно», исправления — золото для instruction-tuning и RL. Именно здесь появляется знание о том, как моделью реально пользуются. Где начинаются выстрелы в ногу • Исчезновение бесплатных Q&A Знания уходят в закрытые чаты, корпоративные базы, Slack и Discord. Публичный слой интернета беднеет, а модели теряют источник «живых» инженерных кейсов. • AI-засорение веба Самоповторы, SEO-копипаст и синтетика поверх синтетики. Без жёсткой фильтрации это прямой путь к деградации качества. • Синтетические данные без тормозов Синтетика дёшева и удобна, но перекорм приводит к замыканию на собственных ошибках и стилю «копия копии». Рабочие пайплайны держатся только на смеси: реальное + синтетика + фильтры. • Юридические риски Компании всё меньше готовы «скрейпить и разбираться потом». Лицензирование и партнёрства становятся нормой — как у OpenAI с Stack Overflow. Что отличает устойчивые датасеты будущего — Курирование вместо гонки за объёмом — Model-based filtering и дедупликация — Чёткое происхождение данных — Смесь источников, а не ставка на один — Версионирование и воспроизводимостьБудущее обучения ИИ — это меньше данных, но больше инженерии вокруг них. И если раньше узким местом были модели, то в 2026-м им станет именно качество и происхождение датасетов. Data Science
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
