Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Mostrar más📈 Análisis del canal de Telegram Data Science | Machinelearning [ru]
El canal Data Science | Machinelearning [ru] (@devsp) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 20 079 suscriptores, ocupando la posición 6 731 en la categoría Tecnologías y Aplicaciones y el puesto 33 728 en la región Rusia.
📊 Métricas de audiencia y dinámica
Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 20 079 suscriptores.
Según los últimos datos del 11 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -38, y en las últimas 24 horas de 40, conservando un alto alcance.
- Estado de verificación: No verificado
- Tasa de interacción (ER): El promedio de interacción de la audiencia es 7.58%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 4.23% de reacciones respecto al total de suscriptores.
- Alcance de las publicaciones: Cada publicación recibe en promedio 1 521 visualizaciones. En el primer día suele acumular 849 visualizaciones.
- Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 6.
- Intereses temáticos: El contenido se centra en temas clave como llm, nvidia, контекст, openai, архитектура.
📝 Descripción y política de contenido
El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 12 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.
🎓 Диплом гособразцаОфициальный диплом о профессиональной переподготовке с квалификацией «Специалист по большим данным».
💯 ПрактикаБолее 40 практических работ в формате симуляции реальной работы DL-инженера — всё пойдёт в портфолио.
🙌🏽 Онлайн обучениеУчитесь из любой точки мира, совмещая с работой, а доступ к материалам останется навсегда. Курс подходит для специалистов любого уровня: новичок, аналитик, ML-инженер или выпускник — на программе опытные менторы помогут выстроить вашу персональную траекторию роста в Deep Learning. Что вы освоите: 🟠Создание и обучение нейросетей с нуля 🟠Компьютерное зрение (Computer Vision) 🟠NLP (обработка текста) 🟠Генеративные модели 🟠MLOps и продакшн-подход 🕖 Старт обучения — 12 марта, количество мест на поток ограничено Бронируйте место на курсе прямо сейчас и получите скидку 30% 😶ПОЛУЧИТЬ СКИДКУ НА КУРС
— Вписываем в браузер адрес chrome://flags/; — Находим параметр Optimization Guide On Device Model и отключаем его; — Повторяем с пунктом Prompt API; — Находим на диске по пути AppData/Local/Google/Chrome/User Data/OptGuideOnDeviceModel/ файл весом в 4 ГБ и удаляем его.Не благодарите ✖️ xCode Journal
До Transformer были: 👉 RNN 👉 LSTM 👉 GRU Они читали текст последовательно — слово за словом. Проблемы: 👉 плохо запоминали длинный контекст 👉 обучались медленно 👉 не параллелились Нужно было что-то принципиально другое.Главная идея Transformer — Attention
Transformer не читает текст по порядку. Он смотрит на всё предложение сразу и решает, какие слова важны друг для друга. Например: «Я положил ноутбук на стол, потому что он был тяжёлый» Что значит «он»? Transformer вычисляет, к какому слову это относится, через механизм внимания. Это называется Self-Attention.Что такое Self-Attention интуитивно
Представь, что каждое слово: 👉 смотрит на остальные слова 👉 решает, кому доверять больше 👉 взвешивает их влияние Математически это: 👉 Query 👉 Key 👉 Value 👉 Softmax 👉 взвешенная сумма Интуитивно — это просто умное распределение внимания.Почему это революция
👉 модель видит весь контекст сразу 👉 можно обучать параллельно 👉 отлично работает с длинными последовательностями 👉 хорошо масштабируется Именно поэтому после статьи Attention Is All You Need всё изменилось.Из чего состоит Transformer
Если сильно упростить: 👉 Embedding 👉 Positional Encoding 👉 Multi-Head Attention 👉 Feed Forward Network 👉 Residual + LayerNorm И всё это повторяется много раз слоями.Почему LLM — это просто большой Transformer
Потому что если: 👉 увеличить количество слоёв 👉 увеличить размерность 👉 увеличить объём данных получается модель, способная: 👉 писать код 👉 объяснять физику 👉 переводить языки 👉 вести диалогВ одном предложении Transformer — это архитектура, которая понимает текст через внимание ко всему контексту сразу.
Формула максимально простая:
Accuracy =
(количество правильных предсказаний / общее количество объектов)
Если модель угадывает 90% объектов - кажется, что всё отлично.
Но есть одна проблема 👇
Когда Accuracy полностью врёт
Представим задачу: 👉 1000 клиентов 👉 950 — не уйдут (класс 0) 👉 50 — уйдут (класс 1) Модель, которая всегда предсказывает «0», получит: 👉 950 правильных предсказаний 👉 Accuracy = 95% 95% — звучит круто. Но модель вообще не находит тех 50 клиентов, ради которых бизнес запускал проект. Она бесполезна.Проблема №1 — дисбаланс классов
Accuracy не чувствительна к перекосу данных. В задачах: 👉 Fraud detection 👉 Churn prediction 👉 Medical diagnosis дисбаланс — это норма, а не исключение. И accuracy начинает вводить в заблуждение.Проблема №2 — разные ошибки стоят по-разному
В медицине: 👉 False Negative → пациент болен, модель сказала «здоров» 👉 False Positive → пациент здоров, модель сказала «болен» Цена ошибок совершенно разная. Accuracy этого не учитывает.Что использовать вместо Accuracy?
Зависит от задачи. Если важен поиск редкого класса: 👉 Recall 👉 Precision 👉 F1-score Если важен баланс: 👉 ROC-AUC 👉 PR-AUC Если классы несбалансированы: 👉 Balanced AccuracyКогда Accuracy всё-таки можно использовать? 👉 Когда классы сбалансированы 👉 Когда стоимость ошибок одинакова 👉 Когда это baseline Во всех остальных случаях - это иллюзия качества. Вывод Accuracy - не плохая метрика. Плохой - слепой выбор метрики. Метрика должна соответствовать бизнес-задаче. Иначе вы оптимизируете красивую цифру, а не реальную пользу.
🎓 Диплом гособразцаОфициальный диплом о профессиональной переподготовке с квалификацией «Специалист по большим данным».
💯 ПрактикаБолее 40 практических работ в формате симуляции реальной работы DL-инженера — всё пойдёт в портфолио.
🙌🏽 Онлайн обучениеУчитесь из любой точки мира, совмещая с работой, а доступ к материалам останется навсегда. Курс подходит для специалистов любого уровня: новичок, аналитик, ML-инженер или выпускник — на программе опытные менторы помогут выстроить вашу персональную траекторию роста в Deep Learning. Что вы освоите: 🟠Создание и обучение нейросетей с нуля 🟠Компьютерное зрение (Computer Vision) 🟠NLP (обработка текста) 🟠Генеративные модели 🟠MLOps и продакшн-подход 🕖 Старт обучения — 12 марта, количество мест на поток ограничено Бронируйте место на курсе прямо сейчас и получите скидку 30% 😶ПОЛУЧИТЬ СКИДКУ НА КУРС
Формула максимально простая:
Accuracy =
(количество правильных предсказаний / общее количество объектов)
Если модель угадывает 90% объектов - кажется, что всё отлично.
Но есть одна проблема 👇
Когда Accuracy полностью врёт
Представим задачу: 👉 1000 клиентов 👉 950 — не уйдут (класс 0) 👉 50 — уйдут (класс 1) Модель, которая всегда предсказывает «0», получит: 👉 950 правильных предсказаний 👉 Accuracy = 95% 95% — звучит круто. Но модель вообще не находит тех 50 клиентов, ради которых бизнес запускал проект. Она бесполезна.Проблема №1 — дисбаланс классов
Accuracy не чувствительна к перекосу данных. В задачах: 👉 Fraud detection 👉 Churn prediction 👉 Medical diagnosis дисбаланс — это норма, а не исключение. И accuracy начинает вводить в заблуждение.Проблема №2 — разные ошибки стоят по-разному
В медицине: 👉 False Negative → пациент болен, модель сказала «здоров» 👉 False Positive → пациент здоров, модель сказала «болен» Цена ошибок совершенно разная. Accuracy этого не учитывает.Что использовать вместо Accuracy?
Зависит от задачи. Если важен поиск редкого класса: 👉 Recall 👉 Precision 👉 F1-score Если важен баланс: 👉 ROC-AUC 👉 PR-AUC Если классы несбалансированы: 👉 Balanced AccuracyКогда Accuracy всё-таки можно использовать? 👉 Когда классы сбалансированы 👉 Когда стоимость ошибок одинакова 👉 Когда это baseline Во всех остальных случаях - это иллюзия качества. Вывод Accuracy - не плохая метрика. Плохой - слепой выбор метрики. Метрика должна соответствовать бизнес-задаче. Иначе вы оптимизируете красивую цифру, а не реальную пользу.
1. Где галлюцинации — это «нормально» Модель не знает, она продолжает LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину. Недостаток или неоднозначность данных Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения. Креативные задачи В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде. 2. Где начинаются проблемы Фактические вопросы Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду. Генерация кода • Функции, которых не существует. • API, которых никогда не было. • Код выглядит правильно — пока не запускаешь. Критические домены Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа. Уверенный тон без знаний Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается. 3. Что реально снижает галлюцинации RAG (привязка к данным) Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий. Дообучение и выравнивание RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой. Чёткие инструкции: — отвечай только по контексту — если не знаешь — скажи — обоснуй каждый шаг Иногда этого уже достаточно. • Пост-проверки и правила • Тесты для кода • Проверка ссылок • Фильтры на запрещённые паттерны Попросить модель: — проверить себя — оценить уверенность — пересмотреть ответ 4. Что отличает надёжную систему от «просто LLM» — Модель не единственный источник истины — Есть данные, проверки и ограничения — Ошибка ловится до пользователя — Уверенность ≠ корректностьГаллюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать. Data Science
Где данные всё ещё — это win • Очищенный веб вместо «сырого интернета» CommonCrawl никуда не делся, но в обучение идут уже не сырые скрейпы, а сильно отфильтрованные корпуса. Примеры вроде FineWeb и FineWeb-Edu на Hugging Face показывают новый стандарт: меньше объёма, больше смысла, жёсткая дедупликация и фильтрация AI-мусора. • Код и инженерные следы Даже если вопросов становится меньше, разработчики продолжают писать код. Репозитории, PR, issue-дискуссии, changelog’и и migration-гайды — стабильный источник свежего прикладного знания, особенно для reasoning и tool-use. • Книги и архивы public domain Происходит тихий разворот к «старым» источникам. Они качественнее случайного веба и юридически безопаснее. Например, корпус public-domain книг от Harvard University — это почти учебник для будущих моделей. • Логи взаимодействий с продуктами Диалоги пользователей с ассистентами, оценки «полезно / не полезно», исправления — золото для instruction-tuning и RL. Именно здесь появляется знание о том, как моделью реально пользуются. Где начинаются выстрелы в ногу • Исчезновение бесплатных Q&A Знания уходят в закрытые чаты, корпоративные базы, Slack и Discord. Публичный слой интернета беднеет, а модели теряют источник «живых» инженерных кейсов. • AI-засорение веба Самоповторы, SEO-копипаст и синтетика поверх синтетики. Без жёсткой фильтрации это прямой путь к деградации качества. • Синтетические данные без тормозов Синтетика дёшева и удобна, но перекорм приводит к замыканию на собственных ошибках и стилю «копия копии». Рабочие пайплайны держатся только на смеси: реальное + синтетика + фильтры. • Юридические риски Компании всё меньше готовы «скрейпить и разбираться потом». Лицензирование и партнёрства становятся нормой — как у OpenAI с Stack Overflow. Что отличает устойчивые датасеты будущего — Курирование вместо гонки за объёмом — Model-based filtering и дедупликация — Чёткое происхождение данных — Смесь источников, а не ставка на один — Версионирование и воспроизводимостьБудущее обучения ИИ — это меньше данных, но больше инженерии вокруг них. И если раньше узким местом были модели, то в 2026-м им станет именно качество и происхождение датасетов. Data Science
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
