Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Показати більше📈 Аналітичний огляд Telegram-каналу Data Science | Machinelearning [ru]
Канал Data Science | Machinelearning [ru] (@devsp) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 20 077 підписників, посідаючи 6 731 місце в категорії Технології та додатки та 33 728 місце у регіоні Росія.
📊 Показники аудиторії та динаміка
З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 20 077 підписників.
За останніми даними від 11 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -38, а за останні 24 години на 40, загальне охоплення залишається високим.
- Статус верифікації: Не верифікований
- Рівень залученості (ER): Середній показник залученості аудиторії становить 7.58%. Протягом перших 24 годин після публікації контент зазвичай збирає 4.23% реакцій від загальної кількості підписників.
- Охоплення публікацій: В середньому кожен допис отримує 1 521 переглядів. Протягом першої доби публікація в середньому набирає 849 переглядів.
- Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 6.
- Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, nvidia, контекст, openai, архитектура.
📝 Опис та контентна політика
Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Завдяки високій частоті оновлень (останні дані отримано 12 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.
🎓 Диплом гособразцаОфициальный диплом о профессиональной переподготовке с квалификацией «Специалист по большим данным».
💯 ПрактикаБолее 40 практических работ в формате симуляции реальной работы DL-инженера — всё пойдёт в портфолио.
🙌🏽 Онлайн обучениеУчитесь из любой точки мира, совмещая с работой, а доступ к материалам останется навсегда. Курс подходит для специалистов любого уровня: новичок, аналитик, ML-инженер или выпускник — на программе опытные менторы помогут выстроить вашу персональную траекторию роста в Deep Learning. Что вы освоите: 🟠Создание и обучение нейросетей с нуля 🟠Компьютерное зрение (Computer Vision) 🟠NLP (обработка текста) 🟠Генеративные модели 🟠MLOps и продакшн-подход 🕖 Старт обучения — 12 марта, количество мест на поток ограничено Бронируйте место на курсе прямо сейчас и получите скидку 30% 😶ПОЛУЧИТЬ СКИДКУ НА КУРС
— Вписываем в браузер адрес chrome://flags/; — Находим параметр Optimization Guide On Device Model и отключаем его; — Повторяем с пунктом Prompt API; — Находим на диске по пути AppData/Local/Google/Chrome/User Data/OptGuideOnDeviceModel/ файл весом в 4 ГБ и удаляем его.Не благодарите ✖️ xCode Journal
До Transformer были: 👉 RNN 👉 LSTM 👉 GRU Они читали текст последовательно — слово за словом. Проблемы: 👉 плохо запоминали длинный контекст 👉 обучались медленно 👉 не параллелились Нужно было что-то принципиально другое.Главная идея Transformer — Attention
Transformer не читает текст по порядку. Он смотрит на всё предложение сразу и решает, какие слова важны друг для друга. Например: «Я положил ноутбук на стол, потому что он был тяжёлый» Что значит «он»? Transformer вычисляет, к какому слову это относится, через механизм внимания. Это называется Self-Attention.Что такое Self-Attention интуитивно
Представь, что каждое слово: 👉 смотрит на остальные слова 👉 решает, кому доверять больше 👉 взвешивает их влияние Математически это: 👉 Query 👉 Key 👉 Value 👉 Softmax 👉 взвешенная сумма Интуитивно — это просто умное распределение внимания.Почему это революция
👉 модель видит весь контекст сразу 👉 можно обучать параллельно 👉 отлично работает с длинными последовательностями 👉 хорошо масштабируется Именно поэтому после статьи Attention Is All You Need всё изменилось.Из чего состоит Transformer
Если сильно упростить: 👉 Embedding 👉 Positional Encoding 👉 Multi-Head Attention 👉 Feed Forward Network 👉 Residual + LayerNorm И всё это повторяется много раз слоями.Почему LLM — это просто большой Transformer
Потому что если: 👉 увеличить количество слоёв 👉 увеличить размерность 👉 увеличить объём данных получается модель, способная: 👉 писать код 👉 объяснять физику 👉 переводить языки 👉 вести диалогВ одном предложении Transformer — это архитектура, которая понимает текст через внимание ко всему контексту сразу.
Формула максимально простая:
Accuracy =
(количество правильных предсказаний / общее количество объектов)
Если модель угадывает 90% объектов - кажется, что всё отлично.
Но есть одна проблема 👇
Когда Accuracy полностью врёт
Представим задачу: 👉 1000 клиентов 👉 950 — не уйдут (класс 0) 👉 50 — уйдут (класс 1) Модель, которая всегда предсказывает «0», получит: 👉 950 правильных предсказаний 👉 Accuracy = 95% 95% — звучит круто. Но модель вообще не находит тех 50 клиентов, ради которых бизнес запускал проект. Она бесполезна.Проблема №1 — дисбаланс классов
Accuracy не чувствительна к перекосу данных. В задачах: 👉 Fraud detection 👉 Churn prediction 👉 Medical diagnosis дисбаланс — это норма, а не исключение. И accuracy начинает вводить в заблуждение.Проблема №2 — разные ошибки стоят по-разному
В медицине: 👉 False Negative → пациент болен, модель сказала «здоров» 👉 False Positive → пациент здоров, модель сказала «болен» Цена ошибок совершенно разная. Accuracy этого не учитывает.Что использовать вместо Accuracy?
Зависит от задачи. Если важен поиск редкого класса: 👉 Recall 👉 Precision 👉 F1-score Если важен баланс: 👉 ROC-AUC 👉 PR-AUC Если классы несбалансированы: 👉 Balanced AccuracyКогда Accuracy всё-таки можно использовать? 👉 Когда классы сбалансированы 👉 Когда стоимость ошибок одинакова 👉 Когда это baseline Во всех остальных случаях - это иллюзия качества. Вывод Accuracy - не плохая метрика. Плохой - слепой выбор метрики. Метрика должна соответствовать бизнес-задаче. Иначе вы оптимизируете красивую цифру, а не реальную пользу.
🎓 Диплом гособразцаОфициальный диплом о профессиональной переподготовке с квалификацией «Специалист по большим данным».
💯 ПрактикаБолее 40 практических работ в формате симуляции реальной работы DL-инженера — всё пойдёт в портфолио.
🙌🏽 Онлайн обучениеУчитесь из любой точки мира, совмещая с работой, а доступ к материалам останется навсегда. Курс подходит для специалистов любого уровня: новичок, аналитик, ML-инженер или выпускник — на программе опытные менторы помогут выстроить вашу персональную траекторию роста в Deep Learning. Что вы освоите: 🟠Создание и обучение нейросетей с нуля 🟠Компьютерное зрение (Computer Vision) 🟠NLP (обработка текста) 🟠Генеративные модели 🟠MLOps и продакшн-подход 🕖 Старт обучения — 12 марта, количество мест на поток ограничено Бронируйте место на курсе прямо сейчас и получите скидку 30% 😶ПОЛУЧИТЬ СКИДКУ НА КУРС
Формула максимально простая:
Accuracy =
(количество правильных предсказаний / общее количество объектов)
Если модель угадывает 90% объектов - кажется, что всё отлично.
Но есть одна проблема 👇
Когда Accuracy полностью врёт
Представим задачу: 👉 1000 клиентов 👉 950 — не уйдут (класс 0) 👉 50 — уйдут (класс 1) Модель, которая всегда предсказывает «0», получит: 👉 950 правильных предсказаний 👉 Accuracy = 95% 95% — звучит круто. Но модель вообще не находит тех 50 клиентов, ради которых бизнес запускал проект. Она бесполезна.Проблема №1 — дисбаланс классов
Accuracy не чувствительна к перекосу данных. В задачах: 👉 Fraud detection 👉 Churn prediction 👉 Medical diagnosis дисбаланс — это норма, а не исключение. И accuracy начинает вводить в заблуждение.Проблема №2 — разные ошибки стоят по-разному
В медицине: 👉 False Negative → пациент болен, модель сказала «здоров» 👉 False Positive → пациент здоров, модель сказала «болен» Цена ошибок совершенно разная. Accuracy этого не учитывает.Что использовать вместо Accuracy?
Зависит от задачи. Если важен поиск редкого класса: 👉 Recall 👉 Precision 👉 F1-score Если важен баланс: 👉 ROC-AUC 👉 PR-AUC Если классы несбалансированы: 👉 Balanced AccuracyКогда Accuracy всё-таки можно использовать? 👉 Когда классы сбалансированы 👉 Когда стоимость ошибок одинакова 👉 Когда это baseline Во всех остальных случаях - это иллюзия качества. Вывод Accuracy - не плохая метрика. Плохой - слепой выбор метрики. Метрика должна соответствовать бизнес-задаче. Иначе вы оптимизируете красивую цифру, а не реальную пользу.
1. Где галлюцинации — это «нормально» Модель не знает, она продолжает LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину. Недостаток или неоднозначность данных Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения. Креативные задачи В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде. 2. Где начинаются проблемы Фактические вопросы Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду. Генерация кода • Функции, которых не существует. • API, которых никогда не было. • Код выглядит правильно — пока не запускаешь. Критические домены Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа. Уверенный тон без знаний Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается. 3. Что реально снижает галлюцинации RAG (привязка к данным) Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий. Дообучение и выравнивание RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой. Чёткие инструкции: — отвечай только по контексту — если не знаешь — скажи — обоснуй каждый шаг Иногда этого уже достаточно. • Пост-проверки и правила • Тесты для кода • Проверка ссылок • Фильтры на запрещённые паттерны Попросить модель: — проверить себя — оценить уверенность — пересмотреть ответ 4. Что отличает надёжную систему от «просто LLM» — Модель не единственный источник истины — Есть данные, проверки и ограничения — Ошибка ловится до пользователя — Уверенность ≠ корректностьГаллюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать. Data Science
Где данные всё ещё — это win • Очищенный веб вместо «сырого интернета» CommonCrawl никуда не делся, но в обучение идут уже не сырые скрейпы, а сильно отфильтрованные корпуса. Примеры вроде FineWeb и FineWeb-Edu на Hugging Face показывают новый стандарт: меньше объёма, больше смысла, жёсткая дедупликация и фильтрация AI-мусора. • Код и инженерные следы Даже если вопросов становится меньше, разработчики продолжают писать код. Репозитории, PR, issue-дискуссии, changelog’и и migration-гайды — стабильный источник свежего прикладного знания, особенно для reasoning и tool-use. • Книги и архивы public domain Происходит тихий разворот к «старым» источникам. Они качественнее случайного веба и юридически безопаснее. Например, корпус public-domain книг от Harvard University — это почти учебник для будущих моделей. • Логи взаимодействий с продуктами Диалоги пользователей с ассистентами, оценки «полезно / не полезно», исправления — золото для instruction-tuning и RL. Именно здесь появляется знание о том, как моделью реально пользуются. Где начинаются выстрелы в ногу • Исчезновение бесплатных Q&A Знания уходят в закрытые чаты, корпоративные базы, Slack и Discord. Публичный слой интернета беднеет, а модели теряют источник «живых» инженерных кейсов. • AI-засорение веба Самоповторы, SEO-копипаст и синтетика поверх синтетики. Без жёсткой фильтрации это прямой путь к деградации качества. • Синтетические данные без тормозов Синтетика дёшева и удобна, но перекорм приводит к замыканию на собственных ошибках и стилю «копия копии». Рабочие пайплайны держатся только на смеси: реальное + синтетика + фильтры. • Юридические риски Компании всё меньше готовы «скрейпить и разбираться потом». Лицензирование и партнёрства становятся нормой — как у OpenAI с Stack Overflow. Что отличает устойчивые датасеты будущего — Курирование вместо гонки за объёмом — Model-based filtering и дедупликация — Чёткое происхождение данных — Смесь источников, а не ставка на один — Версионирование и воспроизводимостьБудущее обучения ИИ — это меньше данных, но больше инженерии вокруг них. И если раньше узким местом были модели, то в 2026-м им станет именно качество и происхождение датасетов. Data Science
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
