Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
إظهار المزيد📈 نظرة تحليلية على قناة تيليجرام Data Science | Machinelearning [ru]
تُعد قناة Data Science | Machinelearning [ru] (@devsp) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 20 077 مشتركاً، محتلاً المرتبة 6 731 في فئة التكنولوجيات والتطبيقات والمرتبة 33 728 في منطقة روسيا.
📊 مؤشرات الجمهور والحراك
منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 20 077 مشتركاً.
بحسب آخر البيانات بتاريخ 11 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار -38، وفي آخر 24 ساعة بمقدار 40، مع بقاء الوصول العام مرتفعاً.
- حالة التحقق: غير موثّقة
- معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 7.58%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 4.23% من ردود الفعل نسبةً إلى إجمالي المشتركين.
- وصول المنشورات: يحصل كل منشور على متوسط 1 521 مشاهدة. وخلال اليوم الأول يجمع عادةً 849 مشاهدة.
- التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 6.
- الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل llm, nvidia, контекст, openai, архитектура.
📝 الوصف وسياسة المحتوى
يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 12 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.
🎓 Диплом гособразцаОфициальный диплом о профессиональной переподготовке с квалификацией «Специалист по большим данным».
💯 ПрактикаБолее 40 практических работ в формате симуляции реальной работы DL-инженера — всё пойдёт в портфолио.
🙌🏽 Онлайн обучениеУчитесь из любой точки мира, совмещая с работой, а доступ к материалам останется навсегда. Курс подходит для специалистов любого уровня: новичок, аналитик, ML-инженер или выпускник — на программе опытные менторы помогут выстроить вашу персональную траекторию роста в Deep Learning. Что вы освоите: 🟠Создание и обучение нейросетей с нуля 🟠Компьютерное зрение (Computer Vision) 🟠NLP (обработка текста) 🟠Генеративные модели 🟠MLOps и продакшн-подход 🕖 Старт обучения — 12 марта, количество мест на поток ограничено Бронируйте место на курсе прямо сейчас и получите скидку 30% 😶ПОЛУЧИТЬ СКИДКУ НА КУРС
— Вписываем в браузер адрес chrome://flags/; — Находим параметр Optimization Guide On Device Model и отключаем его; — Повторяем с пунктом Prompt API; — Находим на диске по пути AppData/Local/Google/Chrome/User Data/OptGuideOnDeviceModel/ файл весом в 4 ГБ и удаляем его.Не благодарите ✖️ xCode Journal
До Transformer были: 👉 RNN 👉 LSTM 👉 GRU Они читали текст последовательно — слово за словом. Проблемы: 👉 плохо запоминали длинный контекст 👉 обучались медленно 👉 не параллелились Нужно было что-то принципиально другое.Главная идея Transformer — Attention
Transformer не читает текст по порядку. Он смотрит на всё предложение сразу и решает, какие слова важны друг для друга. Например: «Я положил ноутбук на стол, потому что он был тяжёлый» Что значит «он»? Transformer вычисляет, к какому слову это относится, через механизм внимания. Это называется Self-Attention.Что такое Self-Attention интуитивно
Представь, что каждое слово: 👉 смотрит на остальные слова 👉 решает, кому доверять больше 👉 взвешивает их влияние Математически это: 👉 Query 👉 Key 👉 Value 👉 Softmax 👉 взвешенная сумма Интуитивно — это просто умное распределение внимания.Почему это революция
👉 модель видит весь контекст сразу 👉 можно обучать параллельно 👉 отлично работает с длинными последовательностями 👉 хорошо масштабируется Именно поэтому после статьи Attention Is All You Need всё изменилось.Из чего состоит Transformer
Если сильно упростить: 👉 Embedding 👉 Positional Encoding 👉 Multi-Head Attention 👉 Feed Forward Network 👉 Residual + LayerNorm И всё это повторяется много раз слоями.Почему LLM — это просто большой Transformer
Потому что если: 👉 увеличить количество слоёв 👉 увеличить размерность 👉 увеличить объём данных получается модель, способная: 👉 писать код 👉 объяснять физику 👉 переводить языки 👉 вести диалогВ одном предложении Transformer — это архитектура, которая понимает текст через внимание ко всему контексту сразу.
Формула максимально простая:
Accuracy =
(количество правильных предсказаний / общее количество объектов)
Если модель угадывает 90% объектов - кажется, что всё отлично.
Но есть одна проблема 👇
Когда Accuracy полностью врёт
Представим задачу: 👉 1000 клиентов 👉 950 — не уйдут (класс 0) 👉 50 — уйдут (класс 1) Модель, которая всегда предсказывает «0», получит: 👉 950 правильных предсказаний 👉 Accuracy = 95% 95% — звучит круто. Но модель вообще не находит тех 50 клиентов, ради которых бизнес запускал проект. Она бесполезна.Проблема №1 — дисбаланс классов
Accuracy не чувствительна к перекосу данных. В задачах: 👉 Fraud detection 👉 Churn prediction 👉 Medical diagnosis дисбаланс — это норма, а не исключение. И accuracy начинает вводить в заблуждение.Проблема №2 — разные ошибки стоят по-разному
В медицине: 👉 False Negative → пациент болен, модель сказала «здоров» 👉 False Positive → пациент здоров, модель сказала «болен» Цена ошибок совершенно разная. Accuracy этого не учитывает.Что использовать вместо Accuracy?
Зависит от задачи. Если важен поиск редкого класса: 👉 Recall 👉 Precision 👉 F1-score Если важен баланс: 👉 ROC-AUC 👉 PR-AUC Если классы несбалансированы: 👉 Balanced AccuracyКогда Accuracy всё-таки можно использовать? 👉 Когда классы сбалансированы 👉 Когда стоимость ошибок одинакова 👉 Когда это baseline Во всех остальных случаях - это иллюзия качества. Вывод Accuracy - не плохая метрика. Плохой - слепой выбор метрики. Метрика должна соответствовать бизнес-задаче. Иначе вы оптимизируете красивую цифру, а не реальную пользу.
🎓 Диплом гособразцаОфициальный диплом о профессиональной переподготовке с квалификацией «Специалист по большим данным».
💯 ПрактикаБолее 40 практических работ в формате симуляции реальной работы DL-инженера — всё пойдёт в портфолио.
🙌🏽 Онлайн обучениеУчитесь из любой точки мира, совмещая с работой, а доступ к материалам останется навсегда. Курс подходит для специалистов любого уровня: новичок, аналитик, ML-инженер или выпускник — на программе опытные менторы помогут выстроить вашу персональную траекторию роста в Deep Learning. Что вы освоите: 🟠Создание и обучение нейросетей с нуля 🟠Компьютерное зрение (Computer Vision) 🟠NLP (обработка текста) 🟠Генеративные модели 🟠MLOps и продакшн-подход 🕖 Старт обучения — 12 марта, количество мест на поток ограничено Бронируйте место на курсе прямо сейчас и получите скидку 30% 😶ПОЛУЧИТЬ СКИДКУ НА КУРС
Формула максимально простая:
Accuracy =
(количество правильных предсказаний / общее количество объектов)
Если модель угадывает 90% объектов - кажется, что всё отлично.
Но есть одна проблема 👇
Когда Accuracy полностью врёт
Представим задачу: 👉 1000 клиентов 👉 950 — не уйдут (класс 0) 👉 50 — уйдут (класс 1) Модель, которая всегда предсказывает «0», получит: 👉 950 правильных предсказаний 👉 Accuracy = 95% 95% — звучит круто. Но модель вообще не находит тех 50 клиентов, ради которых бизнес запускал проект. Она бесполезна.Проблема №1 — дисбаланс классов
Accuracy не чувствительна к перекосу данных. В задачах: 👉 Fraud detection 👉 Churn prediction 👉 Medical diagnosis дисбаланс — это норма, а не исключение. И accuracy начинает вводить в заблуждение.Проблема №2 — разные ошибки стоят по-разному
В медицине: 👉 False Negative → пациент болен, модель сказала «здоров» 👉 False Positive → пациент здоров, модель сказала «болен» Цена ошибок совершенно разная. Accuracy этого не учитывает.Что использовать вместо Accuracy?
Зависит от задачи. Если важен поиск редкого класса: 👉 Recall 👉 Precision 👉 F1-score Если важен баланс: 👉 ROC-AUC 👉 PR-AUC Если классы несбалансированы: 👉 Balanced AccuracyКогда Accuracy всё-таки можно использовать? 👉 Когда классы сбалансированы 👉 Когда стоимость ошибок одинакова 👉 Когда это baseline Во всех остальных случаях - это иллюзия качества. Вывод Accuracy - не плохая метрика. Плохой - слепой выбор метрики. Метрика должна соответствовать бизнес-задаче. Иначе вы оптимизируете красивую цифру, а не реальную пользу.
1. Где галлюцинации — это «нормально» Модель не знает, она продолжает LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину. Недостаток или неоднозначность данных Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения. Креативные задачи В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде. 2. Где начинаются проблемы Фактические вопросы Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду. Генерация кода • Функции, которых не существует. • API, которых никогда не было. • Код выглядит правильно — пока не запускаешь. Критические домены Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа. Уверенный тон без знаний Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается. 3. Что реально снижает галлюцинации RAG (привязка к данным) Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий. Дообучение и выравнивание RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой. Чёткие инструкции: — отвечай только по контексту — если не знаешь — скажи — обоснуй каждый шаг Иногда этого уже достаточно. • Пост-проверки и правила • Тесты для кода • Проверка ссылок • Фильтры на запрещённые паттерны Попросить модель: — проверить себя — оценить уверенность — пересмотреть ответ 4. Что отличает надёжную систему от «просто LLM» — Модель не единственный источник истины — Есть данные, проверки и ограничения — Ошибка ловится до пользователя — Уверенность ≠ корректностьГаллюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать. Data Science
Где данные всё ещё — это win • Очищенный веб вместо «сырого интернета» CommonCrawl никуда не делся, но в обучение идут уже не сырые скрейпы, а сильно отфильтрованные корпуса. Примеры вроде FineWeb и FineWeb-Edu на Hugging Face показывают новый стандарт: меньше объёма, больше смысла, жёсткая дедупликация и фильтрация AI-мусора. • Код и инженерные следы Даже если вопросов становится меньше, разработчики продолжают писать код. Репозитории, PR, issue-дискуссии, changelog’и и migration-гайды — стабильный источник свежего прикладного знания, особенно для reasoning и tool-use. • Книги и архивы public domain Происходит тихий разворот к «старым» источникам. Они качественнее случайного веба и юридически безопаснее. Например, корпус public-domain книг от Harvard University — это почти учебник для будущих моделей. • Логи взаимодействий с продуктами Диалоги пользователей с ассистентами, оценки «полезно / не полезно», исправления — золото для instruction-tuning и RL. Именно здесь появляется знание о том, как моделью реально пользуются. Где начинаются выстрелы в ногу • Исчезновение бесплатных Q&A Знания уходят в закрытые чаты, корпоративные базы, Slack и Discord. Публичный слой интернета беднеет, а модели теряют источник «живых» инженерных кейсов. • AI-засорение веба Самоповторы, SEO-копипаст и синтетика поверх синтетики. Без жёсткой фильтрации это прямой путь к деградации качества. • Синтетические данные без тормозов Синтетика дёшева и удобна, но перекорм приводит к замыканию на собственных ошибках и стилю «копия копии». Рабочие пайплайны держатся только на смеси: реальное + синтетика + фильтры. • Юридические риски Компании всё меньше готовы «скрейпить и разбираться потом». Лицензирование и партнёрства становятся нормой — как у OpenAI с Stack Overflow. Что отличает устойчивые датасеты будущего — Курирование вместо гонки за объёмом — Model-based filtering и дедупликация — Чёткое происхождение данных — Смесь источников, а не ставка на один — Версионирование и воспроизводимостьБудущее обучения ИИ — это меньше данных, но больше инженерии вокруг них. И если раньше узким местом были модели, то в 2026-м им станет именно качество и происхождение датасетов. Data Science
متاح الآن! بحث تيليغرام 2025 — أهم رؤى العام 
