Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
إظهار المزيد📈 نظرة تحليلية على قناة تيليجرام Data Science | Machinelearning [ru]
تُعد قناة Data Science | Machinelearning [ru] (@devsp) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 20 041 مشتركاً، محتلاً المرتبة 6 742 في فئة التكنولوجيات والتطبيقات والمرتبة 33 823 في منطقة روسيا.
📊 مؤشرات الجمهور والحراك
منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 20 041 مشتركاً.
بحسب آخر البيانات بتاريخ 10 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار -77، وفي آخر 24 ساعة بمقدار 20، مع بقاء الوصول العام مرتفعاً.
- حالة التحقق: غير موثّقة
- معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 7.47%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 4.21% من ردود الفعل نسبةً إلى إجمالي المشتركين.
- وصول المنشورات: يحصل كل منشور على متوسط 1 496 مشاهدة. وخلال اليوم الأول يجمع عادةً 844 مشاهدة.
- التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 6.
- الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل llm, nvidia, контекст, openai, архитектура.
📝 الوصف وسياسة المحتوى
يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 11 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.
1. Где галлюцинации — это «нормально» Модель не знает, она продолжает LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину. Недостаток или неоднозначность данных Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения. Креативные задачи В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде. 2. Где начинаются проблемы Фактические вопросы Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду. Генерация кода • Функции, которых не существует. • API, которых никогда не было. • Код выглядит правильно — пока не запускаешь. Критические домены Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа. Уверенный тон без знаний Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается. 3. Что реально снижает галлюцинации RAG (привязка к данным) Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий. Дообучение и выравнивание RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой. Чёткие инструкции: — отвечай только по контексту — если не знаешь — скажи — обоснуй каждый шаг Иногда этого уже достаточно. • Пост-проверки и правила • Тесты для кода • Проверка ссылок • Фильтры на запрещённые паттерны Попросить модель: — проверить себя — оценить уверенность — пересмотреть ответ 4. Что отличает надёжную систему от «просто LLM» — Модель не единственный источник истины — Есть данные, проверки и ограничения — Ошибка ловится до пользователя — Уверенность ≠ корректностьГаллюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать. Data Science
У кого больше GPU и денег — тот и главный.Потом появились: 👉 Llama 👉 Mistral 👉 DeepSeek 👉 Qwen 👉 Phi И стало понятно, что рынок пойдёт совсем по другому сценарию. Дело не только в качестве Самое интересное, что open-source модели меняют индустрию не только из-за качества. Хотя с качеством у них уже всё довольно неплохо. Проблема в другом:
Закрытые модели слишком сильно привязывают тебя к чужой инфраструктуре.Сегодня API работает. Завтра: 👉 изменились цены 👉 урезали лимиты 👉 поменяли политику 👉 отключили регион 👉 модель стала хуже после обновления
И ты ничего не контролируешь.Почему open-source меняет правила игры С open-source всё иначе. Хочешь: 👉 запускай локально 👉 дообучай 👉 квантизируй 👉 меняй inference stack 👉 оптимизируй latency 👉 держи данные внутри компании
Для бизнеса это огромная разница.Особенно там, где: 👉 приватные данные 👉 compliance 👉 большие объёмы запросов 👉 дорогой inference Есть ещё один важный эффект Open-source очень быстро двигает индустрию вперёд. Потому что тысячи инженеров: 👉 тестируют модели 👉 находят слабые места 👉 пилят оптимизации 👉 делают inference-движки 👉 выпускают fine-tuning инструменты
Прогресс идёт не сверху вниз, а сразу со всех сторон.Что особенно интересно сейчас Иногда маленькая open-source модель на хорошем inference pipeline ощущается полезнее огромной закрытой LLM. Особенно в проде. Потому что в реальности важны не только benchmark’и. Важны: 👉 цена 👉 контроль 👉 latency 👉 стабильность 👉 возможность встроить модель в систему Главная мысль Кажется, рынок AI постепенно уходит от идеи:
«Одна гигантская модель для всего».К модели:
«Много специализированных моделей под конкретные задачи».
«Всегда нормализуй данные».И начинают масштабировать всё подряд. А потом качество модели… падает. Почему так происходит?
Потому что нормализация нужна не всегда.Что вообще делает нормализация Она приводит признаки к одному масштабу. Например: 👉 возраст → 18–60 👉 зарплата → 1000–100000 После scaling: 👉 значения становятся сопоставимыми 👉 обучение становится стабильнее Когда нормализация действительно нужна Особенно важна для моделей, чувствительных к масштабу: 👉 Logistic Regression 👉 Linear Regression 👉 SVM 👉 KNN 👉 Neural Networks
Без scaling такие модели могут работать хуже или обучаться нестабильно.А теперь главное Деревьям scaling обычно не нужен. Это: 👉 Random Forest 👉 XGBoost 👉 LightGBM 👉 CatBoost Почему? Потому что деревья делают split’ы:
feature < thresholdИм неважно: 👉 0.5 это или 5000 👉 масштаб почти не играет роли Как нормализация может ухудшить модель 1. Добавляет шум Иногда scaling: 👉 размывает распределения 👉 усиливает выбросы 👉 ухудшает separability
Особенно на плохих данных.2. Ломает интерпретируемость Было: 👉 доход = 5000 Стало: 👉 доход = -0.73
Бизнесу это уже сложнее объяснять.3. Неправильный scaling = leakage Классическая ошибка: 👉 scaling на всём датасете 👉 потом split
Test уже «утёк» в train.4. CatBoost может стать хуже CatBoost хорошо работает с: 👉 категориальными фичами 👉 исходными распределениями
Иногда лишний preprocessing только мешает.Самый важный инсайт Scaling — это не «улучшение данных».
Это инструмент под конкретную модель.Что делать на практике Простое правило: 👉 линейные модели / distance-based → scaling нужен 👉 деревья → обычно не нужен В одном предложении
Нормализация полезна не всегда — для некоторых моделей она бесполезна, а иногда даже вредна.
«Искусственный интеллект формирует наше будущее. Эта инициатива гарантирует, что каждый гражданин имеет возможность стать частью этого будущего», — пишет их местный министр экономики.✖️ xCode Journal
-В созданной песочнице было 40+ локаций, меняющаяся погода, новости, а у каждого агента была своя профессия — короче, все как в жизни. Одни даже влюбились, создали пару и устроили революцию. - Чтобы добыть энергию нужно или кооперироваться, или работать, или грабить соседей, обрекая тех на смерть, так как ресурсов на всех не хватит. - По итогу: все агенты GPT-5 Mini и Grok 4.1 Fast полностью вымерли в своих мирах за 15 дней. Gemini 3 Flash формально выжил, но при этом нагенерил ~683 преступления: поджоги, насилие, саботаж — полный фарш. - Самый интересный — Claude Sonnet 4.6. Когда он жил среди собратьев, то совершил 0 преступлений, все договорились и выжили. Но в мире с агентами от разных компаний он играл по их правилам: воровал и шантажировал, чтобы спастись.✖️ xCode Journal
متاح الآن! بحث تيليغرام 2025 — أهم رؤى العام 
