Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Show more📈 Analytical overview of Telegram channel Data Science | Machinelearning [ru]
Channel Data Science | Machinelearning [ru] (@devsp) in the Russian language segment is an active participant. Currently, the community unites 20 079 subscribers, ranking 6 731 in the Technologies & Applications category and 33 728 in the Russia region.
📊 Audience metrics and dynamics
Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 20 079 subscribers.
According to the latest data from 11 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -38 over the last 30 days and by 40 over the last 24 hours, overall reach remains high.
- Verification status: Not verified
- Engagement rate (ER): The average audience engagement rate is 7.58%. Within the first 24 hours after publication, content typically collects 4.23% reactions from the total number of subscribers.
- Post reach: On average, each post receives 1 521 views. Within the first day, a publication typically gains 849 views.
- Reactions and interaction: The audience actively supports content: the average number of reactions per post is 6.
- Thematic interests: Content is focused on key topics such as llm, nvidia, контекст, openai, архитектура.
📝 Description and content policy
The author describes the resource as a platform for expressing subjective opinions:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Thanks to the high frequency of updates (latest data received on 12 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.
1. Где галлюцинации — это «нормально» Модель не знает, она продолжает LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину. Недостаток или неоднозначность данных Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения. Креативные задачи В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде. 2. Где начинаются проблемы Фактические вопросы Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду. Генерация кода • Функции, которых не существует. • API, которых никогда не было. • Код выглядит правильно — пока не запускаешь. Критические домены Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа. Уверенный тон без знаний Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается. 3. Что реально снижает галлюцинации RAG (привязка к данным) Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий. Дообучение и выравнивание RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой. Чёткие инструкции: — отвечай только по контексту — если не знаешь — скажи — обоснуй каждый шаг Иногда этого уже достаточно. • Пост-проверки и правила • Тесты для кода • Проверка ссылок • Фильтры на запрещённые паттерны Попросить модель: — проверить себя — оценить уверенность — пересмотреть ответ 4. Что отличает надёжную систему от «просто LLM» — Модель не единственный источник истины — Есть данные, проверки и ограничения — Ошибка ловится до пользователя — Уверенность ≠ корректностьГаллюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать. Data Science
У кого больше GPU и денег — тот и главный.Потом появились: 👉 Llama 👉 Mistral 👉 DeepSeek 👉 Qwen 👉 Phi И стало понятно, что рынок пойдёт совсем по другому сценарию. Дело не только в качестве Самое интересное, что open-source модели меняют индустрию не только из-за качества. Хотя с качеством у них уже всё довольно неплохо. Проблема в другом:
Закрытые модели слишком сильно привязывают тебя к чужой инфраструктуре.Сегодня API работает. Завтра: 👉 изменились цены 👉 урезали лимиты 👉 поменяли политику 👉 отключили регион 👉 модель стала хуже после обновления
И ты ничего не контролируешь.Почему open-source меняет правила игры С open-source всё иначе. Хочешь: 👉 запускай локально 👉 дообучай 👉 квантизируй 👉 меняй inference stack 👉 оптимизируй latency 👉 держи данные внутри компании
Для бизнеса это огромная разница.Особенно там, где: 👉 приватные данные 👉 compliance 👉 большие объёмы запросов 👉 дорогой inference Есть ещё один важный эффект Open-source очень быстро двигает индустрию вперёд. Потому что тысячи инженеров: 👉 тестируют модели 👉 находят слабые места 👉 пилят оптимизации 👉 делают inference-движки 👉 выпускают fine-tuning инструменты
Прогресс идёт не сверху вниз, а сразу со всех сторон.Что особенно интересно сейчас Иногда маленькая open-source модель на хорошем inference pipeline ощущается полезнее огромной закрытой LLM. Особенно в проде. Потому что в реальности важны не только benchmark’и. Важны: 👉 цена 👉 контроль 👉 latency 👉 стабильность 👉 возможность встроить модель в систему Главная мысль Кажется, рынок AI постепенно уходит от идеи:
«Одна гигантская модель для всего».К модели:
«Много специализированных моделей под конкретные задачи».
«Всегда нормализуй данные».И начинают масштабировать всё подряд. А потом качество модели… падает. Почему так происходит?
Потому что нормализация нужна не всегда.Что вообще делает нормализация Она приводит признаки к одному масштабу. Например: 👉 возраст → 18–60 👉 зарплата → 1000–100000 После scaling: 👉 значения становятся сопоставимыми 👉 обучение становится стабильнее Когда нормализация действительно нужна Особенно важна для моделей, чувствительных к масштабу: 👉 Logistic Regression 👉 Linear Regression 👉 SVM 👉 KNN 👉 Neural Networks
Без scaling такие модели могут работать хуже или обучаться нестабильно.А теперь главное Деревьям scaling обычно не нужен. Это: 👉 Random Forest 👉 XGBoost 👉 LightGBM 👉 CatBoost Почему? Потому что деревья делают split’ы:
feature < thresholdИм неважно: 👉 0.5 это или 5000 👉 масштаб почти не играет роли Как нормализация может ухудшить модель 1. Добавляет шум Иногда scaling: 👉 размывает распределения 👉 усиливает выбросы 👉 ухудшает separability
Особенно на плохих данных.2. Ломает интерпретируемость Было: 👉 доход = 5000 Стало: 👉 доход = -0.73
Бизнесу это уже сложнее объяснять.3. Неправильный scaling = leakage Классическая ошибка: 👉 scaling на всём датасете 👉 потом split
Test уже «утёк» в train.4. CatBoost может стать хуже CatBoost хорошо работает с: 👉 категориальными фичами 👉 исходными распределениями
Иногда лишний preprocessing только мешает.Самый важный инсайт Scaling — это не «улучшение данных».
Это инструмент под конкретную модель.Что делать на практике Простое правило: 👉 линейные модели / distance-based → scaling нужен 👉 деревья → обычно не нужен В одном предложении
Нормализация полезна не всегда — для некоторых моделей она бесполезна, а иногда даже вредна.
«Искусственный интеллект формирует наше будущее. Эта инициатива гарантирует, что каждый гражданин имеет возможность стать частью этого будущего», — пишет их местный министр экономики.✖️ xCode Journal
-В созданной песочнице было 40+ локаций, меняющаяся погода, новости, а у каждого агента была своя профессия — короче, все как в жизни. Одни даже влюбились, создали пару и устроили революцию. - Чтобы добыть энергию нужно или кооперироваться, или работать, или грабить соседей, обрекая тех на смерть, так как ресурсов на всех не хватит. - По итогу: все агенты GPT-5 Mini и Grok 4.1 Fast полностью вымерли в своих мирах за 15 дней. Gemini 3 Flash формально выжил, но при этом нагенерил ~683 преступления: поджоги, насилие, саботаж — полный фарш. - Самый интересный — Claude Sonnet 4.6. Когда он жил среди собратьев, то совершил 0 преступлений, все договорились и выжили. Но в мире с агентами от разных компаний он играл по их правилам: воровал и шантажировал, чтобы спастись.✖️ xCode Journal
Available now! Telegram Research 2025 — the year's key insights 
