Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Показати більше📈 Аналітичний огляд Telegram-каналу Data Science | Machinelearning [ru]
Канал Data Science | Machinelearning [ru] (@devsp) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 20 041 підписників, посідаючи 6 742 місце в категорії Технології та додатки та 33 823 місце у регіоні Росія.
📊 Показники аудиторії та динаміка
З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 20 041 підписників.
За останніми даними від 10 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -77, а за останні 24 години на 20, загальне охоплення залишається високим.
- Статус верифікації: Не верифікований
- Рівень залученості (ER): Середній показник залученості аудиторії становить 7.47%. Протягом перших 24 годин після публікації контент зазвичай збирає 4.21% реакцій від загальної кількості підписників.
- Охоплення публікацій: В середньому кожен допис отримує 1 496 переглядів. Протягом першої доби публікація в середньому набирає 844 переглядів.
- Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 6.
- Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, nvidia, контекст, openai, архитектура.
📝 Опис та контентна політика
Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Завдяки високій частоті оновлень (останні дані отримано 11 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.
1. Где галлюцинации — это «нормально» Модель не знает, она продолжает LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину. Недостаток или неоднозначность данных Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения. Креативные задачи В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде. 2. Где начинаются проблемы Фактические вопросы Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду. Генерация кода • Функции, которых не существует. • API, которых никогда не было. • Код выглядит правильно — пока не запускаешь. Критические домены Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа. Уверенный тон без знаний Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается. 3. Что реально снижает галлюцинации RAG (привязка к данным) Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий. Дообучение и выравнивание RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой. Чёткие инструкции: — отвечай только по контексту — если не знаешь — скажи — обоснуй каждый шаг Иногда этого уже достаточно. • Пост-проверки и правила • Тесты для кода • Проверка ссылок • Фильтры на запрещённые паттерны Попросить модель: — проверить себя — оценить уверенность — пересмотреть ответ 4. Что отличает надёжную систему от «просто LLM» — Модель не единственный источник истины — Есть данные, проверки и ограничения — Ошибка ловится до пользователя — Уверенность ≠ корректностьГаллюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать. Data Science
У кого больше GPU и денег — тот и главный.Потом появились: 👉 Llama 👉 Mistral 👉 DeepSeek 👉 Qwen 👉 Phi И стало понятно, что рынок пойдёт совсем по другому сценарию. Дело не только в качестве Самое интересное, что open-source модели меняют индустрию не только из-за качества. Хотя с качеством у них уже всё довольно неплохо. Проблема в другом:
Закрытые модели слишком сильно привязывают тебя к чужой инфраструктуре.Сегодня API работает. Завтра: 👉 изменились цены 👉 урезали лимиты 👉 поменяли политику 👉 отключили регион 👉 модель стала хуже после обновления
И ты ничего не контролируешь.Почему open-source меняет правила игры С open-source всё иначе. Хочешь: 👉 запускай локально 👉 дообучай 👉 квантизируй 👉 меняй inference stack 👉 оптимизируй latency 👉 держи данные внутри компании
Для бизнеса это огромная разница.Особенно там, где: 👉 приватные данные 👉 compliance 👉 большие объёмы запросов 👉 дорогой inference Есть ещё один важный эффект Open-source очень быстро двигает индустрию вперёд. Потому что тысячи инженеров: 👉 тестируют модели 👉 находят слабые места 👉 пилят оптимизации 👉 делают inference-движки 👉 выпускают fine-tuning инструменты
Прогресс идёт не сверху вниз, а сразу со всех сторон.Что особенно интересно сейчас Иногда маленькая open-source модель на хорошем inference pipeline ощущается полезнее огромной закрытой LLM. Особенно в проде. Потому что в реальности важны не только benchmark’и. Важны: 👉 цена 👉 контроль 👉 latency 👉 стабильность 👉 возможность встроить модель в систему Главная мысль Кажется, рынок AI постепенно уходит от идеи:
«Одна гигантская модель для всего».К модели:
«Много специализированных моделей под конкретные задачи».
«Всегда нормализуй данные».И начинают масштабировать всё подряд. А потом качество модели… падает. Почему так происходит?
Потому что нормализация нужна не всегда.Что вообще делает нормализация Она приводит признаки к одному масштабу. Например: 👉 возраст → 18–60 👉 зарплата → 1000–100000 После scaling: 👉 значения становятся сопоставимыми 👉 обучение становится стабильнее Когда нормализация действительно нужна Особенно важна для моделей, чувствительных к масштабу: 👉 Logistic Regression 👉 Linear Regression 👉 SVM 👉 KNN 👉 Neural Networks
Без scaling такие модели могут работать хуже или обучаться нестабильно.А теперь главное Деревьям scaling обычно не нужен. Это: 👉 Random Forest 👉 XGBoost 👉 LightGBM 👉 CatBoost Почему? Потому что деревья делают split’ы:
feature < thresholdИм неважно: 👉 0.5 это или 5000 👉 масштаб почти не играет роли Как нормализация может ухудшить модель 1. Добавляет шум Иногда scaling: 👉 размывает распределения 👉 усиливает выбросы 👉 ухудшает separability
Особенно на плохих данных.2. Ломает интерпретируемость Было: 👉 доход = 5000 Стало: 👉 доход = -0.73
Бизнесу это уже сложнее объяснять.3. Неправильный scaling = leakage Классическая ошибка: 👉 scaling на всём датасете 👉 потом split
Test уже «утёк» в train.4. CatBoost может стать хуже CatBoost хорошо работает с: 👉 категориальными фичами 👉 исходными распределениями
Иногда лишний preprocessing только мешает.Самый важный инсайт Scaling — это не «улучшение данных».
Это инструмент под конкретную модель.Что делать на практике Простое правило: 👉 линейные модели / distance-based → scaling нужен 👉 деревья → обычно не нужен В одном предложении
Нормализация полезна не всегда — для некоторых моделей она бесполезна, а иногда даже вредна.
«Искусственный интеллект формирует наше будущее. Эта инициатива гарантирует, что каждый гражданин имеет возможность стать частью этого будущего», — пишет их местный министр экономики.✖️ xCode Journal
-В созданной песочнице было 40+ локаций, меняющаяся погода, новости, а у каждого агента была своя профессия — короче, все как в жизни. Одни даже влюбились, создали пару и устроили революцию. - Чтобы добыть энергию нужно или кооперироваться, или работать, или грабить соседей, обрекая тех на смерть, так как ресурсов на всех не хватит. - По итогу: все агенты GPT-5 Mini и Grok 4.1 Fast полностью вымерли в своих мирах за 15 дней. Gemini 3 Flash формально выжил, но при этом нагенерил ~683 преступления: поджоги, насилие, саботаж — полный фарш. - Самый интересный — Claude Sonnet 4.6. Когда он жил среди собратьев, то совершил 0 преступлений, все договорились и выжили. Но в мире с агентами от разных компаний он играл по их правилам: воровал и шантажировал, чтобы спастись.✖️ xCode Journal
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
