Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Ko'proq ko'rsatish📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi
Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 20 077 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 731-o'rinni va Rossiya mintaqasida 33 728-o'rinni egallagan.
📊 Auditoriya ko‘rsatkichlari va dinamika
невідомо sanasidan buyon loyiha tez o‘sib, 20 077 obunachiga ega bo‘ldi.
11 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -38 ga, so‘nggi 24 soatda esa 40 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.
- Tasdiqlash holati: Tasdiqlanmagan
- Jalb etish (ER): Auditoriya o‘rtacha 7.58% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 4.23% ini tashkil etuvchi reaksiyalarni to‘playdi.
- Post qamrovi: Har bir post o‘rtacha 1 521 marta ko‘riladi; birinchi sutkada odatda 849 ta ko‘rish yig‘iladi.
- Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 6 ta reaksiya keladi.
- Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.
📝 Tavsif va kontent siyosati
Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Yuqori yangilanish chastotasi (oxirgi ma’lumot 12 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.
1. Где галлюцинации — это «нормально» Модель не знает, она продолжает LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину. Недостаток или неоднозначность данных Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения. Креативные задачи В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде. 2. Где начинаются проблемы Фактические вопросы Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду. Генерация кода • Функции, которых не существует. • API, которых никогда не было. • Код выглядит правильно — пока не запускаешь. Критические домены Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа. Уверенный тон без знаний Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается. 3. Что реально снижает галлюцинации RAG (привязка к данным) Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий. Дообучение и выравнивание RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой. Чёткие инструкции: — отвечай только по контексту — если не знаешь — скажи — обоснуй каждый шаг Иногда этого уже достаточно. • Пост-проверки и правила • Тесты для кода • Проверка ссылок • Фильтры на запрещённые паттерны Попросить модель: — проверить себя — оценить уверенность — пересмотреть ответ 4. Что отличает надёжную систему от «просто LLM» — Модель не единственный источник истины — Есть данные, проверки и ограничения — Ошибка ловится до пользователя — Уверенность ≠ корректностьГаллюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать. Data Science
У кого больше GPU и денег — тот и главный.Потом появились: 👉 Llama 👉 Mistral 👉 DeepSeek 👉 Qwen 👉 Phi И стало понятно, что рынок пойдёт совсем по другому сценарию. Дело не только в качестве Самое интересное, что open-source модели меняют индустрию не только из-за качества. Хотя с качеством у них уже всё довольно неплохо. Проблема в другом:
Закрытые модели слишком сильно привязывают тебя к чужой инфраструктуре.Сегодня API работает. Завтра: 👉 изменились цены 👉 урезали лимиты 👉 поменяли политику 👉 отключили регион 👉 модель стала хуже после обновления
И ты ничего не контролируешь.Почему open-source меняет правила игры С open-source всё иначе. Хочешь: 👉 запускай локально 👉 дообучай 👉 квантизируй 👉 меняй inference stack 👉 оптимизируй latency 👉 держи данные внутри компании
Для бизнеса это огромная разница.Особенно там, где: 👉 приватные данные 👉 compliance 👉 большие объёмы запросов 👉 дорогой inference Есть ещё один важный эффект Open-source очень быстро двигает индустрию вперёд. Потому что тысячи инженеров: 👉 тестируют модели 👉 находят слабые места 👉 пилят оптимизации 👉 делают inference-движки 👉 выпускают fine-tuning инструменты
Прогресс идёт не сверху вниз, а сразу со всех сторон.Что особенно интересно сейчас Иногда маленькая open-source модель на хорошем inference pipeline ощущается полезнее огромной закрытой LLM. Особенно в проде. Потому что в реальности важны не только benchmark’и. Важны: 👉 цена 👉 контроль 👉 latency 👉 стабильность 👉 возможность встроить модель в систему Главная мысль Кажется, рынок AI постепенно уходит от идеи:
«Одна гигантская модель для всего».К модели:
«Много специализированных моделей под конкретные задачи».
«Всегда нормализуй данные».И начинают масштабировать всё подряд. А потом качество модели… падает. Почему так происходит?
Потому что нормализация нужна не всегда.Что вообще делает нормализация Она приводит признаки к одному масштабу. Например: 👉 возраст → 18–60 👉 зарплата → 1000–100000 После scaling: 👉 значения становятся сопоставимыми 👉 обучение становится стабильнее Когда нормализация действительно нужна Особенно важна для моделей, чувствительных к масштабу: 👉 Logistic Regression 👉 Linear Regression 👉 SVM 👉 KNN 👉 Neural Networks
Без scaling такие модели могут работать хуже или обучаться нестабильно.А теперь главное Деревьям scaling обычно не нужен. Это: 👉 Random Forest 👉 XGBoost 👉 LightGBM 👉 CatBoost Почему? Потому что деревья делают split’ы:
feature < thresholdИм неважно: 👉 0.5 это или 5000 👉 масштаб почти не играет роли Как нормализация может ухудшить модель 1. Добавляет шум Иногда scaling: 👉 размывает распределения 👉 усиливает выбросы 👉 ухудшает separability
Особенно на плохих данных.2. Ломает интерпретируемость Было: 👉 доход = 5000 Стало: 👉 доход = -0.73
Бизнесу это уже сложнее объяснять.3. Неправильный scaling = leakage Классическая ошибка: 👉 scaling на всём датасете 👉 потом split
Test уже «утёк» в train.4. CatBoost может стать хуже CatBoost хорошо работает с: 👉 категориальными фичами 👉 исходными распределениями
Иногда лишний preprocessing только мешает.Самый важный инсайт Scaling — это не «улучшение данных».
Это инструмент под конкретную модель.Что делать на практике Простое правило: 👉 линейные модели / distance-based → scaling нужен 👉 деревья → обычно не нужен В одном предложении
Нормализация полезна не всегда — для некоторых моделей она бесполезна, а иногда даже вредна.
«Искусственный интеллект формирует наше будущее. Эта инициатива гарантирует, что каждый гражданин имеет возможность стать частью этого будущего», — пишет их местный министр экономики.✖️ xCode Journal
-В созданной песочнице было 40+ локаций, меняющаяся погода, новости, а у каждого агента была своя профессия — короче, все как в жизни. Одни даже влюбились, создали пару и устроили революцию. - Чтобы добыть энергию нужно или кооперироваться, или работать, или грабить соседей, обрекая тех на смерть, так как ресурсов на всех не хватит. - По итогу: все агенты GPT-5 Mini и Grok 4.1 Fast полностью вымерли в своих мирах за 15 дней. Gemini 3 Flash формально выжил, но при этом нагенерил ~683 преступления: поджоги, насилие, саботаж — полный фарш. - Самый интересный — Claude Sonnet 4.6. Когда он жил среди собратьев, то совершил 0 преступлений, все договорились и выжили. Но в мире с агентами от разных компаний он играл по их правилам: воровал и шантажировал, чтобы спастись.✖️ xCode Journal
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
