Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Показати більше📈 Аналітичний огляд Telegram-каналу Data Science | Machinelearning [ru]
Канал Data Science | Machinelearning [ru] (@devsp) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 20 077 підписників, посідаючи 6 731 місце в категорії Технології та додатки та 33 728 місце у регіоні Росія.
📊 Показники аудиторії та динаміка
З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 20 077 підписників.
За останніми даними від 11 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -38, а за останні 24 години на 40, загальне охоплення залишається високим.
- Статус верифікації: Не верифікований
- Рівень залученості (ER): Середній показник залученості аудиторії становить 7.58%. Протягом перших 24 годин після публікації контент зазвичай збирає 4.23% реакцій від загальної кількості підписників.
- Охоплення публікацій: В середньому кожен допис отримує 1 521 переглядів. Протягом першої доби публікація в середньому набирає 849 переглядів.
- Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 6.
- Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, nvidia, контекст, openai, архитектура.
📝 Опис та контентна політика
Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Завдяки високій частоті оновлень (останні дані отримано 12 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.
Ты случайно «подсматриваешь» в тест. Примеры: 👉 нормализация на всём датасете до split 👉 target encoding на всех данных 👉 feature, напрямую связанная с таргетом Модель показывает космический скор, а в проде — провал.Случайный split там, где нельзя
Ты делаешь random split… но данные зависимы. Примеры: 👉 временные ряды 👉 пользователи (один и тот же user в train и test) 👉 сессии Модель узнаёт данные, а не обобщает.Игнорирование времени
В задачах с временем: 👉 ❌ случайный split 👉 ✅ train = прошлое, test = будущее Иначе ты: 👉 обучаешься на будущем 👉 предсказываешь прошлое Это не ML. Это читерство.4️⃣ Дисбаланс классов в split
Ты сделал split и получил: 👉 train: 5% positive 👉 test: 1% positive Метрики начинают врать. Решение: 👉 stratified splitСлишком маленький test
Test = 50 объектов Accuracy = 90% Звучит круто. Но это статистический шум. Маленький test = ненадёжная оценка.Тест используется как валидация
Классическая ошибка: 👉 обучился 👉 посмотрел на test 👉 подкрутил модель 👉 снова посмотрел Это уже не test. Это validation 2.0.Дубликаты в train и test
Если один и тот же объект попал в обе выборки: Модель просто запоминает. Особенно критично: 👉 CV 👉 e-commerce 👉 табличные данные с IDНеправильный split в CV
Cross-validation тоже можно сломать: 👉 leakage между фолдами 👉 группы не учитываются 👉 time-series перемешаны Используй: 👉 GroupKFold 👉 TimeSeriesSplitГлавный инсайт Train/test split — это не про «разделить данные». Это про симуляцию реального мира. Если split не отражает прод — все метрики бесполезны. В одном предложении Плохой split может сделать плохую модель «идеальной» — до момента, когда она выйдет в прод.
➖Освоите полный стек инструментов: SQL, Python, Pandas, Docker, Airflow и ETL-пайплайны ➖Разберётесь в ML и DL: от регрессии и кластеризации до нейросетей, NLP и компьютерного зрения ➖Соберёте портфолио из реальных бизнес-кейсов под руководством практиков ➖Получите диплом государственного образцаКому подойдёт курс: Новичкам - получите профессию с нуля и выйдете на старт с зарплатой до 170 000 ₽ Аналитикам - прокачаете ML, бустанете зарплату х2 и перейдёте на уровень Data Scientist Специалистам смежных сфер - научитесь работать с данными и принимать решения на их основе После курса вы сможете перейти на позицию Data Scientist и применять навыки из аналитики и инженерии данных, машинного и глубокого обучения. Стартуйте сейчас со скидкой 30%: simulative.ru/data-scientist
И самое интересное — порог входа сейчас минимальный. Не нужно быть программистом. Нужно только одно: понимать, как именно использовать ИИ под свои задачи.Я тут собрал папку с экспертами в этой теме. Можешь добавиться и посмотреть, как это делают другие 👇 https://t.me/addlist/A0vy8zWBM1gyNTky
Насколько хорошо модель отделяет классы.ROC-AUC — площадь под этой кривой. 📊 Что такое PR-кривая PR-кривая показывает: 👉 Precision — насколько точны предсказания 👉 Recall — сколько положительных нашли
Насколько хорошо модель находит редкий класс без мусора.PR-AUC — площадь под этой кривой. ⚔️ Главная разница 👉 ROC-AUC → разделимость классов 👉 PR-AUC → качество положительных предсказаний 🚨 Где все ошибаются Используют ROC-AUC при сильном дисбалансе классов. Почему это плохо? 👉 FPR считается по огромному количеству негативов 👉 даже плохая модель может выглядеть «хорошо»
ROC-AUC становится слишком оптимистичной.📉 Когда нужен PR-AUC Если у тебя: 👉 fraud detection 👉 churn prediction 👉 medical diagnosis 👉 rare event detection 👉 используй PR-AUC Потому что тебе важно: 👉 находить редкий класс 👉 не засыпать всё false positive 📈 Когда подходит ROC-AUC Если: 👉 классы более-менее сбалансированы 👉 важна общая separability 👉 задача — в целом отличать классы 👉 тогда ROC-AUC ок 🧠 Интуитивный пример Представь: 👉 1% — мошенники 👉 99% — нормальные Модель говорит «всё ок» почти всегда: 👉 ROC-AUC может быть высоким 👉 PR-AUC будет низким
Потому что модель не ловит мошенников.💥 Главный инсайт ROC-AUC отвечает на вопрос:
Модель в принципе различает классы?PR-AUC отвечает на вопрос:
Насколько полезны её положительные предсказания?В одном предложении
Если класс редкий — PR-AUC важнее ROC-AUC. Если баланс нормальный — можно использовать ROC-AUC.
Релиз ChatGPT-6 (код «Spud») должен состояться уже 14 апреля. Сэм Альтман: нас ждут автономные агенты и память на 2 млн токенов. Теперь нейросеть сможет сама выполнять цепочки задач и обрабатывать целые книги за один запросЭто серьезный скачок в возможностях. Сейчас — самый удачный момент, чтобы начать разбираться AI и IT. Проще освоить инструменты на старте обновлений, чем потом разбираться с накопившимися изменениями. Собрал для вас подборку Tech-экспертов, которые уже давно применяют ИИ в работе и бесплатно делятся своим опытом. Подписывайтесь на авторов, чтобы постоянно быть в курсе обновлений: https://t.me/addlist/APYyAMCpxlE0YzNi
Сэм Альтман: нас ждут автономные агенты и память на 2 млн токенов. Теперь нейросеть сможет сама выполнять цепочки задач и обрабатывать целые книги за один запросЭто серьезный скачок в возможностях. Сейчас — самый удачный момент, чтобы начать разбираться AI и IT. Проще освоить инструменты на старте обновлений, чем потом разбираться с накопившимися изменениями. Собрал для вас подборку Tech-экспертов, которые уже давно применяют ИИ в работе и бесплатно делятся своим опытом. Подписывайтесь на авторов, чтобы постоянно быть в курсе обновлений: https://t.me/addlist/APYyAMCpxlE0YzNi
И она гораздо менее глянцевая 👇1️⃣ Галлюцинации — уверенно, но неправильно LLM не “знает”. Она генерирует наиболее вероятный ответ. Поэтому: 👉 придумывает факты 👉 ссылается на несуществующие источники 👉 уверенно врёт
Самое опасное — звучит правдоподобно.2️⃣ Нестабильность ответов Один и тот же запрос: 👉 сегодня → один ответ 👉 завтра → другой 👉 с чуть изменённой формулировкой → третий
Для бизнеса это боль.👉 сложно тестировать 👉 сложно гарантировать качество 3️⃣ Prompt engineering — это костыль В теории: «просто напиши хороший prompt» На практике: 👉 десятки версий prompt’ов 👉 постоянный тюнинг 👉 ломается от малейших изменений
Это не инженерия. Это шаманство с контролем версий.4️⃣ Стоимость растёт незаметно Каждый запрос = токены = деньги А дальше: 👉 длинные контексты 👉 RAG 👉 chain’ы 👉 retries
Прототип за $50 превращается в систему за $5000+.5️⃣ Latency убивает UX LLM думает долго: 👉 1–3 секунды — норм 👉 5–10 секунд — уже раздражает 👉 10+ секунд — пользователь ушёл Особенно критично для: 👉 чатов 👉 real-time систем 👉 API 6️⃣ Evaluation — это ад Как понять, что стало лучше? 👉 accuracy не работает 👉 метрик нет 👉 нужно вручную оценивать ответы
Evaluation = дорого + субъективно + медленно.7️⃣ Безопасность и контроль LLM может: 👉 сгенерировать токсичный текст 👉 выдать приватные данные 👉 обойти ограничения Нужны: 👉 guardrails 👉 фильтры 👉 логирование 👉 мониторинг 8️⃣ Контекст — ограниченный ресурс Даже у больших моделей: 👉 ограничение на токены 👉 длинные диалоги ломаются 👉 важная информация теряется
Поэтому без RAG никуда.💥 Главный инсайт LLM в продакшене — это не про модель. Это про систему вокруг неё: 👉 retrieval 👉 кеширование 👉 monitoring 👉 fallback’и 👉 eval pipeline В одном предложении
Сложность LLM-продукта — не в том, чтобы «подключить GPT», а в том, чтобы сделать его надёжным.
Access-Control-Allow-Origin: * — не «фикс», а потенциальная дыра
👉 credentials + wildcard — запрещённая комбинация
CORS — это про контроль доступа, а не про обход ошибок.CSP — ваш последний рубеж Content Security Policy — это защита от XSS, даже если у вас уже есть уязвимость. Пример:
Content-Security-Policy: default-src 'self'; script-src 'self'Что это даёт: 👉 запрещает выполнение inline-скриптов 👉 блокирует загрузку скриптов с чужих доменов 👉 режет целый класс атак Но есть нюанс. Если CSP выглядит так:
script-src * 'unsafe-inline' 'unsafe-eval'
Это не защита. Это иллюзия.Security headers, которые реально важны 👉
X-Content-Type-Options: nosniff
Браузер не пытается угадать тип файла. Меньше атак через подмену.
👉 X-Frame-Options / frame-ancestors
Защита от clickjacking.
👉 Strict-Transport-Security (HSTS)
Принудительный HTTPS. Без вариантов.
👉 Referrer-Policy
Контроль того, какие данные уходят при переходах.
Где фронтендер влияет напрямую
👉 какие скрипты подключаются
👉 есть ли inline JS
👉 используются ли eval-подобные вещи
👉 как работают сторонние виджеты
👉 как обрабатываются пользовательские данные
Можно иметь идеальный бэкенд и сломать всё на уровне UI.Частая ошибка «Мы включили CSP — значит всё ок». Но: 👉 нет nonce / hash 👉 разрешены любые источники 👉 подключены сторонние скрипты без контроля
В итоге защита есть только на бумаге.Главная мысль CSP, CORS и заголовки — это не чекбокс в настройках. Это часть архитектуры.
Если фронтенд не понимает, как они работают, безопасность становится случайностью.
— Vibe-coding: запуск своего AI-SaaS без навыков программирования. — ИБ и OSINT: поиск любой информации за 5 минут и защита данных. — Нейрогенерация: схема контент-фермы с доходом от $3000 в месяц. — Карьера: как упаковать опыт и забрать оффер за неделю.Собрал эти ресурсы для себя — пользуйтесь. Это удобный способ навести порядок в инфополе и получать только проверенную практику в один клик. Подписывайтесь на каналы, пока доступ открыт: https://t.me/addlist/urg6vBFn8ZcwYWJi
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
