Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Show more📈 Analytical overview of Telegram channel Data Science | Machinelearning [ru]
Channel Data Science | Machinelearning [ru] (@devsp) in the Russian language segment is an active participant. Currently, the community unites 20 077 subscribers, ranking 6 731 in the Technologies & Applications category and 33 728 in the Russia region.
📊 Audience metrics and dynamics
Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 20 077 subscribers.
According to the latest data from 11 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -38 over the last 30 days and by 40 over the last 24 hours, overall reach remains high.
- Verification status: Not verified
- Engagement rate (ER): The average audience engagement rate is 7.58%. Within the first 24 hours after publication, content typically collects 4.23% reactions from the total number of subscribers.
- Post reach: On average, each post receives 1 521 views. Within the first day, a publication typically gains 849 views.
- Reactions and interaction: The audience actively supports content: the average number of reactions per post is 6.
- Thematic interests: Content is focused on key topics such as llm, nvidia, контекст, openai, архитектура.
📝 Description and content policy
The author describes the resource as a platform for expressing subjective opinions:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Thanks to the high frequency of updates (latest data received on 12 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.
Ты случайно «подсматриваешь» в тест. Примеры: 👉 нормализация на всём датасете до split 👉 target encoding на всех данных 👉 feature, напрямую связанная с таргетом Модель показывает космический скор, а в проде — провал.Случайный split там, где нельзя
Ты делаешь random split… но данные зависимы. Примеры: 👉 временные ряды 👉 пользователи (один и тот же user в train и test) 👉 сессии Модель узнаёт данные, а не обобщает.Игнорирование времени
В задачах с временем: 👉 ❌ случайный split 👉 ✅ train = прошлое, test = будущее Иначе ты: 👉 обучаешься на будущем 👉 предсказываешь прошлое Это не ML. Это читерство.4️⃣ Дисбаланс классов в split
Ты сделал split и получил: 👉 train: 5% positive 👉 test: 1% positive Метрики начинают врать. Решение: 👉 stratified splitСлишком маленький test
Test = 50 объектов Accuracy = 90% Звучит круто. Но это статистический шум. Маленький test = ненадёжная оценка.Тест используется как валидация
Классическая ошибка: 👉 обучился 👉 посмотрел на test 👉 подкрутил модель 👉 снова посмотрел Это уже не test. Это validation 2.0.Дубликаты в train и test
Если один и тот же объект попал в обе выборки: Модель просто запоминает. Особенно критично: 👉 CV 👉 e-commerce 👉 табличные данные с IDНеправильный split в CV
Cross-validation тоже можно сломать: 👉 leakage между фолдами 👉 группы не учитываются 👉 time-series перемешаны Используй: 👉 GroupKFold 👉 TimeSeriesSplitГлавный инсайт Train/test split — это не про «разделить данные». Это про симуляцию реального мира. Если split не отражает прод — все метрики бесполезны. В одном предложении Плохой split может сделать плохую модель «идеальной» — до момента, когда она выйдет в прод.
➖Освоите полный стек инструментов: SQL, Python, Pandas, Docker, Airflow и ETL-пайплайны ➖Разберётесь в ML и DL: от регрессии и кластеризации до нейросетей, NLP и компьютерного зрения ➖Соберёте портфолио из реальных бизнес-кейсов под руководством практиков ➖Получите диплом государственного образцаКому подойдёт курс: Новичкам - получите профессию с нуля и выйдете на старт с зарплатой до 170 000 ₽ Аналитикам - прокачаете ML, бустанете зарплату х2 и перейдёте на уровень Data Scientist Специалистам смежных сфер - научитесь работать с данными и принимать решения на их основе После курса вы сможете перейти на позицию Data Scientist и применять навыки из аналитики и инженерии данных, машинного и глубокого обучения. Стартуйте сейчас со скидкой 30%: simulative.ru/data-scientist
И самое интересное — порог входа сейчас минимальный. Не нужно быть программистом. Нужно только одно: понимать, как именно использовать ИИ под свои задачи.Я тут собрал папку с экспертами в этой теме. Можешь добавиться и посмотреть, как это делают другие 👇 https://t.me/addlist/A0vy8zWBM1gyNTky
Насколько хорошо модель отделяет классы.ROC-AUC — площадь под этой кривой. 📊 Что такое PR-кривая PR-кривая показывает: 👉 Precision — насколько точны предсказания 👉 Recall — сколько положительных нашли
Насколько хорошо модель находит редкий класс без мусора.PR-AUC — площадь под этой кривой. ⚔️ Главная разница 👉 ROC-AUC → разделимость классов 👉 PR-AUC → качество положительных предсказаний 🚨 Где все ошибаются Используют ROC-AUC при сильном дисбалансе классов. Почему это плохо? 👉 FPR считается по огромному количеству негативов 👉 даже плохая модель может выглядеть «хорошо»
ROC-AUC становится слишком оптимистичной.📉 Когда нужен PR-AUC Если у тебя: 👉 fraud detection 👉 churn prediction 👉 medical diagnosis 👉 rare event detection 👉 используй PR-AUC Потому что тебе важно: 👉 находить редкий класс 👉 не засыпать всё false positive 📈 Когда подходит ROC-AUC Если: 👉 классы более-менее сбалансированы 👉 важна общая separability 👉 задача — в целом отличать классы 👉 тогда ROC-AUC ок 🧠 Интуитивный пример Представь: 👉 1% — мошенники 👉 99% — нормальные Модель говорит «всё ок» почти всегда: 👉 ROC-AUC может быть высоким 👉 PR-AUC будет низким
Потому что модель не ловит мошенников.💥 Главный инсайт ROC-AUC отвечает на вопрос:
Модель в принципе различает классы?PR-AUC отвечает на вопрос:
Насколько полезны её положительные предсказания?В одном предложении
Если класс редкий — PR-AUC важнее ROC-AUC. Если баланс нормальный — можно использовать ROC-AUC.
Релиз ChatGPT-6 (код «Spud») должен состояться уже 14 апреля. Сэм Альтман: нас ждут автономные агенты и память на 2 млн токенов. Теперь нейросеть сможет сама выполнять цепочки задач и обрабатывать целые книги за один запросЭто серьезный скачок в возможностях. Сейчас — самый удачный момент, чтобы начать разбираться AI и IT. Проще освоить инструменты на старте обновлений, чем потом разбираться с накопившимися изменениями. Собрал для вас подборку Tech-экспертов, которые уже давно применяют ИИ в работе и бесплатно делятся своим опытом. Подписывайтесь на авторов, чтобы постоянно быть в курсе обновлений: https://t.me/addlist/APYyAMCpxlE0YzNi
Сэм Альтман: нас ждут автономные агенты и память на 2 млн токенов. Теперь нейросеть сможет сама выполнять цепочки задач и обрабатывать целые книги за один запросЭто серьезный скачок в возможностях. Сейчас — самый удачный момент, чтобы начать разбираться AI и IT. Проще освоить инструменты на старте обновлений, чем потом разбираться с накопившимися изменениями. Собрал для вас подборку Tech-экспертов, которые уже давно применяют ИИ в работе и бесплатно делятся своим опытом. Подписывайтесь на авторов, чтобы постоянно быть в курсе обновлений: https://t.me/addlist/APYyAMCpxlE0YzNi
И она гораздо менее глянцевая 👇1️⃣ Галлюцинации — уверенно, но неправильно LLM не “знает”. Она генерирует наиболее вероятный ответ. Поэтому: 👉 придумывает факты 👉 ссылается на несуществующие источники 👉 уверенно врёт
Самое опасное — звучит правдоподобно.2️⃣ Нестабильность ответов Один и тот же запрос: 👉 сегодня → один ответ 👉 завтра → другой 👉 с чуть изменённой формулировкой → третий
Для бизнеса это боль.👉 сложно тестировать 👉 сложно гарантировать качество 3️⃣ Prompt engineering — это костыль В теории: «просто напиши хороший prompt» На практике: 👉 десятки версий prompt’ов 👉 постоянный тюнинг 👉 ломается от малейших изменений
Это не инженерия. Это шаманство с контролем версий.4️⃣ Стоимость растёт незаметно Каждый запрос = токены = деньги А дальше: 👉 длинные контексты 👉 RAG 👉 chain’ы 👉 retries
Прототип за $50 превращается в систему за $5000+.5️⃣ Latency убивает UX LLM думает долго: 👉 1–3 секунды — норм 👉 5–10 секунд — уже раздражает 👉 10+ секунд — пользователь ушёл Особенно критично для: 👉 чатов 👉 real-time систем 👉 API 6️⃣ Evaluation — это ад Как понять, что стало лучше? 👉 accuracy не работает 👉 метрик нет 👉 нужно вручную оценивать ответы
Evaluation = дорого + субъективно + медленно.7️⃣ Безопасность и контроль LLM может: 👉 сгенерировать токсичный текст 👉 выдать приватные данные 👉 обойти ограничения Нужны: 👉 guardrails 👉 фильтры 👉 логирование 👉 мониторинг 8️⃣ Контекст — ограниченный ресурс Даже у больших моделей: 👉 ограничение на токены 👉 длинные диалоги ломаются 👉 важная информация теряется
Поэтому без RAG никуда.💥 Главный инсайт LLM в продакшене — это не про модель. Это про систему вокруг неё: 👉 retrieval 👉 кеширование 👉 monitoring 👉 fallback’и 👉 eval pipeline В одном предложении
Сложность LLM-продукта — не в том, чтобы «подключить GPT», а в том, чтобы сделать его надёжным.
Access-Control-Allow-Origin: * — не «фикс», а потенциальная дыра
👉 credentials + wildcard — запрещённая комбинация
CORS — это про контроль доступа, а не про обход ошибок.CSP — ваш последний рубеж Content Security Policy — это защита от XSS, даже если у вас уже есть уязвимость. Пример:
Content-Security-Policy: default-src 'self'; script-src 'self'Что это даёт: 👉 запрещает выполнение inline-скриптов 👉 блокирует загрузку скриптов с чужих доменов 👉 режет целый класс атак Но есть нюанс. Если CSP выглядит так:
script-src * 'unsafe-inline' 'unsafe-eval'
Это не защита. Это иллюзия.Security headers, которые реально важны 👉
X-Content-Type-Options: nosniff
Браузер не пытается угадать тип файла. Меньше атак через подмену.
👉 X-Frame-Options / frame-ancestors
Защита от clickjacking.
👉 Strict-Transport-Security (HSTS)
Принудительный HTTPS. Без вариантов.
👉 Referrer-Policy
Контроль того, какие данные уходят при переходах.
Где фронтендер влияет напрямую
👉 какие скрипты подключаются
👉 есть ли inline JS
👉 используются ли eval-подобные вещи
👉 как работают сторонние виджеты
👉 как обрабатываются пользовательские данные
Можно иметь идеальный бэкенд и сломать всё на уровне UI.Частая ошибка «Мы включили CSP — значит всё ок». Но: 👉 нет nonce / hash 👉 разрешены любые источники 👉 подключены сторонние скрипты без контроля
В итоге защита есть только на бумаге.Главная мысль CSP, CORS и заголовки — это не чекбокс в настройках. Это часть архитектуры.
Если фронтенд не понимает, как они работают, безопасность становится случайностью.
— Vibe-coding: запуск своего AI-SaaS без навыков программирования. — ИБ и OSINT: поиск любой информации за 5 минут и защита данных. — Нейрогенерация: схема контент-фермы с доходом от $3000 в месяц. — Карьера: как упаковать опыт и забрать оффер за неделю.Собрал эти ресурсы для себя — пользуйтесь. Это удобный способ навести порядок в инфополе и получать только проверенную практику в один клик. Подписывайтесь на каналы, пока доступ открыт: https://t.me/addlist/urg6vBFn8ZcwYWJi
Available now! Telegram Research 2025 — the year's key insights 
