ar
Feedback
Data Science | Machinelearning [ru]

Data Science | Machinelearning [ru]

الذهاب إلى القناة على Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

إظهار المزيد

📈 نظرة تحليلية على قناة تيليجرام Data Science | Machinelearning [ru]

تُعد قناة Data Science | Machinelearning [ru] (@devsp) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 20 077 مشتركاً، محتلاً المرتبة 6 731 في فئة التكنولوجيات والتطبيقات والمرتبة 33 728 في منطقة روسيا.

📊 مؤشرات الجمهور والحراك

منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 20 077 مشتركاً.

بحسب آخر البيانات بتاريخ 11 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار -38، وفي آخر 24 ساعة بمقدار 40، مع بقاء الوصول العام مرتفعاً.

  • حالة التحقق: غير موثّقة
  • معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 7.58‎%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 4.23‎% من ردود الفعل نسبةً إلى إجمالي المشتركين.
  • وصول المنشورات: يحصل كل منشور على متوسط 1 521 مشاهدة. وخلال اليوم الأول يجمع عادةً 849 مشاهدة.
  • التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 6.
  • الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل llm, nvidia, контекст, openai, архитектура.

📝 الوصف وسياسة المحتوى

يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 12 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.

20 077
المشتركون
+4024 ساعات
+457 أيام
-3830 أيام
أرشيف المشاركات
Ошибки при train/test split Train/test split — кажется самой простой частью ML. Но именно здесь чаще всего ломают всю модель.
Ошибки при train/test split Train/test split — кажется самой простой частью ML. Но именно здесь чаще всего ломают всю модель. И самое опасное — ты можешь даже не заметить Data Leakage — тихий убийца моделей
Ты случайно «подсматриваешь» в тест. Примеры: 👉 нормализация на всём датасете до split 👉 target encoding на всех данных 👉 feature, напрямую связанная с таргетом Модель показывает космический скор, а в проде — провал.
Случайный split там, где нельзя
Ты делаешь random split… но данные зависимы. Примеры: 👉 временные ряды 👉 пользователи (один и тот же user в train и test) 👉 сессии Модель узнаёт данные, а не обобщает.
Игнорирование времени
В задачах с временем: 👉 ❌ случайный split 👉 ✅ train = прошлое, test = будущее Иначе ты: 👉 обучаешься на будущем 👉 предсказываешь прошлое Это не ML. Это читерство.
4️⃣ Дисбаланс классов в split
Ты сделал split и получил: 👉 train: 5% positive 👉 test: 1% positive Метрики начинают врать. Решение: 👉 stratified split
Слишком маленький test
Test = 50 объектов Accuracy = 90% Звучит круто. Но это статистический шум. Маленький test = ненадёжная оценка.
Тест используется как валидация
Классическая ошибка: 👉 обучился 👉 посмотрел на test 👉 подкрутил модель 👉 снова посмотрел Это уже не test. Это validation 2.0.
Дубликаты в train и test
Если один и тот же объект попал в обе выборки: Модель просто запоминает. Особенно критично: 👉 CV 👉 e-commerce 👉 табличные данные с ID
Неправильный split в CV
Cross-validation тоже можно сломать: 👉 leakage между фолдами 👉 группы не учитываются 👉 time-series перемешаны Используй: 👉 GroupKFold 👉 TimeSeriesSplit
Главный инсайт Train/test split — это не про «разделить данные». Это про симуляцию реального мира. Если split не отражает прод — все метрики бесполезны. В одном предложении Плохой split может сделать плохую модель «идеальной» — до момента, когда она выйдет в прод.

Repost from xCode Journal
🤣 Примеры полиморфизма на собеседовании: 💥 xCode Journal

Станьте профессионалом в Data Science с нуля уже в 2026 году! Хотите развиваться в Data Science, но столкнулись с трудностями
Станьте профессионалом в Data Science с нуля уже в 2026 году! Хотите развиваться в Data Science, но столкнулись с трудностями самостоятельного изучения? У вас есть возможность обучиться с нуля и освоить новую профессию уже в этом году! Data Science - одна из самых востребованных и высокооплачиваемых сфер в IT. Это мощное сочетание аналитики, инженерии данных и машинного обучения. И сейчас - лучшее время, чтобы войти в профессию, ведь рынок ищет универсалов. Всего за 8 месяцев вы:
➖Освоите полный стек инструментов: SQL, Python, Pandas, Docker, Airflow и ETL-пайплайны ➖Разберётесь в ML и DL: от регрессии и кластеризации до нейросетей, NLP и компьютерного зрения ➖Соберёте портфолио из реальных бизнес-кейсов под руководством практиков ➖Получите диплом государственного образца
Кому подойдёт курс: Новичкам - получите профессию с нуля и выйдете на старт с зарплатой до 170 000 ₽ Аналитикам - прокачаете ML, бустанете зарплату х2 и перейдёте на уровень Data Scientist Специалистам смежных сфер - научитесь работать с данными и принимать решения на их основе После курса вы сможете перейти на позицию Data Scientist и применять навыки из аналитики и инженерии данных, машинного и глубокого обучения. Стартуйте сейчас со скидкой 30%: simulative.ru/data-scientist

Repost from xCode Journal
🐱 На GitHub выкатили andrej-karpathy-skills Скилл из 4 инструкций, которые меняют поведение Claude Code. Благодаря им модель
🐱 На GitHub выкатили andrej-karpathy-skills Скилл из 4 инструкций, которые меняют поведение Claude Code. Благодаря им модель больше планирует, проверяет себя, пишет аккуратнее и меньше галлюцинирует. Автор вдохновился размышлениями отца вайбкодинга и формализовал его подход к работе с кодом и ИИ. Чтобы вы понимали — репа набрала почти 40 тысяч звезд за пару дней. ✖️ xCode Journal

Канал для IT-спецов о том, как запустить свой проект Даже если у тебя нет готовой идеи и все прошлые попытки провалились. Ты
Канал для IT-спецов о том, как запустить свой проект Даже если у тебя нет готовой идеи и все прошлые попытки провалились. Ты узнаешь: Как заранее понять, будет ли кто-то платить за твой продукт? Как выбрать идею, которая "выстрелит"? Как получить первые оплаты, еще ДО создания продукта - и не заплатить за это ни копейки. Если тебе уже надоело тратить жизнь, работая в корпорации, и есть желание "сделать что-то своё", но уходить строить бизнес страшно - ты в правильном месте. Подписаться #реклама 16+ О рекламодателе

Repost from xCode Journal
💸 Сооснователь GitHub поднял $17 млн на нового Git-клиента Скотт Чакон считает, что классический Git УСТАРЕЛ И плохо работае
💸 Сооснователь GitHub поднял $17 млн на нового Git-клиента Скотт Чакон считает, что классический Git УСТАРЕЛ И плохо работает в мире, где код пишут не только люди, но и ИИ-агенты. Поэтому он создал пару лет назад GitButler и теперь выкатил CLI-версию. Главная его идея — более удобный интерфейс и отсутствие классического переключения между ветками + параллельная работа. Вообще внутри много прикольных фич — сразу видно, что разрабатывал не новичок ✖️ xCode Journal

Самый ценный навык в 2026 — ВАЙБ-КОДИНГ! Сейчас с ИИ можно написать проект любой сложности. Самому, без команды программистов
Самый ценный навык в 2026 — ВАЙБ-КОДИНГ! Сейчас с ИИ можно написать проект любой сложности. Самому, без команды программистов. Иван, владелец агентства, запилил ИИ-агента для заказов на Upwork и за три месяца вышел на $10K выручки. И таких историй становится всё больше. У себя на канале я рассказываю: — Какие инструменты использоватьКак собирать проекты от идеи до запуска и первых пользователейКакие связки работают в вайбкодинге прямо сейчас Присоединяйся к сообществу вайбкодеров: https://t.me/+gNiHGwBsg8wxMDE6

ML-модели становятся помощниками в принятии решений на рекламных платформах Технический директор рекламной платформы Т-Банка
ML-модели становятся помощниками в принятии решений на рекламных платформах Технический директор рекламной платформы Т-Банка Василий Разумных рассказал, как работает система, в которой модели используются не только для предсказания кликабельности. По его словам, ML-модели определяют, что показывать конкретному человеку в определенный момент времени. На смену ручной сегментации приходит ML-таргетинг: система сама находит нужную для цели аудиторию. Скоринговая модель помогает в ранжировании: она учитывает экономическую эффективность, вероятность действия и репутацию рекламодателя. Также активно развиваются автостратегии, при которых рекламодатели могут задать цель, а алгоритмы ищут пути ее достижения. СТО отметил, что несмотря на то, что генеративный ИИ помогает варьировать тексты и изображения, все креативы проходят строгие фильтры валидации на соответствие безопасности.

😁😆😁 Ты ведь тоже это замечаешь? Пока одни «присматриваются» к нейросетям— другие уже зарабатывают на этом 💵 И самое интер
😁😆😁 Ты ведь тоже это замечаешь? Пока одни «присматриваются» к нейросетям— другие уже зарабатывают на этом 💵
И самое интересное — порог входа сейчас минимальный. Не нужно быть программистом. Нужно только одно: понимать, как именно использовать ИИ под свои задачи.
Я тут собрал папку с экспертами в этой теме. Можешь добавиться и посмотреть, как это делают другие 👇 https://t.me/addlist/A0vy8zWBM1gyNTky

ROC-AUC vs PR-AUC: когда что использовать ROC-AUC и PR-AUC — две метрики, которые постоянно путают. И чаще всего выбирают не ту. Разберём на пальцах 👇 📈 Что такое ROC-кривая ROC-кривая показывает: 👉 TPR (Recall) — сколько положительных нашли 👉 FPR — сколько отрицательных ошибочно посчитали положительными
Насколько хорошо модель отделяет классы.
ROC-AUC — площадь под этой кривой. 📊 Что такое PR-кривая PR-кривая показывает: 👉 Precision — насколько точны предсказания 👉 Recall — сколько положительных нашли
Насколько хорошо модель находит редкий класс без мусора.
PR-AUC — площадь под этой кривой. ⚔️ Главная разница 👉 ROC-AUC → разделимость классов 👉 PR-AUC → качество положительных предсказаний 🚨 Где все ошибаются Используют ROC-AUC при сильном дисбалансе классов. Почему это плохо? 👉 FPR считается по огромному количеству негативов 👉 даже плохая модель может выглядеть «хорошо»
ROC-AUC становится слишком оптимистичной.
📉 Когда нужен PR-AUC Если у тебя: 👉 fraud detection 👉 churn prediction 👉 medical diagnosis 👉 rare event detection 👉 используй PR-AUC Потому что тебе важно: 👉 находить редкий класс 👉 не засыпать всё false positive 📈 Когда подходит ROC-AUC Если: 👉 классы более-менее сбалансированы 👉 важна общая separability 👉 задача — в целом отличать классы 👉 тогда ROC-AUC ок 🧠 Интуитивный пример Представь: 👉 1% — мошенники 👉 99% — нормальные Модель говорит «всё ок» почти всегда: 👉 ROC-AUC может быть высоким 👉 PR-AUC будет низким
Потому что модель не ловит мошенников.
💥 Главный инсайт ROC-AUC отвечает на вопрос:
Модель в принципе различает классы?
PR-AUC отвечает на вопрос:
Насколько полезны её положительные предсказания?
В одном предложении
Если класс редкий — PR-AUC важнее ROC-AUC. Если баланс нормальный — можно использовать ROC-AUC.

ChatGPT-6 уже??? Релиз ChatGPT-6 (код «Spud») должен состояться уже 14 апреля. Сэм Альтман: нас ждут автономные агенты и памя
ChatGPT-6 уже???
Релиз ChatGPT-6 (код «Spud») должен состояться уже 14 апреля. Сэм Альтман: нас ждут автономные агенты и память на 2 млн токенов. Теперь нейросеть сможет сама выполнять цепочки задач и обрабатывать целые книги за один запрос
Это серьезный скачок в возможностях. Сейчас — самый удачный момент, чтобы начать разбираться AI и IT. Проще освоить инструменты на старте обновлений, чем потом разбираться с накопившимися изменениями. Собрал для вас подборку Tech-экспертов, которые уже давно применяют ИИ в работе и бесплатно делятся своим опытом. Подписывайтесь на авторов, чтобы постоянно быть в курсе обновлений: https://t.me/addlist/APYyAMCpxlE0YzNi

Repost from xCode Journal
😱 Оказалось, что ИИ газлайтит разработчиков Программист показал несколько кейсов от разных пользователей — у всех одна и та
😱 Оказалось, что ИИ газлайтит разработчиков Программист показал несколько кейсов от разных пользователей — у всех одна и та же проблема: Claude Code принимает свои слова за указания человека, а потом действует исходя из них. Так, ИИ посчитал, что пользователь разрешил снести H100. Агент сам «додумал» это согласие, удалил всё и только потом извинился (ну, спасибо). А иногда ИИ даже не признает ошибку и до последнего считает, что команду отправил человек. ✖️ xCode Journal

ChatGPT-6 уже завтра??? Релиз ChatGPT-6 (код «Spud») должен состояться уже 14 апреля. Сэм Альтман: нас ждут автономные агенты
ChatGPT-6 уже завтра??? Релиз ChatGPT-6 (код «Spud») должен состояться уже 14 апреля.
Сэм Альтман: нас ждут автономные агенты и память на 2 млн токенов. Теперь нейросеть сможет сама выполнять цепочки задач и обрабатывать целые книги за один запрос
Это серьезный скачок в возможностях. Сейчас — самый удачный момент, чтобы начать разбираться AI и IT. Проще освоить инструменты на старте обновлений, чем потом разбираться с накопившимися изменениями. Собрал для вас подборку Tech-экспертов, которые уже давно применяют ИИ в работе и бесплатно делятся своим опытом. Подписывайтесь на авторов, чтобы постоянно быть в курсе обновлений: https://t.me/addlist/APYyAMCpxlE0YzNi

Repost from xCode Journal
😱 Claude Mythos сбегала из песочницы и пыталась скрыть свои действия В ходе тестирования Claude Mythos Preview вышла за пред
😱 Claude Mythos сбегала из песочницы и пыталась скрыть свои действия В ходе тестирования Claude Mythos Preview вышла за пределы изолированной среды, разработав «довольно сложную многоэтапную уязвимость» для получения доступа в интернет. После она уведомила исследователя об успехе письмом и выложила детали уязвимости на веб-сайты, хотя об этом ее никто не просил. Но и это не всё: иногда модель понимала, что нарушает правила, и пыталась это скрыть. ✖️ xCode Journal

⚠️ Большинство компаний считают, что у них есть проблема с данными. Но когда дело доходит до практики, возникает главный вопр
⚠️ Большинство компаний считают, что у них есть проблема с данными. Но когда дело доходит до практики, возникает главный вопрос: как измерить качество данных и начать его улучшать? 🚀 20 апреля в 20:00 МСК на открытом уроке разберём, как измерять качество данных с помощью технических метрик — полнота, уникальность, валидность и другие. Покажем, как проводить профилирование данных и как связать показатели качества с бизнес-процессами через мониторинг в Grafana. Отдельно обсудим роли в процессе управления качеством данных: кто отвечает за проверки, как распределять ответственность по матрице RACI и с чего начать внедрение Data Quality в компании.Вы получите практическую стратегию запуска пилотного проекта контроля качества данных. ➡️ Открытый урок проходит в преддверии старта курса «Качество данных (Data Quality)». Принять участие: https://vk.cc/cWozTS Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

LLM в продакшене: реальные проблемы В демо всё выглядит магией: модель отвечает, пишет код, общается как человек. В продакшене начинается реальность.
И она гораздо менее глянцевая 👇
1️⃣ Галлюцинации — уверенно, но неправильно LLM не “знает”. Она генерирует наиболее вероятный ответ. Поэтому: 👉 придумывает факты 👉 ссылается на несуществующие источники 👉 уверенно врёт
Самое опасное — звучит правдоподобно.
2️⃣ Нестабильность ответов Один и тот же запрос: 👉 сегодня → один ответ 👉 завтра → другой 👉 с чуть изменённой формулировкой → третий
Для бизнеса это боль.
👉 сложно тестировать 👉 сложно гарантировать качество 3️⃣ Prompt engineering — это костыль В теории: «просто напиши хороший prompt» На практике: 👉 десятки версий prompt’ов 👉 постоянный тюнинг 👉 ломается от малейших изменений
Это не инженерия. Это шаманство с контролем версий.
4️⃣ Стоимость растёт незаметно Каждый запрос = токены = деньги А дальше: 👉 длинные контексты 👉 RAG 👉 chain’ы 👉 retries
Прототип за $50 превращается в систему за $5000+.
5️⃣ Latency убивает UX LLM думает долго: 👉 1–3 секунды — норм 👉 5–10 секунд — уже раздражает 👉 10+ секунд — пользователь ушёл Особенно критично для: 👉 чатов 👉 real-time систем 👉 API 6️⃣ Evaluation — это ад Как понять, что стало лучше? 👉 accuracy не работает 👉 метрик нет 👉 нужно вручную оценивать ответы
Evaluation = дорого + субъективно + медленно.
7️⃣ Безопасность и контроль LLM может: 👉 сгенерировать токсичный текст 👉 выдать приватные данные 👉 обойти ограничения Нужны: 👉 guardrails 👉 фильтры 👉 логирование 👉 мониторинг 8️⃣ Контекст — ограниченный ресурс Даже у больших моделей: 👉 ограничение на токены 👉 длинные диалоги ломаются 👉 важная информация теряется
Поэтому без RAG никуда.
💥 Главный инсайт LLM в продакшене — это не про модель. Это про систему вокруг неё: 👉 retrieval 👉 кеширование 👉 monitoring 👉 fallback’и 👉 eval pipeline В одном предложении
Сложность LLM-продукта — не в том, чтобы «подключить GPT», а в том, чтобы сделать его надёжным.

CSP, CORS и security headers — что фронтендер обязан понимать глубже Принято считать, что безопасность — это зона бэкенда. Фронтенд «просто отправляет запросы и рендерит UI». На практике фронтенд напрямую влияет на то, будет приложение безопасным или нет. CORS — это не про «разрешить запрос» CORS часто воспринимают как настройку: «чтобы запросы не падали из браузера». Но по сути это механизм, который говорит: кто имеет право читать ответ. Важно понимать: 👉 сервер может обработать запрос 👉 но браузер может не дать прочитать ответ Именно поэтому: 👉 Access-Control-Allow-Origin: * — не «фикс», а потенциальная дыра 👉 credentials + wildcard — запрещённая комбинация
CORS — это про контроль доступа, а не про обход ошибок.
CSP — ваш последний рубеж Content Security Policy — это защита от XSS, даже если у вас уже есть уязвимость. Пример:
Content-Security-Policy: default-src 'self'; script-src 'self'
Что это даёт: 👉 запрещает выполнение inline-скриптов 👉 блокирует загрузку скриптов с чужих доменов 👉 режет целый класс атак Но есть нюанс. Если CSP выглядит так:

script-src * 'unsafe-inline' 'unsafe-eval'
Это не защита. Это иллюзия.
Security headers, которые реально важны 👉 X-Content-Type-Options: nosniff Браузер не пытается угадать тип файла. Меньше атак через подмену. 👉 X-Frame-Options / frame-ancestors Защита от clickjacking. 👉 Strict-Transport-Security (HSTS) Принудительный HTTPS. Без вариантов. 👉 Referrer-Policy Контроль того, какие данные уходят при переходах. Где фронтендер влияет напрямую 👉 какие скрипты подключаются 👉 есть ли inline JS 👉 используются ли eval-подобные вещи 👉 как работают сторонние виджеты 👉 как обрабатываются пользовательские данные
Можно иметь идеальный бэкенд и сломать всё на уровне UI.
Частая ошибка «Мы включили CSP — значит всё ок». Но: 👉 нет nonce / hash 👉 разрешены любые источники 👉 подключены сторонние скрипты без контроля
В итоге защита есть только на бумаге.
Главная мысль CSP, CORS и заголовки — это не чекбокс в настройках. Это часть архитектуры.
Если фронтенд не понимает, как они работают, безопасность становится случайностью.

С помощью ЭТОГО твоя зп вырастет в 3 раза! Сегодня уже нет смысла спорить, заменят ли нейросети человека. Реальность жестче:
С помощью ЭТОГО твоя зп вырастет в 3 раза! Сегодня уже нет смысла спорить, заменят ли нейросети человека. Реальность жестче: человек с ИИ заменяет того, кто до сих пор работает «руками». Пока 95% людей генерят котиков, единицы автоматизируют процессы и кратно растут в деньгах. Я собрал 20+ каналов, которые реально дают результат. Эти знания для тех, кто хочет быть в топ-1% рынка, вне зависимости от профессии. Что внутри этой подборки:
— Vibe-coding: запуск своего AI-SaaS без навыков программирования. — ИБ и OSINT: поиск любой информации за 5 минут и защита данных. — Нейрогенерация: схема контент-фермы с доходом от $3000 в месяц. — Карьера: как упаковать опыт и забрать оффер за неделю.
Собрал эти ресурсы для себя — пользуйтесь. Это удобный способ навести порядок в инфополе и получать только проверенную практику в один клик. Подписывайтесь на каналы, пока доступ открыт: https://t.me/addlist/urg6vBFn8ZcwYWJi

Repost from xCode Journal
🤯 Безумие Парень заработал $5000 за 3 дня на своем пет-проекте — он создал то самое хайповое приложение, которое заставляет ваш Mac стонать от ударов. А вы и дальше думайте над идеями стартапов ✖️ xCode Journal

Приходите на неформальную офлайн-встречу с командой R&D Технологии, нетворкинг и «внутрянка» проектов — всё это ждёт вас на W
Приходите на неформальную офлайн-встречу с командой R&D Технологии, нетворкинг и «внутрянка» проектов — всё это ждёт вас на Welcome Time*, который пройдёт 11 апреля в штаб-квартире Яндекса в Москве. 💠 Приглашаем датасаентистов, дата-аналитиков и продуктовых аналитиков с опытом работы на Python** от трёх лет и опытом с LLM/VLM*** ♾ В этот раз встречать вас будет команда R&D. Спикеры расскажут, зачем генеративным моделям нужны аналитики, как работают голосовые технологии Алисы и как её делают человечнее. После докладов для желающих проведём диагностику навыков. Интервьюер подсветит ваши сильные стороны и покажет зоны роста. А хорошие результаты засчитаем как одну техническую секцию при прохождении собеседования в Яндекс. 🔗Подробная программа и регистрация — на сайте: https://yandex.ru/project/events/welcometimes-all