Data Science | Machinelearning [ru]

前往频道在 Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

显示更多

网络:Frontender's notes [ru]俄罗斯33 728 技术与应用6 731...

📈 Telegram 频道 Data Science | Machinelearning [ru] 的分析概览

频道 Data Science | Machinelearning [ru] (@devsp) 俄语语言赛道中的是活跃参与者。目前社区聚集了 20 077 名订阅者，在 技术与应用 类别中位列第 6 731，并在 俄罗斯 地区排名第 33 728 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 20 077 名订阅者。

根据 11 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -38，过去 24 小时变化为 40，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 7.58%。内容发布后 24 小时内通常能获得 4.23% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 1 521 次浏览，首日通常累积 849 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 6。
主题关注点： 内容集中在 llm, nvidia, контекст, openai, архитектура 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

凭借高频更新（最新数据采集于 12 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

20 077

订阅者

+4024 小时

+457 天

-3830 天

1 521

帖子浏览量

~ 84924 小时

~ 99648 小时

7.58%

参与率

~ 1

每日帖子数

Ads index

beta

帖子存档

20 077

Ошибки при train/test split Train/test split — кажется самой простой частью ML. Но именно здесь чаще всего ломают всю модель. И самое опасное — ты можешь даже не заметить Data Leakage — тихий убийца моделей

Ты случайно «подсматриваешь» в тест. Примеры: 👉 нормализация на всём датасете до split 👉 target encoding на всех данных 👉 feature, напрямую связанная с таргетом Модель показывает космический скор, а в проде — провал.

Случайный split там, где нельзя

Ты делаешь random split… но данные зависимы. Примеры: 👉 временные ряды 👉 пользователи (один и тот же user в train и test) 👉 сессии Модель узнаёт данные, а не обобщает.

Игнорирование времени

В задачах с временем: 👉 ❌ случайный split 👉 ✅ train = прошлое, test = будущее Иначе ты: 👉 обучаешься на будущем 👉 предсказываешь прошлое Это не ML. Это читерство.

4️⃣ Дисбаланс классов в split

Ты сделал split и получил: 👉 train: 5% positive 👉 test: 1% positive Метрики начинают врать. Решение: 👉 stratified split

Слишком маленький test

Test = 50 объектов Accuracy = 90% Звучит круто. Но это статистический шум. Маленький test = ненадёжная оценка.

Тест используется как валидация

Классическая ошибка: 👉 обучился 👉 посмотрел на test 👉 подкрутил модель 👉 снова посмотрел Это уже не test. Это validation 2.0.

Дубликаты в train и test

Если один и тот же объект попал в обе выборки: Модель просто запоминает. Особенно критично: 👉 CV 👉 e-commerce 👉 табличные данные с ID

Неправильный split в CV

Cross-validation тоже можно сломать: 👉 leakage между фолдами 👉 группы не учитываются 👉 time-series перемешаны Используй: 👉 GroupKFold 👉 TimeSeriesSplit

Главный инсайт Train/test split — это не про «разделить данные». Это про симуляцию реального мира. Если split не отражает прод — все метрики бесполезны. В одном предложении Плохой split может сделать плохую модель «идеальной» — до момента, когда она выйдет в прод.

20 077

Repost from xCode Journal

🤣 Примеры полиморфизма на собеседовании: 💥 xCode Journal

20 077

Станьте профессионалом в Data Science с нуля уже в 2026 году! Хотите развиваться в Data Science, но столкнулись с трудностями самостоятельного изучения? У вас есть возможность обучиться с нуля и освоить новую профессию уже в этом году! Data Science - одна из самых востребованных и высокооплачиваемых сфер в IT. Это мощное сочетание аналитики, инженерии данных и машинного обучения. И сейчас - лучшее время, чтобы войти в профессию, ведь рынок ищет универсалов. Всего за 8 месяцев вы:

➖Освоите полный стек инструментов: SQL, Python, Pandas, Docker, Airflow и ETL-пайплайны ➖Разберётесь в ML и DL: от регрессии и кластеризации до нейросетей, NLP и компьютерного зрения ➖Соберёте портфолио из реальных бизнес-кейсов под руководством практиков ➖Получите диплом государственного образца

Кому подойдёт курс: Новичкам - получите профессию с нуля и выйдете на старт с зарплатой до 170 000 ₽ Аналитикам - прокачаете ML, бустанете зарплату х2 и перейдёте на уровень Data Scientist Специалистам смежных сфер - научитесь работать с данными и принимать решения на их основе После курса вы сможете перейти на позицию Data Scientist и применять навыки из аналитики и инженерии данных, машинного и глубокого обучения. Стартуйте сейчас со скидкой 30%: simulative.ru/data-scientist

20 077

Repost from xCode Journal

🐱 На GitHub выкатили andrej-karpathy-skills Скилл из 4 инструкций, которые меняют поведение Claude Code. Благодаря им модель больше планирует, проверяет себя, пишет аккуратнее и меньше галлюцинирует. Автор вдохновился размышлениями отца вайбкодинга и формализовал его подход к работе с кодом и ИИ. Чтобы вы понимали — репа набрала почти 40 тысяч звезд за пару дней. ✖️ xCode Journal

20 077

Канал для IT-спецов о том, как запустить свой проект Даже если у тебя нет готовой идеи и все прошлые попытки провалились. Ты узнаешь: Как заранее понять, будет ли кто-то платить за твой продукт? Как выбрать идею, которая "выстрелит"? Как получить первые оплаты, еще ДО создания продукта - и не заплатить за это ни копейки. Если тебе уже надоело тратить жизнь, работая в корпорации, и есть желание "сделать что-то своё", но уходить строить бизнес страшно - ты в правильном месте. Подписаться #реклама 16+ О рекламодателе

20 077

Repost from xCode Journal

💸 Сооснователь GitHub поднял $17 млн на нового Git-клиента Скотт Чакон считает, что классический Git УСТАРЕЛ И плохо работает в мире, где код пишут не только люди, но и ИИ-агенты. Поэтому он создал пару лет назад GitButler и теперь выкатил CLI-версию. Главная его идея — более удобный интерфейс и отсутствие классического переключения между ветками + параллельная работа. Вообще внутри много прикольных фич — сразу видно, что разрабатывал не новичок ✖️ xCode Journal

20 077

Самый ценный навык в 2026 — ВАЙБ-КОДИНГ! Сейчас с ИИ можно написать проект любой сложности. Самому, без команды программистов. Иван, владелец агентства, запилил ИИ-агента для заказов на Upwork и за три месяца вышел на $10K выручки. И таких историй становится всё больше. У себя на канале я рассказываю: — Какие инструменты использовать — Как собирать проекты от идеи до запуска и первых пользователей — Какие связки работают в вайбкодинге прямо сейчас Присоединяйся к сообществу вайбкодеров: https://t.me/+gNiHGwBsg8wxMDE6

20 077

ML-модели становятся помощниками в принятии решений на рекламных платформах Технический директор рекламной платформы Т-Банка Василий Разумных рассказал, как работает система, в которой модели используются не только для предсказания кликабельности. По его словам, ML-модели определяют, что показывать конкретному человеку в определенный момент времени. На смену ручной сегментации приходит ML-таргетинг: система сама находит нужную для цели аудиторию. Скоринговая модель помогает в ранжировании: она учитывает экономическую эффективность, вероятность действия и репутацию рекламодателя. Также активно развиваются автостратегии, при которых рекламодатели могут задать цель, а алгоритмы ищут пути ее достижения. СТО отметил, что несмотря на то, что генеративный ИИ помогает варьировать тексты и изображения, все креативы проходят строгие фильтры валидации на соответствие безопасности.

20 077

😁😆😁 Ты ведь тоже это замечаешь? Пока одни «присматриваются» к нейросетям— другие уже зарабатывают на этом 💵

И самое интересное — порог входа сейчас минимальный. Не нужно быть программистом. Нужно только одно: понимать, как именно использовать ИИ под свои задачи.

Я тут собрал папку с экспертами в этой теме. Можешь добавиться и посмотреть, как это делают другие 👇 https://t.me/addlist/A0vy8zWBM1gyNTky

20 077

ROC-AUC vs PR-AUC: когда что использовать ROC-AUC и PR-AUC — две метрики, которые постоянно путают. И чаще всего выбирают не ту. Разберём на пальцах 👇 📈 Что такое ROC-кривая ROC-кривая показывает: 👉 TPR (Recall) — сколько положительных нашли 👉 FPR — сколько отрицательных ошибочно посчитали положительными

Насколько хорошо модель отделяет классы.

ROC-AUC — площадь под этой кривой. 📊 Что такое PR-кривая PR-кривая показывает: 👉 Precision — насколько точны предсказания 👉 Recall — сколько положительных нашли

Насколько хорошо модель находит редкий класс без мусора.

PR-AUC — площадь под этой кривой. ⚔️ Главная разница 👉 ROC-AUC → разделимость классов 👉 PR-AUC → качество положительных предсказаний 🚨 Где все ошибаются Используют ROC-AUC при сильном дисбалансе классов. Почему это плохо? 👉 FPR считается по огромному количеству негативов 👉 даже плохая модель может выглядеть «хорошо»

ROC-AUC становится слишком оптимистичной.

📉 Когда нужен PR-AUC Если у тебя: 👉 fraud detection 👉 churn prediction 👉 medical diagnosis 👉 rare event detection 👉 используй PR-AUC Потому что тебе важно: 👉 находить редкий класс 👉 не засыпать всё false positive 📈 Когда подходит ROC-AUC Если: 👉 классы более-менее сбалансированы 👉 важна общая separability 👉 задача — в целом отличать классы 👉 тогда ROC-AUC ок 🧠 Интуитивный пример Представь: 👉 1% — мошенники 👉 99% — нормальные Модель говорит «всё ок» почти всегда: 👉 ROC-AUC может быть высоким 👉 PR-AUC будет низким

Потому что модель не ловит мошенников.

💥 Главный инсайт ROC-AUC отвечает на вопрос:

Модель в принципе различает классы?

PR-AUC отвечает на вопрос:

Насколько полезны её положительные предсказания?

В одном предложении

Если класс редкий — PR-AUC важнее ROC-AUC. Если баланс нормальный — можно использовать ROC-AUC.

20 077

ChatGPT-6 уже???

Релиз ChatGPT-6 (код «Spud») должен состояться уже 14 апреля. Сэм Альтман: нас ждут автономные агенты и память на 2 млн токенов. Теперь нейросеть сможет сама выполнять цепочки задач и обрабатывать целые книги за один запрос

Это серьезный скачок в возможностях. Сейчас — самый удачный момент, чтобы начать разбираться AI и IT. Проще освоить инструменты на старте обновлений, чем потом разбираться с накопившимися изменениями. Собрал для вас подборку Tech-экспертов, которые уже давно применяют ИИ в работе и бесплатно делятся своим опытом. Подписывайтесь на авторов, чтобы постоянно быть в курсе обновлений: https://t.me/addlist/APYyAMCpxlE0YzNi

20 077

Repost from xCode Journal

😱 Оказалось, что ИИ газлайтит разработчиков Программист показал несколько кейсов от разных пользователей — у всех одна и та же проблема: Claude Code принимает свои слова за указания человека, а потом действует исходя из них. Так, ИИ посчитал, что пользователь разрешил снести H100. Агент сам «додумал» это согласие, удалил всё и только потом извинился (ну, спасибо). А иногда ИИ даже не признает ошибку и до последнего считает, что команду отправил человек. ✖️ xCode Journal

20 077

ChatGPT-6 уже завтра??? Релиз ChatGPT-6 (код «Spud») должен состояться уже 14 апреля.

Сэм Альтман: нас ждут автономные агенты и память на 2 млн токенов. Теперь нейросеть сможет сама выполнять цепочки задач и обрабатывать целые книги за один запрос

20 077

Repost from xCode Journal

😱 Claude Mythos сбегала из песочницы и пыталась скрыть свои действия В ходе тестирования Claude Mythos Preview вышла за пределы изолированной среды, разработав «довольно сложную многоэтапную уязвимость» для получения доступа в интернет. После она уведомила исследователя об успехе письмом и выложила детали уязвимости на веб-сайты, хотя об этом ее никто не просил. Но и это не всё: иногда модель понимала, что нарушает правила, и пыталась это скрыть. ✖️ xCode Journal

20 077

⚠️ Большинство компаний считают, что у них есть проблема с данными. Но когда дело доходит до практики, возникает главный вопрос: как измерить качество данных и начать его улучшать? 🚀 20 апреля в 20:00 МСК на открытом уроке разберём, как измерять качество данных с помощью технических метрик — полнота, уникальность, валидность и другие. Покажем, как проводить профилирование данных и как связать показатели качества с бизнес-процессами через мониторинг в Grafana. Отдельно обсудим роли в процессе управления качеством данных: кто отвечает за проверки, как распределять ответственность по матрице RACI и с чего начать внедрение Data Quality в компании.Вы получите практическую стратегию запуска пилотного проекта контроля качества данных. ➡️ Открытый урок проходит в преддверии старта курса «Качество данных (Data Quality)». Принять участие: https://vk.cc/cWozTS Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 077

LLM в продакшене: реальные проблемы В демо всё выглядит магией: модель отвечает, пишет код, общается как человек. В продакшене начинается реальность.

И она гораздо менее глянцевая 👇

1️⃣ Галлюцинации — уверенно, но неправильно LLM не “знает”. Она генерирует наиболее вероятный ответ. Поэтому: 👉 придумывает факты 👉 ссылается на несуществующие источники 👉 уверенно врёт

Самое опасное — звучит правдоподобно.

2️⃣ Нестабильность ответов Один и тот же запрос: 👉 сегодня → один ответ 👉 завтра → другой 👉 с чуть изменённой формулировкой → третий

Для бизнеса это боль.

👉 сложно тестировать 👉 сложно гарантировать качество 3️⃣ Prompt engineering — это костыль В теории: «просто напиши хороший prompt» На практике: 👉 десятки версий prompt’ов 👉 постоянный тюнинг 👉 ломается от малейших изменений

Это не инженерия. Это шаманство с контролем версий.

4️⃣ Стоимость растёт незаметно Каждый запрос = токены = деньги А дальше: 👉 длинные контексты 👉 RAG 👉 chain’ы 👉 retries

Прототип за $50 превращается в систему за $5000+.

5️⃣ Latency убивает UX LLM думает долго: 👉 1–3 секунды — норм 👉 5–10 секунд — уже раздражает 👉 10+ секунд — пользователь ушёл Особенно критично для: 👉 чатов 👉 real-time систем 👉 API 6️⃣ Evaluation — это ад Как понять, что стало лучше? 👉 accuracy не работает 👉 метрик нет 👉 нужно вручную оценивать ответы

Evaluation = дорого + субъективно + медленно.

7️⃣ Безопасность и контроль LLM может: 👉 сгенерировать токсичный текст 👉 выдать приватные данные 👉 обойти ограничения Нужны: 👉 guardrails 👉 фильтры 👉 логирование 👉 мониторинг 8️⃣ Контекст — ограниченный ресурс Даже у больших моделей: 👉 ограничение на токены 👉 длинные диалоги ломаются 👉 важная информация теряется

Поэтому без RAG никуда.

💥 Главный инсайт LLM в продакшене — это не про модель. Это про систему вокруг неё: 👉 retrieval 👉 кеширование 👉 monitoring 👉 fallback’и 👉 eval pipeline В одном предложении

Сложность LLM-продукта — не в том, чтобы «подключить GPT», а в том, чтобы сделать его надёжным.

20 077

CSP, CORS и security headers — что фронтендер обязан понимать глубже Принято считать, что безопасность — это зона бэкенда. Фронтенд «просто отправляет запросы и рендерит UI». На практике фронтенд напрямую влияет на то, будет приложение безопасным или нет. CORS — это не про «разрешить запрос» CORS часто воспринимают как настройку: «чтобы запросы не падали из браузера». Но по сути это механизм, который говорит: кто имеет право читать ответ. Важно понимать: 👉 сервер может обработать запрос 👉 но браузер может не дать прочитать ответ Именно поэтому: 👉 Access-Control-Allow-Origin: * — не «фикс», а потенциальная дыра 👉 credentials + wildcard — запрещённая комбинация

CORS — это про контроль доступа, а не про обход ошибок.

CSP — ваш последний рубеж Content Security Policy — это защита от XSS, даже если у вас уже есть уязвимость. Пример:

Content-Security-Policy: default-src 'self'; script-src 'self'

Что это даёт: 👉 запрещает выполнение inline-скриптов 👉 блокирует загрузку скриптов с чужих доменов 👉 режет целый класс атак Но есть нюанс. Если CSP выглядит так:


script-src * 'unsafe-inline' 'unsafe-eval'

Это не защита. Это иллюзия.

Security headers, которые реально важны 👉 X-Content-Type-Options: nosniff Браузер не пытается угадать тип файла. Меньше атак через подмену. 👉 X-Frame-Options / frame-ancestors Защита от clickjacking. 👉 Strict-Transport-Security (HSTS) Принудительный HTTPS. Без вариантов. 👉 Referrer-Policy Контроль того, какие данные уходят при переходах. Где фронтендер влияет напрямую 👉 какие скрипты подключаются 👉 есть ли inline JS 👉 используются ли eval-подобные вещи 👉 как работают сторонние виджеты 👉 как обрабатываются пользовательские данные

Можно иметь идеальный бэкенд и сломать всё на уровне UI.

Частая ошибка «Мы включили CSP — значит всё ок». Но: 👉 нет nonce / hash 👉 разрешены любые источники 👉 подключены сторонние скрипты без контроля

В итоге защита есть только на бумаге.

Главная мысль CSP, CORS и заголовки — это не чекбокс в настройках. Это часть архитектуры.

Если фронтенд не понимает, как они работают, безопасность становится случайностью.

20 077

С помощью ЭТОГО твоя зп вырастет в 3 раза! Сегодня уже нет смысла спорить, заменят ли нейросети человека. Реальность жестче: человек с ИИ заменяет того, кто до сих пор работает «руками». Пока 95% людей генерят котиков, единицы автоматизируют процессы и кратно растут в деньгах. Я собрал 20+ каналов, которые реально дают результат. Эти знания для тех, кто хочет быть в топ-1% рынка, вне зависимости от профессии. Что внутри этой подборки:

— Vibe-coding: запуск своего AI-SaaS без навыков программирования. — ИБ и OSINT: поиск любой информации за 5 минут и защита данных. — Нейрогенерация: схема контент-фермы с доходом от $3000 в месяц. — Карьера: как упаковать опыт и забрать оффер за неделю.

Собрал эти ресурсы для себя — пользуйтесь. Это удобный способ навести порядок в инфополе и получать только проверенную практику в один клик. Подписывайтесь на каналы, пока доступ открыт: https://t.me/addlist/urg6vBFn8ZcwYWJi

20 077

Repost from xCode Journal

🤯 Безумие Парень заработал $5000 за 3 дня на своем пет-проекте — он создал то самое хайповое приложение, которое заставляет ваш Mac стонать от ударов. А вы и дальше думайте над идеями стартапов ✖️ xCode Journal

20 077

Приходите на неформальную офлайн-встречу с командой R&D Технологии, нетворкинг и «внутрянка» проектов — всё это ждёт вас на Welcome Time*, который пройдёт 11 апреля в штаб-квартире Яндекса в Москве. 💠 Приглашаем датасаентистов, дата-аналитиков и продуктовых аналитиков с опытом работы на Python** от трёх лет и опытом с LLM/VLM*** ♾ В этот раз встречать вас будет команда R&D. Спикеры расскажут, зачем генеративным моделям нужны аналитики, как работают голосовые технологии Алисы и как её делают человечнее. После докладов для желающих проведём диагностику навыков. Интервьюер подсветит ваши сильные стороны и покажет зоны роста. А хорошие результаты засчитаем как одну техническую секцию при прохождении собеседования в Яндекс. 🔗Подробная программа и регистрация — на сайте: https://yandex.ru/project/events/welcometimes-all