Data Science | Machinelearning [ru]

Open in Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Network:Frontender's notes [ru]Russia33 728 Technologies & Applications6 731...

📈 Analytical overview of Telegram channel Data Science | Machinelearning [ru]

Channel Data Science | Machinelearning [ru] (@devsp) in the Russian language segment is an active participant. Currently, the community unites 20 077 subscribers, ranking 6 731 in the Technologies & Applications category and 33 728 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 20 077 subscribers.

According to the latest data from 11 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -38 over the last 30 days and by 40 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 7.58%. Within the first 24 hours after publication, content typically collects 4.23% reactions from the total number of subscribers.
Post reach: On average, each post receives 1 521 views. Within the first day, a publication typically gains 849 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 6.
Thematic interests: Content is focused on key topics such as llm, nvidia, контекст, openai, архитектура.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Thanks to the high frequency of updates (latest data received on 12 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

20 077

Subscribers

+4024 hours

+457 days

-3830 days

1 521

Post views

~ 84924 hours

~ 99648 hours

7.58%

Engagement rate

~ 1

Posts per day

Ads index

beta

Posts Archive

20 077

Ошибки при train/test split Train/test split — кажется самой простой частью ML. Но именно здесь чаще всего ломают всю модель. И самое опасное — ты можешь даже не заметить Data Leakage — тихий убийца моделей

Ты случайно «подсматриваешь» в тест. Примеры: 👉 нормализация на всём датасете до split 👉 target encoding на всех данных 👉 feature, напрямую связанная с таргетом Модель показывает космический скор, а в проде — провал.

Случайный split там, где нельзя

Ты делаешь random split… но данные зависимы. Примеры: 👉 временные ряды 👉 пользователи (один и тот же user в train и test) 👉 сессии Модель узнаёт данные, а не обобщает.

Игнорирование времени

В задачах с временем: 👉 ❌ случайный split 👉 ✅ train = прошлое, test = будущее Иначе ты: 👉 обучаешься на будущем 👉 предсказываешь прошлое Это не ML. Это читерство.

4️⃣ Дисбаланс классов в split

Ты сделал split и получил: 👉 train: 5% positive 👉 test: 1% positive Метрики начинают врать. Решение: 👉 stratified split

Слишком маленький test

Test = 50 объектов Accuracy = 90% Звучит круто. Но это статистический шум. Маленький test = ненадёжная оценка.

Тест используется как валидация

Классическая ошибка: 👉 обучился 👉 посмотрел на test 👉 подкрутил модель 👉 снова посмотрел Это уже не test. Это validation 2.0.

Дубликаты в train и test

Если один и тот же объект попал в обе выборки: Модель просто запоминает. Особенно критично: 👉 CV 👉 e-commerce 👉 табличные данные с ID

Неправильный split в CV

Cross-validation тоже можно сломать: 👉 leakage между фолдами 👉 группы не учитываются 👉 time-series перемешаны Используй: 👉 GroupKFold 👉 TimeSeriesSplit

Главный инсайт Train/test split — это не про «разделить данные». Это про симуляцию реального мира. Если split не отражает прод — все метрики бесполезны. В одном предложении Плохой split может сделать плохую модель «идеальной» — до момента, когда она выйдет в прод.

20 077

Repost from xCode Journal

🤣 Примеры полиморфизма на собеседовании: 💥 xCode Journal

20 077

Станьте профессионалом в Data Science с нуля уже в 2026 году! Хотите развиваться в Data Science, но столкнулись с трудностями самостоятельного изучения? У вас есть возможность обучиться с нуля и освоить новую профессию уже в этом году! Data Science - одна из самых востребованных и высокооплачиваемых сфер в IT. Это мощное сочетание аналитики, инженерии данных и машинного обучения. И сейчас - лучшее время, чтобы войти в профессию, ведь рынок ищет универсалов. Всего за 8 месяцев вы:

➖Освоите полный стек инструментов: SQL, Python, Pandas, Docker, Airflow и ETL-пайплайны ➖Разберётесь в ML и DL: от регрессии и кластеризации до нейросетей, NLP и компьютерного зрения ➖Соберёте портфолио из реальных бизнес-кейсов под руководством практиков ➖Получите диплом государственного образца

Кому подойдёт курс: Новичкам - получите профессию с нуля и выйдете на старт с зарплатой до 170 000 ₽ Аналитикам - прокачаете ML, бустанете зарплату х2 и перейдёте на уровень Data Scientist Специалистам смежных сфер - научитесь работать с данными и принимать решения на их основе После курса вы сможете перейти на позицию Data Scientist и применять навыки из аналитики и инженерии данных, машинного и глубокого обучения. Стартуйте сейчас со скидкой 30%: simulative.ru/data-scientist

20 077

Repost from xCode Journal

🐱 На GitHub выкатили andrej-karpathy-skills Скилл из 4 инструкций, которые меняют поведение Claude Code. Благодаря им модель больше планирует, проверяет себя, пишет аккуратнее и меньше галлюцинирует. Автор вдохновился размышлениями отца вайбкодинга и формализовал его подход к работе с кодом и ИИ. Чтобы вы понимали — репа набрала почти 40 тысяч звезд за пару дней. ✖️ xCode Journal

20 077

Канал для IT-спецов о том, как запустить свой проект Даже если у тебя нет готовой идеи и все прошлые попытки провалились. Ты узнаешь: Как заранее понять, будет ли кто-то платить за твой продукт? Как выбрать идею, которая "выстрелит"? Как получить первые оплаты, еще ДО создания продукта - и не заплатить за это ни копейки. Если тебе уже надоело тратить жизнь, работая в корпорации, и есть желание "сделать что-то своё", но уходить строить бизнес страшно - ты в правильном месте. Подписаться #реклама 16+ О рекламодателе

20 077

Repost from xCode Journal

💸 Сооснователь GitHub поднял $17 млн на нового Git-клиента Скотт Чакон считает, что классический Git УСТАРЕЛ И плохо работает в мире, где код пишут не только люди, но и ИИ-агенты. Поэтому он создал пару лет назад GitButler и теперь выкатил CLI-версию. Главная его идея — более удобный интерфейс и отсутствие классического переключения между ветками + параллельная работа. Вообще внутри много прикольных фич — сразу видно, что разрабатывал не новичок ✖️ xCode Journal

20 077

Самый ценный навык в 2026 — ВАЙБ-КОДИНГ! Сейчас с ИИ можно написать проект любой сложности. Самому, без команды программистов. Иван, владелец агентства, запилил ИИ-агента для заказов на Upwork и за три месяца вышел на $10K выручки. И таких историй становится всё больше. У себя на канале я рассказываю: — Какие инструменты использовать — Как собирать проекты от идеи до запуска и первых пользователей — Какие связки работают в вайбкодинге прямо сейчас Присоединяйся к сообществу вайбкодеров: https://t.me/+gNiHGwBsg8wxMDE6

20 077

ML-модели становятся помощниками в принятии решений на рекламных платформах Технический директор рекламной платформы Т-Банка Василий Разумных рассказал, как работает система, в которой модели используются не только для предсказания кликабельности. По его словам, ML-модели определяют, что показывать конкретному человеку в определенный момент времени. На смену ручной сегментации приходит ML-таргетинг: система сама находит нужную для цели аудиторию. Скоринговая модель помогает в ранжировании: она учитывает экономическую эффективность, вероятность действия и репутацию рекламодателя. Также активно развиваются автостратегии, при которых рекламодатели могут задать цель, а алгоритмы ищут пути ее достижения. СТО отметил, что несмотря на то, что генеративный ИИ помогает варьировать тексты и изображения, все креативы проходят строгие фильтры валидации на соответствие безопасности.

20 077

😁😆😁 Ты ведь тоже это замечаешь? Пока одни «присматриваются» к нейросетям— другие уже зарабатывают на этом 💵

И самое интересное — порог входа сейчас минимальный. Не нужно быть программистом. Нужно только одно: понимать, как именно использовать ИИ под свои задачи.

Я тут собрал папку с экспертами в этой теме. Можешь добавиться и посмотреть, как это делают другие 👇 https://t.me/addlist/A0vy8zWBM1gyNTky

20 077

ROC-AUC vs PR-AUC: когда что использовать ROC-AUC и PR-AUC — две метрики, которые постоянно путают. И чаще всего выбирают не ту. Разберём на пальцах 👇 📈 Что такое ROC-кривая ROC-кривая показывает: 👉 TPR (Recall) — сколько положительных нашли 👉 FPR — сколько отрицательных ошибочно посчитали положительными

Насколько хорошо модель отделяет классы.

ROC-AUC — площадь под этой кривой. 📊 Что такое PR-кривая PR-кривая показывает: 👉 Precision — насколько точны предсказания 👉 Recall — сколько положительных нашли

Насколько хорошо модель находит редкий класс без мусора.

PR-AUC — площадь под этой кривой. ⚔️ Главная разница 👉 ROC-AUC → разделимость классов 👉 PR-AUC → качество положительных предсказаний 🚨 Где все ошибаются Используют ROC-AUC при сильном дисбалансе классов. Почему это плохо? 👉 FPR считается по огромному количеству негативов 👉 даже плохая модель может выглядеть «хорошо»

ROC-AUC становится слишком оптимистичной.

📉 Когда нужен PR-AUC Если у тебя: 👉 fraud detection 👉 churn prediction 👉 medical diagnosis 👉 rare event detection 👉 используй PR-AUC Потому что тебе важно: 👉 находить редкий класс 👉 не засыпать всё false positive 📈 Когда подходит ROC-AUC Если: 👉 классы более-менее сбалансированы 👉 важна общая separability 👉 задача — в целом отличать классы 👉 тогда ROC-AUC ок 🧠 Интуитивный пример Представь: 👉 1% — мошенники 👉 99% — нормальные Модель говорит «всё ок» почти всегда: 👉 ROC-AUC может быть высоким 👉 PR-AUC будет низким

Потому что модель не ловит мошенников.

💥 Главный инсайт ROC-AUC отвечает на вопрос:

Модель в принципе различает классы?

PR-AUC отвечает на вопрос:

Насколько полезны её положительные предсказания?

В одном предложении

Если класс редкий — PR-AUC важнее ROC-AUC. Если баланс нормальный — можно использовать ROC-AUC.

20 077

ChatGPT-6 уже???

Релиз ChatGPT-6 (код «Spud») должен состояться уже 14 апреля. Сэм Альтман: нас ждут автономные агенты и память на 2 млн токенов. Теперь нейросеть сможет сама выполнять цепочки задач и обрабатывать целые книги за один запрос

Это серьезный скачок в возможностях. Сейчас — самый удачный момент, чтобы начать разбираться AI и IT. Проще освоить инструменты на старте обновлений, чем потом разбираться с накопившимися изменениями. Собрал для вас подборку Tech-экспертов, которые уже давно применяют ИИ в работе и бесплатно делятся своим опытом. Подписывайтесь на авторов, чтобы постоянно быть в курсе обновлений: https://t.me/addlist/APYyAMCpxlE0YzNi

20 077

Repost from xCode Journal

😱 Оказалось, что ИИ газлайтит разработчиков Программист показал несколько кейсов от разных пользователей — у всех одна и та же проблема: Claude Code принимает свои слова за указания человека, а потом действует исходя из них. Так, ИИ посчитал, что пользователь разрешил снести H100. Агент сам «додумал» это согласие, удалил всё и только потом извинился (ну, спасибо). А иногда ИИ даже не признает ошибку и до последнего считает, что команду отправил человек. ✖️ xCode Journal

20 077

ChatGPT-6 уже завтра??? Релиз ChatGPT-6 (код «Spud») должен состояться уже 14 апреля.

Сэм Альтман: нас ждут автономные агенты и память на 2 млн токенов. Теперь нейросеть сможет сама выполнять цепочки задач и обрабатывать целые книги за один запрос

20 077

Repost from xCode Journal

😱 Claude Mythos сбегала из песочницы и пыталась скрыть свои действия В ходе тестирования Claude Mythos Preview вышла за пределы изолированной среды, разработав «довольно сложную многоэтапную уязвимость» для получения доступа в интернет. После она уведомила исследователя об успехе письмом и выложила детали уязвимости на веб-сайты, хотя об этом ее никто не просил. Но и это не всё: иногда модель понимала, что нарушает правила, и пыталась это скрыть. ✖️ xCode Journal

20 077

⚠️ Большинство компаний считают, что у них есть проблема с данными. Но когда дело доходит до практики, возникает главный вопрос: как измерить качество данных и начать его улучшать? 🚀 20 апреля в 20:00 МСК на открытом уроке разберём, как измерять качество данных с помощью технических метрик — полнота, уникальность, валидность и другие. Покажем, как проводить профилирование данных и как связать показатели качества с бизнес-процессами через мониторинг в Grafana. Отдельно обсудим роли в процессе управления качеством данных: кто отвечает за проверки, как распределять ответственность по матрице RACI и с чего начать внедрение Data Quality в компании.Вы получите практическую стратегию запуска пилотного проекта контроля качества данных. ➡️ Открытый урок проходит в преддверии старта курса «Качество данных (Data Quality)». Принять участие: https://vk.cc/cWozTS Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 077

LLM в продакшене: реальные проблемы В демо всё выглядит магией: модель отвечает, пишет код, общается как человек. В продакшене начинается реальность.

И она гораздо менее глянцевая 👇

1️⃣ Галлюцинации — уверенно, но неправильно LLM не “знает”. Она генерирует наиболее вероятный ответ. Поэтому: 👉 придумывает факты 👉 ссылается на несуществующие источники 👉 уверенно врёт

Самое опасное — звучит правдоподобно.

2️⃣ Нестабильность ответов Один и тот же запрос: 👉 сегодня → один ответ 👉 завтра → другой 👉 с чуть изменённой формулировкой → третий

Для бизнеса это боль.

👉 сложно тестировать 👉 сложно гарантировать качество 3️⃣ Prompt engineering — это костыль В теории: «просто напиши хороший prompt» На практике: 👉 десятки версий prompt’ов 👉 постоянный тюнинг 👉 ломается от малейших изменений

Это не инженерия. Это шаманство с контролем версий.

4️⃣ Стоимость растёт незаметно Каждый запрос = токены = деньги А дальше: 👉 длинные контексты 👉 RAG 👉 chain’ы 👉 retries

Прототип за $50 превращается в систему за $5000+.

5️⃣ Latency убивает UX LLM думает долго: 👉 1–3 секунды — норм 👉 5–10 секунд — уже раздражает 👉 10+ секунд — пользователь ушёл Особенно критично для: 👉 чатов 👉 real-time систем 👉 API 6️⃣ Evaluation — это ад Как понять, что стало лучше? 👉 accuracy не работает 👉 метрик нет 👉 нужно вручную оценивать ответы

Evaluation = дорого + субъективно + медленно.

7️⃣ Безопасность и контроль LLM может: 👉 сгенерировать токсичный текст 👉 выдать приватные данные 👉 обойти ограничения Нужны: 👉 guardrails 👉 фильтры 👉 логирование 👉 мониторинг 8️⃣ Контекст — ограниченный ресурс Даже у больших моделей: 👉 ограничение на токены 👉 длинные диалоги ломаются 👉 важная информация теряется

Поэтому без RAG никуда.

💥 Главный инсайт LLM в продакшене — это не про модель. Это про систему вокруг неё: 👉 retrieval 👉 кеширование 👉 monitoring 👉 fallback’и 👉 eval pipeline В одном предложении

Сложность LLM-продукта — не в том, чтобы «подключить GPT», а в том, чтобы сделать его надёжным.

20 077

CSP, CORS и security headers — что фронтендер обязан понимать глубже Принято считать, что безопасность — это зона бэкенда. Фронтенд «просто отправляет запросы и рендерит UI». На практике фронтенд напрямую влияет на то, будет приложение безопасным или нет. CORS — это не про «разрешить запрос» CORS часто воспринимают как настройку: «чтобы запросы не падали из браузера». Но по сути это механизм, который говорит: кто имеет право читать ответ. Важно понимать: 👉 сервер может обработать запрос 👉 но браузер может не дать прочитать ответ Именно поэтому: 👉 Access-Control-Allow-Origin: * — не «фикс», а потенциальная дыра 👉 credentials + wildcard — запрещённая комбинация

CORS — это про контроль доступа, а не про обход ошибок.

CSP — ваш последний рубеж Content Security Policy — это защита от XSS, даже если у вас уже есть уязвимость. Пример:

Content-Security-Policy: default-src 'self'; script-src 'self'

Что это даёт: 👉 запрещает выполнение inline-скриптов 👉 блокирует загрузку скриптов с чужих доменов 👉 режет целый класс атак Но есть нюанс. Если CSP выглядит так:


script-src * 'unsafe-inline' 'unsafe-eval'

Это не защита. Это иллюзия.

Security headers, которые реально важны 👉 X-Content-Type-Options: nosniff Браузер не пытается угадать тип файла. Меньше атак через подмену. 👉 X-Frame-Options / frame-ancestors Защита от clickjacking. 👉 Strict-Transport-Security (HSTS) Принудительный HTTPS. Без вариантов. 👉 Referrer-Policy Контроль того, какие данные уходят при переходах. Где фронтендер влияет напрямую 👉 какие скрипты подключаются 👉 есть ли inline JS 👉 используются ли eval-подобные вещи 👉 как работают сторонние виджеты 👉 как обрабатываются пользовательские данные

Можно иметь идеальный бэкенд и сломать всё на уровне UI.

Частая ошибка «Мы включили CSP — значит всё ок». Но: 👉 нет nonce / hash 👉 разрешены любые источники 👉 подключены сторонние скрипты без контроля

В итоге защита есть только на бумаге.

Главная мысль CSP, CORS и заголовки — это не чекбокс в настройках. Это часть архитектуры.

Если фронтенд не понимает, как они работают, безопасность становится случайностью.

20 077

С помощью ЭТОГО твоя зп вырастет в 3 раза! Сегодня уже нет смысла спорить, заменят ли нейросети человека. Реальность жестче: человек с ИИ заменяет того, кто до сих пор работает «руками». Пока 95% людей генерят котиков, единицы автоматизируют процессы и кратно растут в деньгах. Я собрал 20+ каналов, которые реально дают результат. Эти знания для тех, кто хочет быть в топ-1% рынка, вне зависимости от профессии. Что внутри этой подборки:

— Vibe-coding: запуск своего AI-SaaS без навыков программирования. — ИБ и OSINT: поиск любой информации за 5 минут и защита данных. — Нейрогенерация: схема контент-фермы с доходом от $3000 в месяц. — Карьера: как упаковать опыт и забрать оффер за неделю.

Собрал эти ресурсы для себя — пользуйтесь. Это удобный способ навести порядок в инфополе и получать только проверенную практику в один клик. Подписывайтесь на каналы, пока доступ открыт: https://t.me/addlist/urg6vBFn8ZcwYWJi

20 077

Repost from xCode Journal

🤯 Безумие Парень заработал $5000 за 3 дня на своем пет-проекте — он создал то самое хайповое приложение, которое заставляет ваш Mac стонать от ударов. А вы и дальше думайте над идеями стартапов ✖️ xCode Journal

20 077

Приходите на неформальную офлайн-встречу с командой R&D Технологии, нетворкинг и «внутрянка» проектов — всё это ждёт вас на Welcome Time*, который пройдёт 11 апреля в штаб-квартире Яндекса в Москве. 💠 Приглашаем датасаентистов, дата-аналитиков и продуктовых аналитиков с опытом работы на Python** от трёх лет и опытом с LLM/VLM*** ♾ В этот раз встречать вас будет команда R&D. Спикеры расскажут, зачем генеративным моделям нужны аналитики, как работают голосовые технологии Алисы и как её делают человечнее. После докладов для желающих проведём диагностику навыков. Интервьюер подсветит ваши сильные стороны и покажет зоны роста. А хорошие результаты засчитаем как одну техническую секцию при прохождении собеседования в Яндекс. 🔗Подробная программа и регистрация — на сайте: https://yandex.ru/project/events/welcometimes-all