Data Science | Machinelearning [ru]

Відкрити в Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Сітка:Frontender's notes [ru]Росія33 717 Технології та додатки6 722...

📈 Аналітичний огляд Telegram-каналу Data Science | Machinelearning [ru]

Канал Data Science | Machinelearning [ru] (@devsp) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 20 012 підписників, посідаючи 6 722 місце в категорії Технології та додатки та 33 717 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 20 012 підписників.

За останніми даними від 20 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -78, а за останні 24 години на -10, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 8.57%. Протягом перших 24 годин після публікації контент зазвичай збирає 3.82% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 1 715 переглядів. Протягом першої доби публікація в середньому набирає 765 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 8.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, nvidia, контекст, openai, архитектура.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Завдяки високій частоті оновлень (останні дані отримано 21 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

20 012

Підписники

-1024 години

-467 днів

-7830 день

1 715

Перегляди допису

~ 76524 години

~ 91148 годин

8.57%

Коефіцієнт залучення

~ 1

Дописів на день

Ads index

beta

Архів дописів

20 009

ТВОЙ БУСТ В IT И AI Собрали с коллегами обновленную папку с каналами, которые реально прокачивают навыки и дают актуальные инструменты: + IT-направления: системный анализ, Python, JavaScript, frontend, тестирование + технологии и инструменты: всё, что ускоряет работу и рост в IT + AI для карьеры и бизнеса: как использовать нейросети, чтобы зарабатывать + обзор нейросетей: что сейчас работает и что стоит изучать + промты: готовые решения + логика создания своих подписаться🎁 https://t.me/addlist/uyDjlf_VhiNjNWNi 💌 записать свой канал в папку тут

20 009

Почему знание математики не гарантирует работу Неприятная правда для начинающих в Data Science:

Хорошая математика ≠ готовность к реальной работе.

Можно понимать: 👉 линейную алгебру 👉 статистику 👉 градиентный спуск 👉 вероятности И всё равно провалиться на практике. Почему так происходит Потому что работа Data Scientist — это не только формулы. Это ещё: 👉 грязные данные 👉 непонятные требования 👉 слабые baseline’ы 👉 странные бизнес-ограничения 👉 коммуникация с людьми

В реальности задача редко выглядит как в учебнике.

Математика помогает, но не заменяет практику Математика даёт понимание: 👉 почему модель работает 👉 где она может сломаться 👉 как читать метрики 👉 как не верить магии Но она не научит: 👉 чистить данные 👉 строить pipeline 👉 писать production-код 👉 делать нормальный train/test split 👉 объяснять результат бизнесу Главная ошибка новичков Они думают:

«Сначала выучу всю математику, потом начну проекты».

Проблема в том, что «вся математика» не заканчивается никогда.

Работу дают не за знание формул, а за способность решать задачи.

Что реально смотрят на собеседованиях Обычно хотят понять: 👉 можешь ли ты работать с данными 👉 понимаешь ли метрики 👉 умеешь ли делать baseline 👉 видишь ли leakage 👉 можешь ли объяснить решение 👉 есть ли у тебя проекты

Математика важна. Но сама по себе она не продаёт тебя как специалиста.

Что делать вместо бесконечной теории Лучший путь: 👉 учить математику по мере необходимости 👉 параллельно делать проекты 👉 разбирать ошибки моделей 👉 писать код руками 👉 учиться объяснять выводы простыми словами

Теория должна усиливать практику, а не заменять её.

Главный инсайт

Математика — это фундамент. Но дом строится не фундаментом одним.

В одном предложении

Чтобы получить работу в DS/ML, мало знать формулы — нужно уметь превращать данные в работающие решения.

20 009

ИИ-агенты уже внедряют в поддержку, продажи, аналитику и внутренние процессы. Но у многих всё упирается в сложную инфраструктуру и непонимание, с чего начать. 📆 20 мая в 18:00 МСК приглашаем на открытый урок курса «Разработка ИИ агентов». На занятии вы пошагово соберёте мини-агента: он примет сообщение из Telegram, передаст его в большую языковую модель, примет решение по сценарию и выполнит цепочку действий. Разберём, чем агент отличается от обычного чат-бота, как устроена минимальная архитектура и как получить рабочий результат без тяжёлой серверной части. 🧑‍💻 Также вы сможете познакомиться с преподавателем курса, увидеть формат обучения и задать вопросы. Зарегистрируйтесь, чтобы не пропустить: https://vk.cc/cXLnrA Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru, erid: 2VtzqwCoN6j

20 009

Repost from xCode Journal

💻 Гений создал открытую CLI-утилиту, чтобы следить за блокировками от РКН Она показывает, почему сайт не открывается — из-за проблем сети или из-за блокировок.

«Инструмент определяет, находится ли ваше соединение в зоне блокировки RKN/TSPU — и, что более полезно, какой именно тип блокировки (отравление DNS, сброс TCP, TLS DPI на SNI или страница‑заглушка от провайдера).»

✖️ xCode Journal

20 009

Когда логистическая регрессия лучше XGBoost В мире ML есть странный культ сложных моделей. Если задача табличная — многие сразу запускают: 👉 XGBoost 👉 LightGBM 👉 CatBoost А потом удивляются, что простая логистическая регрессия работает не хуже.

Иногда — даже лучше.

Почему все недооценивают Logistic Regression Потому что она: 👉 старая 👉 простая 👉 «не хайповая» Но у неё есть огромный плюс:

Она очень хорошо обобщает.

Когда Logistic Regression выигрывает 1. Мало данных Если у тебя: 👉 маленький датасет 👉 мало наблюдений 👉 мало signal

Бустинг легко переобучается.

Логистическая регрессия: 👉 проще 👉 стабильнее 👉 менее чувствительна к шуму 2. Линейная зависимость Если данные разделяются почти линейно:

Сложная модель просто не нужна.

XGBoost будет: 👉 строить сложные деревья 👉 искать несуществующие паттерны 3. Высокая размерность Особенно: 👉 NLP 👉 sparse features 👉 TF-IDF

Logistic Regression здесь очень сильна.

Почему: 👉 хорошо работает с разреженными данными 👉 быстро обучается 👉 эффективно регуляризуется 4. Нужна интерпретируемость Логистическая регрессия: 👉 прозрачна 👉 объяснима 👉 понятна бизнесу Можно сказать: 👉 какой признак влияет 👉 насколько влияет 👉 в какую сторону влияет

Для финтеха, медицины и скоринга это критично.

5. Ограничения по скорости Logistic Regression: 👉 быстро обучается 👉 быстро работает 👉 мало потребляет памяти

Иногда latency важнее +2% качества.

Где XGBoost всё-таки сильнее Когда: 👉 сложные нелинейные зависимости 👉 interaction effects 👉 много данных 👉 хороший feature engineering

Тогда бустинг почти всегда победит.

Самая частая ошибка Люди сравнивают: 👉 плохо настроенную Logistic Regression 👉 и хорошо настроенный XGBoost А потом говорят:

«Линейные модели умерли».

Нет. Часто baseline даже не пытались нормально сделать. Главный инсайт Сложная модель не делает тебя хорошим ML-инженером.

Умение понять, когда хватит простой модели — делает.

В одном предложении

Если задача простая, данных мало или нужна интерпретируемость — Logistic Regression может быть лучше XGBoost.

20 009

⁉️ Устал искать интересные каналы про Искусственный интеллект? 📁 СОХРАНИ СЕБЕ ЧТОБЫ НЕ ПОТЕРЯТЬ В этой папке собраны каналы по ИИ, которые помогают быстрее разобраться в сфере, находить идеи и экономить время на поиске информации. 😏 ЗАБИРАЙ ПАПКУ ТУТ ⏰ Папка действует 72 часа. 🤩 Организаторы: Green.Papka

20 009

Repost from xCode Journal

До собеса / перед собесом ✖️ xCode Journa

20 009

Меня недавно позвали в папку IT On и я согласился почти не раздумывая, потому что давно искал что-то похожее. Там собраны люди, которые реально шарят в своей теме: разработчики, продакты, основатели стартапов, эксперты по карьере в tech. Каждый пишет про своё и в сумме получается полная картина индустрии. Читаешь и чувствуешь что находишься внутри IT, а не наблюдаешь снаружи. Разница есть, проверено на себе. Добавляй папку себе, советую!

20 009

Repost from xCode Journal

🖥 Появился тул, который сам подбирает скиллы для вашего ИИ-агента Запускаешь npx autoskills, и он сканирует репозиторий: читает package.json и конфиги, определяет технологический стек и ставит нужные скиллы из проверенного списка. Короче, сильно экономит время на ручной настройке и поиске. ✖️ xCode Journal

20 009

Изучаете программирование, или хотите стать классным айтишником с высокой ЗП? Пока многие паникуют из-за бума ИИ, вы можете стремительно войти в сферу IT при помощи сборки "IT в деле" которую мы составили. Специально для вас разбили нашу сборку мини папки по конкретным тематикам:) Что внутри сборки: - Каналы о программировании и разработке: Python, CSS, HTML, Java и Swift - GameDev и каналы о QA тестироварии, создание игр, помощь для ваших проектов и реальный опыт от тестировщиков 💍 - Авторские каналы и вайбкодинг: IT & AI, простые заметки с проектов, работа с нейросетями , и как они реально влияют на индустрию 🔤 - Информационная безопасность: многое узнаете о работе хакеров и о том, как защитить себя в этом интернет-хаосе. 🔫 Для каждого здесь что-то найдётся! Выберите интересные вам каналы или подпишитесь на всю сборку, и найдите то, что нужно вам для следующего шага в IT.

20 009

Как бороться с переобучением в нейросетях Переобучение — это момент, когда модель: 👉 идеально знает train 👉 и плохо работает на новых данных

Она запоминает, а не обобщает.

Разберём, как с этим бороться на практике. 1. Больше данных Самый надёжный способ. Если данных мало: 👉 собирай новые 👉 делай data augmentation 👉 используй синтетические данные

Больше разнообразия = меньше шансов запомнить шум.

2. Regularization Добавляем штраф за сложность модели. Основные варианты: 👉 L2 (weight decay) 👉 L1

Меньше веса → проще модель → меньше overfitting.

3. Dropout Во время обучения случайные нейроны «выключаются». Что происходит: 👉 модель не может полагаться на конкретные связи 👉 учится быть более устойчивой Обычно используют: 👉 0.2 – 0.5 4. Early Stopping Следим за валидацией: 👉 train loss падает 👉 val loss сначала падает, потом растёт

Останавливаем обучение в момент роста val loss.

Это один из самых эффективных методов. 5. Упростить модель Иногда решение очевидное: 👉 меньше слоёв 👉 меньше параметров 👉 проще архитектура

Большая модель легче переобучается.

6. Data Augmentation Особенно важно для: CV: 👉 повороты 👉 шум 👉 кропы NLP: 👉 перефразирование 👉 замены

Модель видит больше вариантов одного и того же.

7. Batch Normalization Помогает: 👉 стабилизировать обучение 👉 немного снижает переобучение

Не основное решение, но усиливает остальные.

8. Правильная валидация Если плохой split — ты не заметишь проблему. Используй: 👉 train / val / test 👉 k-fold при малых данных

Иначе будешь оптимизировать иллюзию.

Главный инсайт Переобучение — это сигнал: 👉 либо мало данных 👉 либо модель слишком сложная 👉 либо обучение настроено неправильно В одном предложении

Чтобы уменьшить переобучение — добавь данных или убери сложность модели.

20 009

🤔Что происходит, когда AI выходит за пределы прототипа? 20 мая в 15:00 приглашаем на Inside AI Meetup от Wildberries & Russ. Там обсудят реальные кейсы: от высоконагруженной модерации с векторным поиском и AIOps-подходов к управлению ML-сервисами до практики построения RAG-систем, тонкостей реранкинга и реальных этапов запуска LLM-продуктов. Среди спикеров эксперты Wildberries & Russ, MWS, Avito, Сбера, Альфа-Банка, red_mad_robot. Принять участие советуем senior ML/AI инженерам, MLE, DS, инженерам платформ и всем, кто строит или масштабирует AI-системы в продакшене. Митап пройдет в Москве + будет трансляция. Подробности и регистрация — на сайте.

20 009

Миграция фреймворков через AI. Где ломается наивный подход Принято считать, что миграция с одной библиотеки на другую - типичная задача для LLM. Открыл файл, попросил переписать с React на Vue, получил результат. На паре компонентов работает. На реальном проекте перестаёт работать к десятому файлу. 👉 одинаковые паттерны переписываются по-разному 👉 контекст между файлами теряется 👉 решения деградируют к пятой итерации 👉 тесты, которые зеленели, начинают падать Код выглядит мигрированным, но ведёт себя иначе. Что работает Детерминистический рефакторинг: LLM формулирует правила перехода на двух-трёх файлах, дальше OpenRewrite или ts-morph применяет их через AST. После каждого этапа компиляция и тесты. Бонусом ревью плана до применения и откатываемость. Это один из десятка приёмов, без которых AI-разработка на больших проектах разваливается. SPEC-разработка, AGENTS.md, SKILLS.md, контекст-инжиниринг, Plan Mode. Всё можно изучить в документации, собрать в систему самому - примерно год. Команда Naition научит этому за 12 недель на буткемпе с преподавателями из Google, Yandex Cloud, Сбера и других компаний. Формат: живые онлайн-встреч: 30 минут теории, час разбора кейса, полтора часа практики на своём коде. За 14 уроков вы научитесь: • Настраивать ИИ-окружение — RAG-системы, MCP, SPEC-разработка, агенты и контекст под свой стек. • Создавать фичи в разы быстрее, используя ИИ в каждом этапе — от планирования до внедрения. • Управлять полноценной командой ИИ-агентов — ваш продукт 24/7 создают бекэнд / фронтэнд разработчики, системные аналитики, DevOps и другие агенты. И не только! Записаться Старт 5 мая. По промокоду FRONTENDER — скидка 20%. Бонус для участников первых когорт: 3 месяца в закрытом клубе после обучения. Записаться Команда также собрала бесплатную дорожную карту из 40+ концептов со ссылками на источники. По сути оглавление того, что сейчас составляет базовую инженерную грамотность для работы с AI. Забрать роадмеп по ссылке

20 009

Repost from xCode Journal

❌ «Никакого кода вручную — такая политика» Так говорит айтишник Disney. Дело в том, что компания Disney сделала для своих программистов «панель мониторинга внедрения ИИ» с лидербордом. Чем больше дней подряд ты используешь Cursor или Claude, тем больше у тебя ачивок. Некоторые сотрудники говорят, что чувствуют давление «максимально использовать токены». ✖️ xCode Journal

20 009

На Stepik запустили годный курс по «Troubleshooting Docker и Kubernetes: поиск и устранение проблем» В программе только важные аспекты: — troubleshooting Docker и образов — диагностика сетевых проблем — настройка readiness/liveness probes — отладка pod’ов, деплоев и ingress — анализ логов контейнеров и кластера — разбор ошибок CrashLoopBackOff, OOMKilled, ImagePullBackOff и других Собеседования на DevOps/SRE сейчас всё чаще строятся вокруг реальных инцидентов. Данный курс фокусируется именно на таких сценариях и помогает в подготовке к практическим вопросам 48 часов доступен со скидкой 25% ↗️ Пройти курс на Stepik

20 009

Repost from xCode Journal

🤣 ИИ не дурак — прям так и не написал. Просто скопировал. 💥 xCode Journal

20 009

GPU в облаке: RTX 4090, A100, H100, 6000 Blackwell Рендеринг в Blender, CAD-модели и обучение LLM — задачи разные, но упираются в одно: нужный GPU не всегда стоит на рабочей машине. Облачная аренда позволяет взять подходящую карту на час или на длительность проекта, без покупки железа. В Cloud4Y доступна линейка NVIDIA под любые задачи: - RTX 4090 и 5090 — для рендера, моушна и инференса небольших моделей; - A100 (40/80 GB) и H100 (80 GB) — для обучения и инференса LLM; - RTX 6000 Blackwell — для нагрузок следующего поколения. CUDA, PyTorch и TensorFlow уже стоят, удалённый доступ — через RDP, Parsec, NICE DCV. ЦОД уровня Tier III в Москве, Стамбуле и Новосибирске, почасовой биллинг в рублях, инфраструктура соответствует ФЗ-152. Новым клиентам — скидка 20% на GPU NVIDIA, 30 дней бесплатного доступа юридическим лицам. Попробовать #реклама 16+ cloud4y.ru О рекламодателе

20 009

Repost from xCode Journal

🐱 GitHub покидают разрабы и опенсорс проекты Разработчик Митчелл Хашимото, создатель популярного эмулятора терминала Ghostty, переносит проект из-за проблем со стабильностью платформы.

«Я пользователь GitHub под номером 1299, присоединился в феврале 2008 года. Я заходил на GitHub почти каждый день в течение более 18 лет. Для меня никогда не было вопроса, куда размещать свои проекты: всегда GitHub. Мне очень грустно это говорить, но пришло время уходить», — пишет он.

✖️ xCode Journal

20 009

⚡️Я долго собирал IT-каналы вручную. Добавлял, удалял, снова искал. В итоге понял одно: проблема не в каналах. Проблема в том, что хорошие раскиданы, а плохие занимают место. Сделал IT Base - папку где только то, что реально читаю сам. Разработка, продукт, стартапы, tech-карьера. Одно касание и ты внутри. 👉🏻 Забирай

20 009

Random Forest vs Gradient Boosting — реальное сравнение Самый частый вопрос в табличных данных: что выбрать — Random Forest или Gradient Boosting?

Ответ, который никто не любит: зависит от задачи.

Но давай разберёмся по-честному, без мифов. Что такое Random Forest Это ансамбль деревьев, где: 👉 каждое дерево обучается независимо 👉 используются случайные подвыборки данных и фич

Идея: уменьшить variance за счёт усреднения.

Что такое Gradient Boosting Это ансамбль деревьев, где: 👉 каждое следующее дерево исправляет ошибки предыдущего 👉 обучение идёт последовательно

Идея: минимизировать ошибку шаг за шагом.

Главное отличие 👉 Random Forest → деревья независимы 👉 Gradient Boosting → деревья зависят друг от друга 👉 RF = параллель 👉 GB = последовательность Качество модели В большинстве задач: 👉 Gradient Boosting выигрывает Почему: 👉 лучше улавливает сложные зависимости 👉 оптимизирует ошибку напрямую Поэтому: 👉 XGBoost 👉 LightGBM 👉 CatBoost

Стали стандартом индустрии.

Переобучение Random Forest: 👉 устойчив к переобучению 👉 работает «из коробки» Gradient Boosting: 👉 легко переобучается 👉 требует настройки

GB мощнее, но опаснее.

Скорость Обучение: 👉 RF → быстрее и параллелится 👉 GB → медленнее (последовательность) Инференс: 👉 часто сопоставим Чувствительность к данным Random Forest: 👉 менее чувствителен к шуму 👉 проще в использовании Gradient Boosting: 👉 чувствителен к: 👉 шуму 👉 выбросам 👉 плохим фичам

Зато раскрывает хороший feature engineering.

Когда выбирать Random Forest 👉 нужен быстрый baseline 👉 мало времени на тюнинг 👉 данные шумные 👉 нужна стабильность

«Запустил и работает».

Когда выбирать Gradient Boosting 👉 нужна максимальная точность 👉 есть время на тюнинг 👉 данные относительно чистые 👉 важен результат

«Выжать максимум».

Главный инсайт

Random Forest — надёжный середняк. Gradient Boosting — инструмент для победы.

В одном предложении

Хочешь быстро и стабильно → Random Forest. Хочешь максимум качества → Gradient Boosting.