MLinside - школа ML

رفتن به کانال در Telegram

Предзапись на курс "ML System Design с Валерием Бабушкиным": https://forms.yandex.ru/u/6a0436bd90290214acb9d542/ Наши курсы: https://taplink.cc/mlinside Чат коммьюнити: @ml_insidechat По вопросам: @marinagartm

نمایش بیشتر

روسيا131 985 فناوری و برنامه‌ها21 306

4 018

مشترکین

+424 ساعت

+57 روز

+7530 روز

1 837

نمایش های پست

~ 95024 ساعت

~ 1 15548 ساعت

45.72%

نرخ مشارکت

اطلاعاتی وجود ندارد

پست های در روز

Ads index

beta

آرشیو پست ها

4 018

Учимся на практике: решаем реальные ML-задачки Это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных (ну или почти реальных) проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях. Пятнадцатая задача Что нужно сделать: По различным параметрам и результатом анализов женщины определить есть у нее диабет или нет Как можно сделать: ▪️Построить confusion matrix для нескольких признаков, посмотреть есть ли между ними зависимость или нет ▪️Обучить классификаторы на данных ▪️Посмотреть на важность признаков, если некоторые зависят друг от друга и важны, то попробовать их как-то разделить и обучить классификатор снова ▪️или сделать что-то другое Данные можно взять на Kaggle: https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1NZXRFcxHAR-RABH7cEplpUd4wX67dibw?usp=sharing Готовы попробовать? Делитесь своими результатами в комментариях. А другие посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside

4 018

Кажется, что к собеседованию по ML нужно заново выучить всю математику? На практике это не так. Большинство математических вопросов на интервью связаны не со сложными доказательствами и выводами формул, а с пониманием того, как работают модели, метрики и эксперименты. У нас на YouTube, в ВК и Дзен вышло видео, где Александр Дубейковский (ML Engineer в Avito, ex-Yandex, эксперт MLinside) расскажет, какие математические темы чаще всего встречаются на ML-собеседованиях, как быстро восстановить знания перед интервью и почему решение задач работает намного лучше, чем чтение учебников в последний момент. Кому будет полезно это видео: ▪️Тем, кто готовится к ML-собеседованиям ▪️Junior и Middle ML-инженерам ▪️Data Scientists ▪️Студентам, ищущим первую работу в ML ▪️Всем, кто давно не открывал математику и хочет быстро освежить знания Нашли себя в этом списке? Тогда велком на удобную площадку: https://youtu.be/LQif1TY84s0?is=PyaQPNF08kmPMe9w https://vkvideo.ru/video-228219607_456239242 https://dzen.ru/video/watch/6a3d7bbb2dd9ef51bfaa2a60?share_to=link

4 018

Это рубрика «ML в реальной жизни» и у нас третья задача Мы продолжаем нашу рубрику, где задаем ситуации, с которыми сталкиваются ML/DS-команды в продакшене. В этой рубрике нет единственно правильных ответов. Её цель – научиться рассуждать, обсуждать подходы и смотреть на проблемы с разных сторон. Поэтому, если хотите, чтобы рубрика была вам максимально полезна, в комментариях важно не просто выбрать вариант, а объяснить: — почему выбрали именно его — что бы вы проверяли — какие риски вы бы учитывали Сегодня у нас ситуация №3: Ситуация: Модель молча сломалась Контекст: Модель в продакшене перестала обновлять прогнозы. Логи в норме, ошибок нет, пайплайн "зелёный". Но свежие предсказания не появляются. Вы подозреваете тихий сбой: завис джоб, кончилось место, изменился формат входных данных – но где именно, непонятно. Варианты действий: Что будете делать в первую очередь? Все посты этой рубрики можно будет посмотреть по тэгу: #риллайф_MLinside

4 018

А у нас там подкаст вышел, видели? Если вдруг нет, то заходите на YouTube, в ВК или Дзен, там увидите подкаст Виктора Кантора и Татьяны Гайнцевой – AI Researcher и PhD-кандидат в Queen Mary University of London, исследовательница в области интерпретируемости и управления поведением генеративных моделей. Обладательница стипендии DeepMind, преподаватель Deep Learning School и Nebius Academy, соосновательница Deep Learning School, автор телеграм-канала DLStories и подкаста Deep Learning Stories. Ранее занималась исследованиями в Huawei и Philips, работая над задачами компьютерного зрения и медицинского AI. В выпуске разговор получился не столько про карьеру в AI, сколько про исследовательское мышление. Почему одни специалисты годами улучшают метрики моделей, а другие пытаются понять, что происходит внутри них? Зачем вообще исследовать интерпретируемость нейросетей? Можно ли управлять поведением LLM через активации отдельных слоев? И почему иногда самый интересный вопрос в машинном обучении – не «как сделать лучше», а «почему это вообще работает»? Ждём вас на удобной для вас площадке: https://youtu.be/pXMd0N6xSAQ https://vk.com/video-228219607_456239235 https://dzen.ru/video/watch/6a314bf1a6d473684e1eb721

4 018

9 июля пройдет форум Data Day 2026 — одно из крупнейших событий про данные, аналитику и AI. На форуме обсудят: — как бизнес использует data-driven подходы, — реальные кейсы внедрения AI и аналитики, — тренды рынка, — практику команд и компаний, которые уже строят решения на данных. Соберутся сильные эксперты, практики и лидеры индустрии — будет много прикладного контента и полезного нетворкинга. И у вас есть возможность попасть на форум бесплатно. Для этого нужно подписаться на каналы спикеров и организаторов через бота. Чтобы получить билет, переходите в бота. Посмотреть программу и состав спикеров можно на сайте Data Day

4 018

9 июля пройдет форум Data Day 2026 — одно из крупнейших событий про данные, аналитику и AI. На форуме обсудят: — как бизнес использует data-driven подходы, — реальные кейсы внедрения AI и аналитики, — тренды рынка, — практику команд и компаний, которые уже строят решения на данных. Соберутся сильные эксперты, практики и лидеры индустрии — будет много прикладного контента и полезного нетворкинга. 🎫 И у вас есть возможность попасть на форум бесплатно. Для этого нужно подписаться на каналы спикеров и организаторов через бота. Чтобы получить билет, переходите в бота. 👉 Посмотреть программу и состав спикеров можно на сайте Data Day

4 018

Учимся на практике: решаем реальные ML-задачки Это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных (ну или почти реальных) проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях. Четырнадцатая задача Что нужно сделать: По разным параметрам сделать классификатор уволится человек с работы или нет (переменная attrition) Как можно сделать: ▪️Обучить классификатор на всех данных ▪️Определить при каких значениях разных переменных человек с большой вероятностью уволится. Определить топ 5 для каждого уровня образования, посмотреть насколько этот топ меняется ▪️Определить насколько важен ворк/лайф баланс ▪️Обучить свой классификатор увольнения для каждого значения переменной PerformanceRating, изменился ли топ 5 значимых переменных в этих классификатор по сравнению с топ 5 у общей модели ▪️или сделать что-то другое Данные можно взять на Kaggle: https://www.kaggle.com/datasets/pavansubhasht/ibm-hr-analytics-attrition-dataset Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1tAgD5KleAkCtYHKI0uUHWTfW1ucDv5ZX?usp=sharing Готовы попробовать? Делитесь своими результатами в комментариях. А другие посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside

4 018

Если вы открыли курс по Machine Learning (или любой другой курс) и через 15 минут поняли, что не понимаете вообще ничего... ...то видео, которое у нас вышло на YouTube, в ВК и Дзен будем вам полезно. Большинство людей думают, что проблема в них: "не хватает таланта", "слишком поздно начал", "ML не для меня". Но на практике почти все специалисты проходили через этот этап. Машинное обучение объединяет программирование, математику, статистику и работу с данными, поэтому первое время мозгу просто не на что опереться. Александр Дубейковский (ML Engineer в Avito, ex-Yandex, эксперт MLinside) расскажет, почему непонимание это нормальная часть обучения, как правильно изучать сложные темы и что делать, если очередной урок кажется набором незнакомых слов. Кому будет полезно это видео ▪️Тем, кто только начинает изучать Machine Learning ▪️Студентам онлайн-курсов по ML и Data Science ▪️Разработчикам и аналитикам, которые переходят в AI ▪️Тем, кто думает бросить обучение из-за сложных тем ▪️Всем, кто хочет выстроить правильную стратегию обучения Если вы тоже сталкивались с ощущением, что "ничего не понятно", напишите в комментариях, какая тема в ML оказалась для вас самой сложной.

4 018

Внимание-внимание, рубрика «ML в реальной жизни» прибывает со второй задачкой Да, это продолжение нашей рубрики, где мы задаем ситуации, с которыми сталкиваются ML/DS-команды в продакшене. В этой рубрике нет единственно правильных ответов. Её цель – научиться рассуждать, обсуждать подходы и смотреть на проблемы с разных сторон. Поэтому, если хотите, чтобы рубрика была вам максимально полезна, в комментариях важно не просто выбрать вариант, а объяснить: — почему выбрали именно его — что бы вы проверяли — какие риски вы бы учитывали Сегодня у нас ситуация №2: Ситуация: Обнаружен дрейф признака. Но не ясно, что с ним делать Контекст: Система мониторинга показала значительный дрейф распределения одного из ключевых признаков (например, время активности пользователя). Модель ещё не деградировала по метрикам, но вы видите, что данные "поехали". Ресурсы на срочный рефакторинг пайплайна ограничены. Варианты действий: Что будете делать в первую очередь? Все посты этой рубрики можно будет посмотреть по тэгу: #риллайф_MLinside

4 018

Бывало ли у вас такое, что модель работала отлично, а потом внезапно начала терять качество? Главная ошибка в такой ситуации – сразу же запускать переобучение, потому что в продакшене деградация модели может быть связана с разными причинами: изменились входные данные, поменялось поведение пользователей, появились новые бизнес-сценарии или проблема вообще не в модели. У нас на YouTube, в ВК и Дзен вышло видео, где Александр Дубейковский (ML Engineer в Avito, ex-Yandex, эксперт MLinside) разбирает одну из самых важных тем для ML-инженеров – Data Drift и Concept Drift. Вы узнаете, чем отличается изменение распределения данных от изменения самой зависимости между признаками и целевой переменной, как эти проблемы проявляются в реальных ML-системах и почему автоматический retraining часто не решает проблему, а иногда даже ухудшает ситуацию. Кому будет полезно видео: ▪️ML-инженерам и Data Scientists ▪️Специалистам, работающим с продакшн-моделями ▪️Студентам и начинающим специалистам в ML ▪️AI Engineers и MLOps-инженерам ▪️Всем, кто хочет лучше понимать жизненный цикл ML-моделей Нашли себя в этом списке? Тогда велком на удобную для вас платформу: https://youtu.be/ix3XCTglkIc https://vkvideo.ru/video-228219607_456239233 https://dzen.ru/video/watch/6a214c829804be60200348e1

4 018

Ищем руководителей и менеджеров для исследования использования ИИ в работе Мы проводим серию интервью с руководителями и менеджерами. Хотим разобраться, какие рабочие задачи они решают с помощью ИИ, что уже внедряют в свои процессы и какие сложности возникают на практике. Кого ищем: ▪️Руководителей команд ▪️Руководителей направлений ▪️Руководителей отделов ▪️Product-менеджеров ▪️Project-менеджеров ▪️Предпринимателей Что хотим узнать: ▪️Какие задачи занимают больше всего времени ▪️Для чего уже используется ИИ ▪️Что получается автоматизировать, а что не получается ▪️Каких знаний и инструментов не хватает Что конкретно от вас требуется: Если вы руководитель или менеджер, заполните короткую анкету на 2–3 минуты. Если у вас есть чуть больше времени и вы готовы ответить на дополнительные вопросы, мы будем рады пригласить вас на интервью продолжительностью 20-30 минут в любое удобное для вас время. С нас, базово, улучшить наши курсы, чтобы они отвечали вашим потребностям, ну и конечно же промокод со скидкой на подписку специализации "AI и анализ данных". Анкета в яндекс формах: https://forms.yandex.ru/u/6a1fd4666d2d734f2bf67756

4 018

Учимся на практике: решаем реальные ML-задачки Продолжаем рубрику #петпроект_MLinside – тут мы публикуем задачи из реальных (ну или почти реальных) проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях. Тринадцатая задача Что нужно сделать: посмотреть на исторические данные об Олимпийских играх, найти зависимости и тренды Как можно сделать: ▪️Определить топ 5 стран с наибольшим количеством уникальных спортсменов в первый год за который есть данные и за последний, построить графики количества спортсменов для этих стран в зависимости от года ▪️Разделить данные на летние и зимние игры, затем сделать действия из прошлого пункта, изменился ли топ и графики? ▪️Определить максимальное количество золотых и любых медалей завоеванных одним и тем же человеком ▪️Определить для каждого года количество спортсменов которые начали выступать за другую страну ▪️Определить у какого спорта меньше всего уникальных человек завоевывали медали ▪️и т.д. Данные можно взять на Kaggle: https://www.kaggle.com/datasets/heesoo37/120-years-of-olympic-history-athletes-and-results Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1jiwqav41cNlmn9FUn75WMCLES3H8-DQH?usp=sharing Готовы попробовать? Делитесь своими результатами в комментариях. А другие посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside

4 018

ML-инженеров скоро заменит AI? На фоне бума LLM и нейросетей всё больше людей уверены, что профессия ML-инженера исчезнет уже в ближайшие годы. Но действительно ли всё так просто? На практике ML, это давно не только “обучение модели”. Современные ML-системы– это инфраструктура, данные, продуктовые ограничения, бизнес-логика и постоянная поддержка моделей в production. И чем активнее компании внедряют AI, тем сложнее становятся сами ML-системы. У нас на YouTube, в ВК и Дзен вышло видео, где Александр Дубейковский (ML Engineer в Авито, ex-Yandex и эксперт MLinside) разбирает, почему развитие AI не убивает профессию ML-инженера, а меняет её роль внутри индустрии. Кому будет полезно это видео: • начинающим ML-инженерам — чтобы понять, как реально устроена профессия; • Data Scientist и аналитикам — чтобы увидеть, как ML работает в production; • backend и software engineers — чтобы разобраться, как ML интегрируется в большие системы; • студентам и тем, кто хочет войти в AI/ML — чтобы понять перспективы индустрии; • всем, кто переживает, что AI “заменит программистов” — чтобы посмотреть на развитие технологий без хайпа. Ссылки на видео: https://youtu.be/fgkz3qyRxkY https://vk.com/video-228219607_456239232 https://dzen.ru/video/watch/6a196939320fd81ff68a0765

4 018

Устали от «идеальных» ML-кейсов? Где данные всегда чистые, метрики стабильные, а модель после обучения сразу готова к продакшену. Ведь в реальной работе всё иначе: метрики могут упасть за ночь, данные – измениться, а решение нужно принимать быстро, да еще и с неполной информацией. Поэтому мы запускаем новую рубрику «ML в реальной жизни» – здесь будут ситуации, с которыми сталкиваются ML/DS-команды в продакшене. Сразу же предупредим, что в этой рубрике нет единственно правильных ответов. Её цель – научиться рассуждать, обсуждать подходы и смотреть на проблемы с разных сторон. Поэтому, если хотите, чтобы рубрика была вам максимально полезна, в комментариях важно не просто выбрать вариант, а объяснить: — почему выбрали именно его — что бы вы проверяли — какие риски вы бы учитывали Сегодня у нас ситуация №1: Ситуация: Метрики упали на 40% за ночь Контекст: В продакшене работает модель прогнозирования оттока. Утром вы видите: — precision упал с 0.82 до 0.49 — recall — с 0.76 до 0.41 Последний деплой модели был 3 дня назад, изменений в пайплайне не было. Данные поступают из того же источника. Внимание, вопрос: Что будете делать в первую очередь? Все посты этой рубрики можно будет посмотреть по тэгу: #риллайф_MLinside

4 018

Как перейти со стажера на джуна в ML? Многие стажёры в ML уверены: если знаешь Python, sklearn и можешь обучить модель, значит уже готов к позиции junior. Но на практике переход из стажёра в джуна зависит не только от технических знаний. На YouTube, в ВК и Дзен у нас вышло видео, где Александр Дубейковский (ML-Engineer Авито, ex-Yandex, эксперт MLinside), разбирает, какие навыки действительно важны для роста в ML, что ожидают команды от начинающих специалистов и почему одних ноутбуков с моделями недостаточно. Также, в видео Александр расскажет: какие технические навыки считаются обязательным минимумом для junior ML engineer, почему софт скилы часто решают больше, чем алгоритмы, как правильно проявлять инициативу в команде, по каким причинам стажёров не переводят в штат после испытательного срока, а также, поговорим про разницу между требованиями бигтеха и небольших компаний, ожидания тимлидов и реальные критерии роста внутри ML-команд. Кому будет полезно видео: ▪️Стажёрам в ML — чтобы понять, чего реально ждут от junior-специалиста ▪️Тем, кто хочет попасть в первую ML-команду — чтобы избежать типичных ошибок на старте ▪️Начинающим ML-инженерам — чтобы быстрее расти внутри команды и понимать процессы продакшна ▪️Студентам и новичкам в Data Science — чтобы увидеть, как выглядит работа ML-инженера за пределами ноутбуков ▪️Тем, кто проходит стажировку прямо сейчас — чтобы повысить шансы на оффер после испытательного срока Ссылки на видео на разных площадках: https://youtu.be/_ZdaCJnRoLY https://vkvideo.ru/video-228219607_456239221 https://dzen.ru/video/watch/6a0ef27e1059563825902c56

4 018

Обновили информацию по курсу ML System Design с Валерием Бабушкиным ▪️Старт курса переносится на 1 июля ▪️Актуальная стоимость курса — 178 500 ₽ Информация на сайте уже обновлена. Дополнительный месяц до старта используем, чтобы сделать программу ещё сильнее: добавляем новые материалы по agentic AI и проектированию современных AI-систем. Спасибо всем, кто уже оставил заявки и интересуется курсом

4 018

Валерий Бабушкин и тот самый курс по ML System Design в MLinside Если вы давно хотели разобраться, как проектируют ML-системы в реальных продуктах – это то, что вам нужно. Курс посвящён проектированию ML-систем для реальных продуктов: работе с архитектурой, пайплайнами обучения, deployment-процессами, мониторингом моделей, оптимизацией инференса и поддержкой ML под нагрузкой. Также на курсе разберём подходы к проектированию современных агентских AI-систем и интеграции LLM в production-инфраструктуру. На курсе вы научитесь: ▪️проектировать ML-системы под реальные ограничения ▪️строить ML design docs ▪️выбирать метрики и функции потерь ▪️выстраивать пайплайны обучения ▪️анализировать ошибки моделей ▪️внедрять ML в продукт ▪️мониторить качество моделей в продакшене ▪️оптимизировать инференс под нагрузку Курс подойдёт ML-инженерам, тимлидам ML-команд и начинающим специалистам, которым нужен системный взгляд на ML. Преподаватель – Валерий Бабушкин, наверняка он не нуждается в представлении, но всё же: ▪️Senior Director по Data & AI в BP ▪️грандмастер Kaggle ▪️автор книги Machine Learning System Design. Курс будет идти 4 месяца и вас ждут 60 занятий, реальные кейсы, разбор design docs, архитектурные решения из production ML, а главное – live-обсуждения и ревью с Валерием. Посмотреть сайт можно тут. Это курс для тех, кто хочет перейти от “умею обучать модели” к “умею строить ML-системы”. Стартуем 1 июня, количество мест ограничено. Записаться можно по ссылке.

4 018

Учимся на практике: решаем реальные ML-задачки Это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных (ну или почти реальных) проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях. Двенадцатая задача Что нужно сделать: по информации о разных приложениях нужно понять какое приложение лучше всего сделать: для большего охвата, для лучшего рейтинга, для того чтобы заработать больше денег и тд Как можно сделать: ▪️Визуализировать данные для разных классов: платные/бесплатные, разные категории, количество установок и т.д.; ▪️Применить K-Means или DBSCAN; ▪️Обучить различные классификаторы и сравнить их качество. Данные можно взять на Kaggle: https://www.kaggle.com/datasets/lava18/google-play-store-apps Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1szMUL7MLxQVH9ZubsyP-LDbyCZ7rKBLF?usp=sharing Готовы попробовать? Делитесь своими результатами в комментариях. А другие посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside