MLinside - школа ML

رفتن به کانال در Telegram

Предзапись на курс "ML System Design с Валерием Бабушкиным": https://forms.yandex.ru/u/6a0436bd90290214acb9d542/ Наши курсы: https://taplink.cc/mlinside Чат коммьюнити: @ml_insidechat По вопросам: @marinagartm

نمایش بیشتر

روسيا137 237 فناوری و برنامه‌ها22 022

3 912

مشترکین

+624 ساعت

+777 روز

+20430 روز

1 418

نمایش های پست

~ 1 05924 ساعت

~ 1 25248 ساعت

36.25%

نرخ مشارکت

اطلاعاتی وجود ندارد

پست های در روز

Ads index

beta

آرشیو پست ها

3 912

Какой формат курса вам сейчас нужнее?

Anonymous voting

3 912

За 2025 год мы выпустили 83 видео на YouTube И очень благодарны, что вы их смотрите, лайкаете и комментируете. Нам это очень помогает в продвижении контента. И мы решили, что не помешает сделать подборку из тех видео, которые выделились среди других. Если что-то из этого пропустили, рекомендуем посмотреть: Топ по просмотрам: ▪️ Карьера в топовых компаниях мира | Валерий Бабушкин 1 часть – просмотры: 50 169 ▪️ ML в 2025: Как начать с нуля и не слиться (Пошаговый план из опыта) | Часть 1 – просмотры: 40 271 ▪️ Зачем они нужны в ML? Собственные значения и собственные векторы – просмотры: 30 365 Топ по комментариям: ▪️ Математика в ML: сколько реально нужно знать – комментарии: 106 ▪️ Стоит ли учить ML в 2026? Или поезд уже ушёл? – комментарии: 99 ▪️ Сколько на самом деле зарабатывают ML-инженеры – комментарии: 68 Топ по лайкам: ▪️ ML в 2025: Как освоить модели и найти первую работу (Пошаговый план + Лайфхаки) | Часть 2 – лайки: 853 ▪️"Никогда на Руси джуны хорошо не жили" | Валерий Бабушкин 2 часть – лайки: 687 ▪️5 тем по линейной алгебре, без которых ты не поймёшь ML – лайки: 617 Спасибо, что вы с нами, дальше – больше

3 912

Объяснение:

Это поведение связано с внутренней оптимизацией интерпретатора Python - кэшированием небольших чисел [-5,256]. Оператор is проверяет, ссылаются ли две переменные на один и тот же объект в памяти, для этого маленького списка ссылки на объекты берутся из кэша, а для всех других создаются новые

#CodeDetective_MLinside

3 912

Ваш вариант

Anonymous voting

3 912

Продолжаем рубрику Code Detective Сегодня формат рубрики будет необычным. Мы опубликуем часть кода, а вам нужно сказать, что он выведет. Варианты будут в опросе ниже, а объяснение мы опубликуем завтра. Если рубрика вам нравится, будем благодарны, если поставите реакцию, а другие посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside Итак, вот сама задачка: Что выведут следующие 2 примера?

x = 10 y = 10 print(x is y) x = 1000 y = 1000 print(x is y)

#CodeDetective_MLinside

3 912

Как вам тема видео?

Anonymous voting

3 912

Почему современные LLM, нейросети и большие языковые модели обучают именно на GPU, а не на CPU? Рассказывает Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) в новом видео на YouTube и ВК. Если хотите узнать, как устроена современная архитектура GPU для LLM, почему графические процессоры так хорошо подходят для матричных вычислений и за счёт чего они дают огромный прирост производительности в задачах машинного обучения, deep learning и инференса нейросетей, видео определенно будет вам полезно. Вот ссылки для удобства: YouTube ВК

3 912

Добавили в специализацию новый блок про агентные системы Это следующий шаг после базовой работы с моделями, когда они становятся частью системы с доступом к данным, инструментам и логике принятия решений. Начинаем с базы: как устроен инференс LLM, что влияет на скорость и стоимость, зачем нужен kv-cache и квантование. Дальше переходим к практике – поднимаем инференс через triton, сравниваем vLLM и TensorRT и разбираемся, что выбирать под задачу. Вторая часть – полноценный разбор Retrieval-Augmented Generation, в формате как это реально собирается в проде: ▪️как готовить данные и не сломать поиск ▪️чем отличаются BM25, FAISS и биэнкодеры ▪️как работает ранжирование и реранкеры ▪️как собирать контекст и управлять генерацией ▪️как считать метрики и находить узкие места ▪️как контролировать стоимость и обновления Отдельно разбираем диагностику, безопасность и advanced-паттерны. И финальный блок – сами агентные системы: архитектуры, мультиагентные сценарии, Supervisor-парадигма, протоколы взаимодействия (MCP), атаки и мониторинг. Плюс практические семинары и ДЗ после ключевых этапов. А в практической части используем платформу VseLLM от Романа Куцева (эксперт в области оценки AI и фаундер платформы LLM Arena) – это сервис с единым API для доступа к разным моделям, балансировкой нагрузки и автоматическим переключением между провайдерами. Студентам специализации даём бонус на тестирование сервиса – можно будет сразу применять инструменты из курса на практике. В этом блоке уроки ведут: — Никита Зелинский (CDS MWS, директор по машинному обучению и исследованию данных) — Максим Шаланкин (ML Team Lead в финтех‑команде Big Data MWS (МТС)) Если коротко: в этом блоке разбираем, как из отдельных моделей собираются полноценные AI-системы с понятной архитектурой и предсказуемым поведением. Присоединяйтесь уже сейчас

3 912

Учимся на практике: решаем реальные ML-задачки, да еще и с покемонами Миллениалы на месте? Сегодня будем определять лучшего покемона с помощью ML. Да, это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных (ну или почти реальных) проектов, чтобы лучше запомнить теорию. Не уверены, что упоминание об этом проекте можно включить в портфолио, и поможет ли вам это на собеседованиях, но тем не менее. Десятая задача Что нужно сделать: Определить лучшего покемона каждого поколения Как можно сделать: ▪️Определить лучшие характеристики (атака, защита, хп) для каждого поколения ▪️Сделать классификационную модель определения является ли покемон легендарным или нет (переменная isLegendary) ▪️Сделать классификационную модель которая определяется цвет (Color) покемона по его характеристикам, посмотреть какие признаки важны для такой модели ▪️Посмотреть есть ли какая-то зависимость роста и веса от типа (Type_1 и Type_2 и т.д.) покемона Данные можно взять на Kaggle: https://www.kaggle.com/datasets/alopez247/pokemon Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1BBcUCIJ0RS1XpzloWim7WhUyG3fPKFHv?usp=sharing Готовы попробовать? Делитесь своими результатами в комментариях. Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside

3 912

Как вам тема видео?

Anonymous voting

3 912

TP/ DP/ PP – как масштабировать обучение LLM? Рассказывает Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) на YouTube. Если вы пытались обучать большие LLM и упирались в ошибку CUDA Out of Memory – вы не одиноки. В видео Андрей разобрал, как на практике обучают модели, которые физически не помещаются ни в одну видеокарту, и какие подходы используют в индустрии, чтобы масштабировать обучение без хаоса и слива бюджета. Пока видео можно посмотреть только на YouTube: https://youtu.be/QPOd_c7DHpw?si=9NgnzDpsUzbTPoXL, в ВК и Дзен есть некоторые проблемы с обработкой видео.

3 912

Как линейная алгебра помогает понять, что делает модель машинного обучения Машинное обучение часто воспринимается как черный ящик. Кажется, что внутри происходит что-то слишком сложное и недоступное без сильной математики. Из-за этого многие откладывают старт, думая, что сначала нужно разобраться в теории. Но на базовом уровне модель работает гораздо проще, чем кажется. Если упростить, она берет признаки, применяет к ним коэффициенты и получает результат. Вся эта логика описывается инструментами линейной алгебры. Вот как это выглядит на практике: ▪️Любой объект представляется как набор чисел. Это вектор признаков, например рост, вес или любые другие характеристики. ▪️Когда таких объектов много, они складываются в матрицу. По сути, это таблица, с которой работает модель. ▪️В процессе обучения модель подбирает коэффициенты. Часто это можно описать как умножение на матрицу весов. ▪️Признаки могут быть связаны между собой. Сильная линейная зависимость может ухудшать обучение и приводить к нестабильным оценкам коэффициентов. ▪️Чтобы упростить задачу, используются разложения матриц. Они помогают снизить размерность и выделить наиболее значимые направления в данных. Если собрать это в одну мысль, на базовом уровне модель сводится к последовательным преобразованиям чисел и поиску таких коэффициентов, при которых результат становится максимально близким к нужному. Именно поэтому математика в ML не выглядит как бесконечный набор формул. Важно понять логику работы с признаками и тем, как они преобразуются. Глубокие детали приходят уже по мере решения конкретных задач. Если хочется разобраться в ML без ощущения перегруза, стоит начинать именно с таких базовых вещей. Это дает понимание, на которое потом легко наслаиваются более сложные темы.

3 912

Продолжаем нашу регулярную рубрику Code Detective Напомним правила – мы публикуем фрагмент кода, а вы смотрите, что с ним не так. Но трюк в том, что ошибки может и не быть. Так что если хотите прокачать навык чтения и анализа чужого кода, а это крайне полезный навык в работе ML-инженера, рубрика вам пригодится. Вот фрагмент кода:

funcs = [] for i in range(3): funcs.append(lambda: i) # хотим сделать список функций которые будут выводить 0, 1, 2 print([f() for f in funcs])

Тут всё хорошо. Или нет? Есть какая-то ошибка? Если есть, напишите в комментариях: 1. Какую ошибку нашли; 2. Варианты её исправления. Ответ мы опубликуем завтра, а посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside

3 912

На ML-собеседованиях проверяют не только знание алгоритмов и умение писать код Гораздо важнее, есть ли у вас целостная картина машинного обучения. Понимаете ли вы, как связаны данные, признаки, модели и метрики, и можете ли объяснить свои решения. У нас на YouTube, в ВК и Дзен вышло видео, где Александр Дубейковский разбирает, что именно оценивают интервьюеры и почему даже сильные кандидаты часто проваливаются на простых вопросах.

3 912

Учимся на практике: решаем реальные ML-задачки С вами рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях. Девятая задача: предсказание качества вина по его характеристикам Что нужно сделать: на основе различных характеристик вина определить каким будет его итоговое качество Как можно сделать: ▪️Обучить регрессор, затем классификатор, сравнить их качество предсказания ▪️Нормализовать данные или их часть и снова обучить, посмотреть как нормализация повлияла на качество ▪️Построить графики важности признаков для каждой из итоговых оценок качества Данные можно взять на Kaggle: https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009 Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1qfOnrBpsIhNR4Sh6J47ImpjrkTWh2brJ?usp=sharing Готовы попробовать? Делитесь своими результатами в комментариях. Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside

3 912

Во многих задачах ML не нужен и только усложняет продукт Но как понять, когда ML действительно оправдан, а когда лучше использовать простые алгоритмы и правила? Рассказывает наш бессменный спикер – Александр Дубейковский на YouTube, в ВК и ДЗЕН. Что Александр рассказал в видео: ▪️ какие задачи действительно требуют машинного обучения ▪️ почему наличие данных ещё не означает, что нужна модель ▪️ когда ML становится избыточным решением ▪️ какие ограничения делают использование ML рискованным ▪️ как быстро проверить идею до разработки полноценной модели ▪️ почему внедрение ML часто оказывается дороже ожидаемой пользы Если вы разработчик, аналитик, продакт-менеджер или работаете с данными и принимаете решения о внедрении ML, видео вам будет полезно, рекомендуем посмотреть.

3 912

PET-проекты, которые помогут собрать сильное ML-портфолио Собрать первое ML-портфолио сейчас – не проблема. Проблема - показать работодателю, что вы готовы работать с реальными задачами. Поэтому, если вы покажете подходящие pet-проекты, то можно считать, что оффер у вас в кармане. Вот 3 типа проектов, которые особенно хорошо работают для ML-портфолио. ▪️Проект на современных ML-технологиях Очевидный, но тем не менее, крайне важный совет. Используйте актуальные технологии, например, это может быть работа с большими языковыми моделями, транспортерами или современными NLP-подходами. Идеи для таких проектов можно найти прямо в вакансиях. Просто посмотрите, какие технологии компании упоминают чаще всего. ▪️Проект с бизнес-задачей Второй тип проектов – задачи, которые уже решаются в компаниях. Это может быть кредитный скоринг, ранжирование рекламы, прогнозирование спроса или задачи ценообразования. Тут важно показать, как вы оцениваете результат: какие метрики используете, как сравниваете модели и почему выбираете конкретное решение. ▪️Проект с реальным применением Это может быть небольшой сервис с ML-моделью, автоматизация рабочей задачи или эксперимент в продукте. Даже небольшой проект с реальными пользователями показывает, что вы умеете не только обучать модели, но и применять их на практике. Эти 3 упражнения делайте, ~~спина болеть не будет~~ проблем с поиском работы не будет. А если не знаете, с чего начать, посмотрите варианты pet-проектов у нас в канале по хэштегу #петпроект_MLinside

3 912

Какая у вас позиция в данный момент?

Anonymous voting

3 912

Как джуну стать мидлом? Ответ на этот вопрос рассказал Александр Дубейковский в новом видео, которое уже вышло на всех наших площадках. Какие навыки нужно прокачивать начинающим специалистам уже сейчас, чтобы вырасти по грейду и почему успешный ML-инженер должен мыслить не только алгоритмами, но и бизнес-эффектом? Смотрите ответы на эти вопросы на YouTube, в ВК или в Дзен

3 912

10 часов концентрированного Deep Learning Да, у нас в специализации ИИ и анализ данных появился третий блок. 37 уроков, выстроенных в единую систему без лишней теории и разрозненных тем. Это модуль, который собирает нейросети в цельную картину и дает понимание того, как устроены современные модели. Стартуем с базы: повторяем архитектуру нейросетей, SGD, backpropagation, вычислительные графы и автоматическое дифференцирование. Затем переходим к Computer Vision и Natural Language Processing. Материал выстроен последовательно, чтобы от фундаментальных принципов перейти к прикладным задачам и современным архитектурам. Внутри модуля: ▪️CNN, детекция и сегментация объектов, работа с видео; ▪️RNN, LSTM, GRU и архитектура Seq2Seq; ▪️трансформеры и Attention; ▪️языковое моделирование и современные LLM; ▪️post-train подходы и alignment с RLHF. Сразу скажем, что это не обзорный формат. Разбираем backprop в матричной форме, архитектуры encoder-decoder и decoder-only моделей, обсуждаем ограничения предобученных моделей и методы их дообучения. В модуле есть семинары, тесты и задания для закрепления материала. Подойдет ML-специалистам, которые хотят систематизировать знания, усилить техническую базу и перейти в более узкие направления, включая CV и NLP. Если вы хотите понимать, как работают современные нейросетевые модели на уровне архитектуры и обучения, этот модуль закрывает вопрос комплексно. Переходите на сайт, чтобы посмотреть программу подробнее или оформить подписку.