fa
Feedback
MLinside - школа ML

MLinside - школа ML

رفتن به کانال در Telegram

Предзапись на курс "ML System Design с Валерием Бабушкиным": https://forms.yandex.ru/u/6a0436bd90290214acb9d542/ Наши курсы: https://taplink.cc/mlinside Чат коммьюнити: @ml_insidechat По вопросам: @marinagartm

نمایش بیشتر
3 912
مشترکین
+624 ساعت
+777 روز
+20430 روز
آرشیو پست ها
Какой формат курса вам сейчас нужнее?
Anonymous voting

За 2025 год мы выпустили 83 видео на YouTube И очень благодарны, что вы их смотрите, лайкаете и комментируете. Нам это очень
За 2025 год мы выпустили 83 видео на YouTube И очень благодарны, что вы их смотрите, лайкаете и комментируете. Нам это очень помогает в продвижении контента. И мы решили, что не помешает сделать подборку из тех видео, которые выделились среди других. Если что-то из этого пропустили, рекомендуем посмотреть: Топ по просмотрам: ▪️ Карьера в топовых компаниях мира | Валерий Бабушкин 1 часть – просмотры: 50 169 ▪️ ML в 2025: Как начать с нуля и не слиться (Пошаговый план из опыта) | Часть 1 – просмотры: 40 271 ▪️ Зачем они нужны в ML? Собственные значения и собственные векторы – просмотры: 30 365 Топ по комментариям: ▪️ Математика в ML: сколько реально нужно знать – комментарии: 106 ▪️ Стоит ли учить ML в 2026? Или поезд уже ушёл? – комментарии: 99 ▪️ Сколько на самом деле зарабатывают ML-инженеры – комментарии: 68 Топ по лайкам: ▪️ ML в 2025: Как освоить модели и найти первую работу (Пошаговый план + Лайфхаки) | Часть 2 – лайки: 853 ▪️"Никогда на Руси джуны хорошо не жили" | Валерий Бабушкин 2 часть – лайки: 687 ▪️5 тем по линейной алгебре, без которых ты не поймёшь ML – лайки: 617 Спасибо, что вы с нами, дальше – больше

Объяснение:
Это поведение связано с внутренней оптимизацией интерпретатора Python - кэшированием небольших чисел [-5,256]. Оператор is проверяет, ссылаются ли две переменные на один и тот же объект в памяти, для этого маленького списка ссылки на объекты берутся из кэша, а для всех других создаются новые
#CodeDetective_MLinside

Ваш вариант
Anonymous voting

Продолжаем рубрику Code Detective Сегодня формат рубрики будет необычным. Мы опубликуем часть кода, а вам нужно сказать, что
Продолжаем рубрику Code Detective Сегодня формат рубрики будет необычным. Мы опубликуем часть кода, а вам нужно сказать, что он выведет. Варианты будут в опросе ниже, а объяснение мы опубликуем завтра. Если рубрика вам нравится, будем благодарны, если поставите реакцию, а другие посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside Итак, вот сама задачка: Что выведут следующие 2 примера?
x = 10 y = 10 print(x is y) x = 1000 y = 1000 print(x is y)
#CodeDetective_MLinside

Как вам тема видео?
Anonymous voting

Почему современные LLM, нейросети и большие языковые модели обучают именно на GPU, а не на CPU? Рассказывает Андрей Жогов (ML
Почему современные LLM, нейросети и большие языковые модели обучают именно на GPU, а не на CPU? Рассказывает Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) в новом видео на YouTube и ВК. Если хотите узнать, как устроена современная архитектура GPU для LLM, почему графические процессоры так хорошо подходят для матричных вычислений и за счёт чего они дают огромный прирост производительности в задачах машинного обучения, deep learning и инференса нейросетей, видео определенно будет вам полезно. Вот ссылки для удобства: YouTube ВК

Добавили в специализацию новый блок про агентные системы Это следующий шаг после базовой работы с моделями, когда они становя
Добавили в специализацию новый блок про агентные системы Это следующий шаг после базовой работы с моделями, когда они становятся частью системы с доступом к данным, инструментам и логике принятия решений. Начинаем с базы: как устроен инференс LLM, что влияет на скорость и стоимость, зачем нужен kv-cache и квантование. Дальше переходим к практике – поднимаем инференс через triton, сравниваем vLLM и TensorRT и разбираемся, что выбирать под задачу. Вторая часть – полноценный разбор Retrieval-Augmented Generation, в формате как это реально собирается в проде: ▪️как готовить данные и не сломать поиск ▪️чем отличаются BM25, FAISS и биэнкодеры ▪️как работает ранжирование и реранкеры ▪️как собирать контекст и управлять генерацией ▪️как считать метрики и находить узкие места ▪️как контролировать стоимость и обновления Отдельно разбираем диагностику, безопасность и advanced-паттерны. И финальный блок – сами агентные системы: архитектуры, мультиагентные сценарии, Supervisor-парадигма, протоколы взаимодействия (MCP), атаки и мониторинг. Плюс практические семинары и ДЗ после ключевых этапов. А в практической части используем платформу VseLLM от Романа Куцева (эксперт в области оценки AI и фаундер платформы LLM Arena) – это сервис с единым API для доступа к разным моделям, балансировкой нагрузки и автоматическим переключением между провайдерами. Студентам специализации даём бонус на тестирование сервиса – можно будет сразу применять инструменты из курса на практике. В этом блоке уроки ведут: — Никита Зелинский (CDS MWS, директор по машинному обучению и исследованию данных) — Максим Шаланкин (ML Team Lead в финтех‑команде Big Data MWS (МТС)) Если коротко: в этом блоке разбираем, как из отдельных моделей собираются полноценные AI-системы с понятной архитектурой и предсказуемым поведением. Присоединяйтесь уже сейчас

Учимся на практике: решаем реальные ML-задачки, да еще и с покемонами Миллениалы на месте? Сегодня будем определять лучшего п
Учимся на практике: решаем реальные ML-задачки, да еще и с покемонами Миллениалы на месте? Сегодня будем определять лучшего покемона с помощью ML. Да, это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных (ну или почти реальных) проектов, чтобы лучше запомнить теорию. Не уверены, что упоминание об этом проекте можно включить в портфолио, и поможет ли вам это на собеседованиях, но тем не менее. Десятая задача Что нужно сделать: Определить лучшего покемона каждого поколения Как можно сделать: ▪️Определить лучшие характеристики (атака, защита, хп) для каждого поколения ▪️Сделать классификационную модель определения является ли покемон легендарным или нет (переменная isLegendary) ▪️Сделать классификационную модель которая определяется цвет (Color) покемона по его характеристикам, посмотреть какие признаки важны для такой модели ▪️Посмотреть есть ли какая-то зависимость роста и веса от типа (Type_1 и Type_2 и т.д.) покемона Данные можно взять на Kaggle: https://www.kaggle.com/datasets/alopez247/pokemon Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1BBcUCIJ0RS1XpzloWim7WhUyG3fPKFHv?usp=sharing Готовы попробовать? Делитесь своими результатами в комментариях. Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside

Как вам тема видео?
Anonymous voting

TP/ DP/ PP – как масштабировать обучение LLM? Рассказывает Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) на YouTub
TP/ DP/ PP – как масштабировать обучение LLM? Рассказывает Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) на YouTube. Если вы пытались обучать большие LLM и упирались в ошибку CUDA Out of Memory – вы не одиноки. В видео Андрей разобрал, как на практике обучают модели, которые физически не помещаются ни в одну видеокарту, и какие подходы используют в индустрии, чтобы масштабировать обучение без хаоса и слива бюджета. Пока видео можно посмотреть только на YouTube: https://youtu.be/QPOd_c7DHpw?si=9NgnzDpsUzbTPoXL, в ВК и Дзен есть некоторые проблемы с обработкой видео.

Как линейная алгебра помогает понять, что делает модель машинного обучения Машинное обучение часто воспринимается как черный
Как линейная алгебра помогает понять, что делает модель машинного обучения Машинное обучение часто воспринимается как черный ящик. Кажется, что внутри происходит что-то слишком сложное и недоступное без сильной математики. Из-за этого многие откладывают старт, думая, что сначала нужно разобраться в теории. Но на базовом уровне модель работает гораздо проще, чем кажется. Если упростить, она берет признаки, применяет к ним коэффициенты и получает результат. Вся эта логика описывается инструментами линейной алгебры. Вот как это выглядит на практике: ▪️Любой объект представляется как набор чисел. Это вектор признаков, например рост, вес или любые другие характеристики. ▪️Когда таких объектов много, они складываются в матрицу. По сути, это таблица, с которой работает модель. ▪️В процессе обучения модель подбирает коэффициенты. Часто это можно описать как умножение на матрицу весов. ▪️Признаки могут быть связаны между собой. Сильная линейная зависимость может ухудшать обучение и приводить к нестабильным оценкам коэффициентов. ▪️Чтобы упростить задачу, используются разложения матриц. Они помогают снизить размерность и выделить наиболее значимые направления в данных. Если собрать это в одну мысль, на базовом уровне модель сводится к последовательным преобразованиям чисел и поиску таких коэффициентов, при которых результат становится максимально близким к нужному. Именно поэтому математика в ML не выглядит как бесконечный набор формул. Важно понять логику работы с признаками и тем, как они преобразуются. Глубокие детали приходят уже по мере решения конкретных задач. Если хочется разобраться в ML без ощущения перегруза, стоит начинать именно с таких базовых вещей. Это дает понимание, на которое потом легко наслаиваются более сложные темы.

Продолжаем нашу регулярную рубрику Code Detective Напомним правила – мы публикуем фрагмент кода, а вы смотрите, что с ним не
Продолжаем нашу регулярную рубрику Code Detective Напомним правила – мы публикуем фрагмент кода, а вы смотрите, что с ним не так. Но трюк в том, что ошибки может и не быть. Так что если хотите прокачать навык чтения и анализа чужого кода, а это крайне полезный навык в работе ML-инженера, рубрика вам пригодится. Вот фрагмент кода:
funcs = [] for i in range(3): funcs.append(lambda: i) # хотим сделать список функций которые будут выводить 0, 1, 2 print([f() for f in funcs])
Тут всё хорошо. Или нет? Есть какая-то ошибка? Если есть, напишите в комментариях: 1. Какую ошибку нашли; 2. Варианты её исправления. Ответ мы опубликуем завтра, а посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside

На ML-собеседованиях проверяют не только знание алгоритмов и умение писать код Гораздо важнее, есть ли у вас целостная картина машинного обучения. Понимаете ли вы, как связаны данные, признаки, модели и метрики, и можете ли объяснить свои решения. У нас на YouTube, в ВК и Дзен вышло видео, где Александр Дубейковский разбирает, что именно оценивают интервьюеры и почему даже сильные кандидаты часто проваливаются на простых вопросах.

Учимся на практике: решаем реальные ML-задачки С вами рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проек
Учимся на практике: решаем реальные ML-задачки С вами рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях. Девятая задача: предсказание качества вина по его характеристикам Что нужно сделать: на основе различных характеристик вина определить каким будет его итоговое качество Как можно сделать: ▪️Обучить регрессор, затем классификатор, сравнить их качество предсказания ▪️Нормализовать данные или их часть и снова обучить, посмотреть как нормализация повлияла на качество ▪️Построить графики важности признаков для каждой из итоговых оценок качества Данные можно взять на Kaggle: https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009 Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1qfOnrBpsIhNR4Sh6J47ImpjrkTWh2brJ?usp=sharing Готовы попробовать? Делитесь своими результатами в комментариях. Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside

Во многих задачах ML не нужен и только усложняет продукт Но как понять, когда ML действительно оправдан, а когда лучше использовать простые алгоритмы и правила? Рассказывает наш бессменный спикер – Александр Дубейковский на YouTube, в ВК и ДЗЕН. Что Александр рассказал в видео: ▪️ какие задачи действительно требуют машинного обучения ▪️ почему наличие данных ещё не означает, что нужна модель ▪️ когда ML становится избыточным решением ▪️ какие ограничения делают использование ML рискованным ▪️ как быстро проверить идею до разработки полноценной модели ▪️ почему внедрение ML часто оказывается дороже ожидаемой пользы Если вы разработчик, аналитик, продакт-менеджер или работаете с данными и принимаете решения о внедрении ML, видео вам будет полезно, рекомендуем посмотреть.

PET-проекты, которые помогут собрать сильное ML-портфолио Собрать первое ML-портфолио сейчас – не проблема. Проблема - показа
PET-проекты, которые помогут собрать сильное ML-портфолио Собрать первое ML-портфолио сейчас – не проблема. Проблема - показать работодателю, что вы готовы работать с реальными задачами. Поэтому, если вы покажете подходящие pet-проекты, то можно считать, что оффер у вас в кармане. Вот 3 типа проектов, которые особенно хорошо работают для ML-портфолио. ▪️Проект на современных ML-технологиях Очевидный, но тем не менее, крайне важный совет. Используйте актуальные технологии, например, это может быть работа с большими языковыми моделями, транспортерами или современными NLP-подходами. Идеи для таких проектов можно найти прямо в вакансиях. Просто посмотрите, какие технологии компании упоминают чаще всего. ▪️Проект с бизнес-задачей Второй тип проектов – задачи, которые уже решаются в компаниях. Это может быть кредитный скоринг, ранжирование рекламы, прогнозирование спроса или задачи ценообразования. Тут важно показать, как вы оцениваете результат: какие метрики используете, как сравниваете модели и почему выбираете конкретное решение. ▪️Проект с реальным применением Это может быть небольшой сервис с ML-моделью, автоматизация рабочей задачи или эксперимент в продукте. Даже небольшой проект с реальными пользователями показывает, что вы умеете не только обучать модели, но и применять их на практике. Эти 3 упражнения делайте, спина болеть не будет проблем с поиском работы не будет. А если не знаете, с чего начать, посмотрите варианты pet-проектов у нас в канале по хэштегу #петпроект_MLinside

Какая у вас позиция в данный момент?
Anonymous voting

Как джуну стать мидлом? Ответ на этот вопрос рассказал Александр Дубейковский в новом видео, которое уже вышло на всех наших площадках. Какие навыки нужно прокачивать начинающим специалистам уже сейчас, чтобы вырасти по грейду и почему успешный ML-инженер должен мыслить не только алгоритмами, но и бизнес-эффектом? Смотрите ответы на эти вопросы на YouTube, в ВК или в Дзен

10 часов концентрированного Deep Learning Да, у нас в специализации ИИ и анализ данных появился третий блок. 37 уроков, выстр
10 часов концентрированного Deep Learning Да, у нас в специализации ИИ и анализ данных появился третий блок. 37 уроков, выстроенных в единую систему без лишней теории и разрозненных тем. Это модуль, который собирает нейросети в цельную картину и дает понимание того, как устроены современные модели. Стартуем с базы: повторяем архитектуру нейросетей, SGD, backpropagation, вычислительные графы и автоматическое дифференцирование. Затем переходим к Computer Vision и Natural Language Processing. Материал выстроен последовательно, чтобы от фундаментальных принципов перейти к прикладным задачам и современным архитектурам. Внутри модуля: ▪️CNN, детекция и сегментация объектов, работа с видео; ▪️RNN, LSTM, GRU и архитектура Seq2Seq; ▪️трансформеры и Attention; ▪️языковое моделирование и современные LLM; ▪️post-train подходы и alignment с RLHF. Сразу скажем, что это не обзорный формат. Разбираем backprop в матричной форме, архитектуры encoder-decoder и decoder-only моделей, обсуждаем ограничения предобученных моделей и методы их дообучения. В модуле есть семинары, тесты и задания для закрепления материала. Подойдет ML-специалистам, которые хотят систематизировать знания, усилить техническую базу и перейти в более узкие направления, включая CV и NLP. Если вы хотите понимать, как работают современные нейросетевые модели на уровне архитектуры и обучения, этот модуль закрывает вопрос комплексно. Переходите на сайт, чтобы посмотреть программу подробнее или оформить подписку.