Библиотека собеса по Data Science | вопросы с собеседований
Open in Telegram
Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot
Show more4 491
Subscribers
+324 hours
+87 days
+4230 days
Posts Archive
😤 Пока вы думаете — остальные уже учатся строить системы, которые работают за них
⚡24 часа до старта курса по AI-агентам. Самое время задуматься о прокачке скиллов, потому что места ограничены!
Если вы до сих пор думаете, что LLM — это просто «вызов через API», то вы рискуете очень скоро оказаться за бортом индустрии.
Модели больше не в центре. Решают те, кто умеет собирать интеллектуальные системы, а не просто «дообучать модельку».
➡️ Что вы потеряете, если не впишетесь:
— навык, который уже востребован на рынке
— понимание, как из GPT сделать полноценного помощника, агента или продукт
— шанс догнать тех, кто уже перешёл на следующий уровень
📌 Курс стартует уже завтра
— 5 вебинаров, живая практика, код, разборы, продовые кейсы
— без «посмотрите статью», только то, что реально нужно
Спикеры: Никита Зелинский (МТС), Диана Павликова, Макс Пташник, Дима Фомин — те, кто реально собирает агентные системы, а не просто про них пишет.
❗Старт уже завтра — забронируйте место на курсе сейчас
🧠 «Поиграйся с LLM, почитай про агентов — и сам поймёшь, как это работает»
Это один из самых бесполезных советов, который мы слышали в адрес тех, кто хочет разобраться в AI-агентах.
Поиграйся — это как?
Потыкать пару промптов в ChatGPT и решить, что теперь ты можешь строить мультиагентные системы? 🤡 Ну-ну.
AI-агенты — это не «очередная обёртка над GPT». Это архитектура. Состояния, инструменты, цепочки вызовов, память, оценка качества и адекватность поведения.
➡️ Чтобы разобраться, нужно:
— понимать, как устроен LLM под капотом
— уметь подключать внешние данные (RAG, retrievers, rerankers)
— уметь масштабировать и дебажить поведение агентов
— разбираться в фреймворках вроде AutoGen, CrewAI, LangChain
— знать, как всё это тащится в прод
Если вы реально хотите не «поиграться», а научиться собирать рабочие агентные системы — у нас стартует курс по разработке ИИ-агентов 5го июля
P.S: не упусти свой шанс, промокод: LASTCALL на 10.000₽
👇 Зачем в машинном обучении иногда специально нарушают симметрию
Во многих моделях, особенно нейронных сетях, изначальная симметрия (одинаковая инициализация весов, одинаковая структура путей) может привести к тому, что все нейроны начинают учиться одинаково — и, по сути, дублируют друг друга. Это мешает сети извлекать разнообразные признаки и тормозит обучение.
Чтобы этого избежать, симметрию намеренно ломают — например, инициализируя веса случайными значениями, даже если структура одинаковая. Этот маленький хаос позволяет разным частям модели начать «думать» по-разному с самого старта и постепенно развивать разные специализации.
Симметрия красива в математике, но в обучении может быть смертельна: без разнообразия начальных состояний — нет разнообразия решений.
Библиотека собеса по Data Science
🌀 Почему в некоторых случаях полезно обучать модель на данных, полученных… от другой модели
Обучение на предсказаниях другой модели — это основа подхода под названием knowledge distillation (дистилляция знаний). Идея в том, что сложная, тяжёлая модель (например, глубокая нейросеть) может содержать более «мягкую» и богатую информацию о структуре задачи, чем просто метки «0» и «1».
Маленькая модель, обучающаяся не на оригинальных метках, а на вероятностных предсказаниях большой модели, может:
➡️ лучше улавливать обобщённые закономерности,
➡️ достигать качества, близкого к исходной модели,
➡️ быть гораздо быстрее и легче в продакшене.
Это особенно полезно, когда требуется deploy в ограниченной среде (например, на мобильных устройствах), но не хочется терять в качестве. Получается, что модель может «учиться у другой модели», как ученик у учителя — и это работает.
Библиотека собеса по Data Science
🔥 Последняя неделя перед стартом курса по AI-агентам
Старт курса уже 5го числа! Если вы планировали вписаться — сейчас ПОСЛЕДНИЙ шанс забронировать место
На курсе:
— разложим LLM по косточкам: токенизация, SFT, PEFT, инференс
— соберём RAG и научимся оценивать его адекватно
— построим настоящую мультиагентную систему — архитектуру, которая умеет расти
— разберём CoPilot, сломаем через prompt injection (спасибо Максу)
— и наконец, посмотрим, как это работает в MCP и реальных кейсах
📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями
И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API»
👉 Курс здесь
✅ Почему иногда имеет смысл обучать модель не на всех доступных данных
Интуитивно кажется, что больше данных — всегда лучше. Но в некоторых случаях использование всего набора данных может быть неэффективным или даже вредным:
1⃣ Переизбыток одинаковых примеров может привести к смещению модели в сторону часто встречающихся паттернов и заглушить редкие, но важные случаи.
2⃣ Шумные или устаревшие данные могут ввести модель в заблуждение, особенно если данные собирались в разное время или из разных источников.
3⃣ При прототипировании или отладке модели обучение на подмножестве экономит ресурсы и ускоряет эксперименты.
Выборка «умных» подмножеств (например, стратифицированных или репрезентативных) может дать почти то же качество — но быстрее и устойчивее.
Библиотека собеса по Data Science
🔎 Зачем использовать метод главных компонент (PCA), если модель и так может работать с большим числом признаков
Хотя современные модели способны обрабатывать высокоразмерные данные, большое количество признаков может привести к проклятию размерности, увеличению времени обучения, риску переобучения и ухудшению интерпретируемости.
PCA помогает уменьшить размерность, сохранив основную информацию — он находит новые оси (комбинации признаков), по которым данные варьируются сильнее всего. Это ускоряет обучение, уменьшает шум, помогает визуализировать данные и делает модель более устойчивой, особенно когда среди признаков есть коррелирующие или нерелевантные.
Библиотека собеса по Data Science
🔖 Почему в задачах машинного обучения важно фиксировать случайное зерно (random seed)
Во многих алгоритмах машинного обучения присутствует случайность — например, в инициализации весов, случайных разбиениях данных, выборе подмножеств признаков и т.д. Без фиксации random seed каждый запуск модели может давать немного разные результаты.
Фиксация случайного зерна позволяет сделать эксперименты воспроизводимыми: другие исследователи (или вы сами позже) смогут получить те же результаты и проверить корректность методики. Это особенно важно при сравнении моделей, отладке и написании научных статей.
Библиотека собеса по Data Science
✨ Зачем иногда использовать вероятностные модели, если можно просто выбрать класс с наибольшей вероятностью
Выбор класса с наибольшей вероятностью даёт одно конкретное решение, но теряет информацию об уверенности модели. В некоторых задачах (например, медицине, кредитном скоринге, системах рекомендаций) важно не только знать что модель предсказывает, но и насколько она в этом уверена.
Вероятностный вывод позволяет:
— учитывать риски при принятии решений,
— строить более надёжные ансамбли,
— калибровать пороги отсечения для разных задач (например, при дисбалансе классов),
— делать «мягкие» предсказания для downstream-задач.
Таким образом, вероятности дают больше гибкости и контроля в использовании модели.
Библиотека собеса по Data Science
🌸 Почему иногда полезно использовать аугментацию данных даже при большом объёме обучающей выборки
Аугментация помогает не только в условиях дефицита данных, но и при их избыточности — она повышает разнообразие обучающего набора. Даже если данных много, они могут быть однородными или содержать скрытые смещения (bias).
Аугментация (например, случайные повороты изображений, перестановки слов в тексте, добавление шума) помогает модели стать устойчивее к небольшим изменениям входных данных и улучшает её способность обобщать. Это особенно полезно в реальных задачах, где на этапе инференса данные могут немного отличаться от обучающих.
Библиотека собеса по Data Science
🤯 Мы больше года строим мультиагентные системы
Грабли, находки, паттерны, эксперименты — всё это накопилось и в какой-то момент стало жалко держать только у себя.
Никита — рассказывает (и показывает) базу: токенизация, LLM, SFT, PEFT, локальный инференс + RAG и как оценивать его качество.
Диана — как строят мультиагентные системы, какие есть паттерны проектирования и библиотеки.
Макс — про инференс в проде + разберет CoPilot, соберет с вами из кусочков свой копайлот, а затем его сломает через prompt injection. // Макс фанат autogen (а если нет — он вас разубедит в своем классном канале)
Финальным аккордом Дима углубится в MCP и соберет несколько кейсов повзрослее.
Курс тут: https://clc.to/47pgYA
Промокод: datarascals действует до 23:59 29 июня
🖍 Почему в задачах обработки текста важно учитывать порядок слов, а не только их частоту
Порядок слов несёт ключевую смысловую информацию, которая часто теряется при простом подсчёте частоты слов (мешок слов). Например, фразы «кот chased мышь» и «мышь chased кот» имеют одинаковые слова, но совсем разный смысл.
Учёт порядка помогает моделям понять контекст, отношения между словами и построить более точное представление текста, что особенно важно в задачах перевода, анализа тональности и ответах на вопросы.
Библиотека собеса по Data Science
👇 Когда стоит рассмотреть использование специализированных решателей вместо стандартных градиентных фреймворков глубокого обучения
Хотя PyTorch или TensorFlow способны справляться со многими задачами с ограничениями, есть ситуации, когда специализированные решатели оказываются более подходящими:
• Комбинаторные или целочисленные ограничения: если необходимо обеспечить дискретность выходных данных или комбинаторную допустимость (например, в задачах планирования или маршрутизации), более эффективными могут быть методы смешанного целочисленного программирования.
• Жёсткие физические или операционные ограничения: в инженерном проектировании или исследовании операций ограничения часто настолько строгие, что естественнее использовать методы вроде ветвей и границ или внутренней точки.
• Высокомерные и связанные между собой ограничения: если ограничения затрагивают множество взаимодействующих переменных (например, потоки в сетях, многопериодное планирование), общие решатели, способные обрабатывать крупномасштабные задачи с ограничениями, могут быть быстрее или надёжнее.
Потенциальные сложности и крайние случаи:
• Сложная интеграция: связать параметры нейросети с внешним решателем требует дополнительных усилий для организации связи или передачи градиентов (некоторые решатели не являются полностью дифференцируемыми).
• Ограниченная масштабируемость: некоторые специализированные решатели могут не справляться с задачами, где размерность проблем или сети очень велика.
Библиотека собеса по Data Science
📝 Немного инсайтов из третьего модуля курса
Сейчас большинство представлений об ИИ ограничиваются одним агентом — моделькой, которая что-то предсказывает, генерирует или классифицирует.
Но реальный прорыв начинается, когда этих агентов становится несколько.
Когда они начинают взаимодействовать друг с другом.
Когда появляется координация, распределение ролей, память, планирование — всё это и есть мультиагентные системы (MAS).
➡️ Пока кто-то думает, что это звучит как научная фантастика, индустрия уже переходит к новым уровням сложности:
— Microsoft делает язык DroidSpeak для общения между LLM
— Open Source-фреймворки вроде LangChain, AutoGen, CrewAI, LangGraph — бурно развиваются
— компании, включая МТС, уже применяют MAS в боевых задачах
🎓 На курсе мы подходим к этому практично:
🔵 разбираем, как устроены MAS
🔵 пишем агентов с нуля
🔵 учимся выстраивать взаимодействие: конкуренцию, кооперацию, планирование
Именно на третьем уроке вы впервые собираете не просто «умного бота», а живую систему из агентов, которая работает вместе — как команда.
Причём по-настоящему: врач, SQL-аналитик, travel-планировщик, Python-генератор, поисковик.
🙂 Если хочется не просто использовать ИИ, а проектировать системы, которые думают, планируют и сотрудничают → тогда забирайте курс по ИИ-агентам
Repost from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
🤖 Нейросети для дата-сайентиста: свежий гид по инструментам
Мир нейросетей меняется каждый день — выбрать подходящий инструмент для задач Data Science непросто.
Мы собрали в статье то, что действительно работает: какие модели помогают автоматизировать рутину, ускоряют кодинг и дают ощутимый буст продуктивности.
📊 Что выбрать под вашу задачу — читайте в обзоре!
📌 Подробнее: https://proglib.io/sh/yq0MaQtHrn
Библиотека дата-сайентиста #буст
📍 Зачем использовать log-loss вместо accuracy для оценки качества классификатора
Log-loss (логарифмическая функция потерь) учитывает не только правильность предсказания, но и уверенность модели. Если модель предсказывает правильный класс с низкой уверенностью, log-loss будет наказывать её сильнее, чем accuracy.
Например, если модель предсказывает класс A с вероятностью 0.51, а правильный ответ — A, то accuracy посчитает это успешным предсказанием. Log-loss же зафиксирует, что модель не была уверена. Это особенно важно в задачах, где требуется хорошо откалиброванная вероятность (например, в медицине или при принятии финансовых решений).
Таким образом, log-loss — более строгий критерий, который помогает отбирать не просто «угаданные» модели, а те, которые правильно оценивают свои предсказания.
Библиотека собеса по Data Science
🤔 Что делать, если редкий класс встречается менее 1% случаев и обычное увеличение выборки не помогает
Когда редкий класс очень мал (например, менее 1%), простое увеличение выборки (oversampling) может не решить проблему. В некоторых областях, таких как обнаружение мошенничества или аномалий, редкий класс по своей природе сильно отличается от обычных данных. Традиционные методы создания синтетических примеров могут не передавать сложные «аномальные» паттерны.
В таких случаях лучше использовать методы обнаружения аномалий, которые учатся распознавать нормальное поведение и отмечают отклонения. Если всё же применяете увеличение выборки, важно не создавать искусственные данные, слишком похожие на обычные, чтобы не запутать модель.
Также помогает обучение с учётом стоимости ошибок (cost-sensitive learning), которое сильнее штрафует ошибки на редком классе. Для оценки результатов полезно смотреть специальные метрики, например, количество ложных срабатываний и пропусков именно для редкого класса.
Библиотека собеса по Data Science
📝 Старт через час!
Успей подключиться к вебинару про AI-агентов для Data Scientist'ов — и получи практику, а не только теорию.
➡️ Ждём тебя, если:
— ты Data Scientist, Analyst или ML Engineer
— хочешь автоматизировать рутину и ускорить пайплайны в разы
— интересуешься автономными AI-агентами — топ-трендом 2025 года
— хочешь быть на шаг впереди коллег и увеличить свою ценность на рынке
👉 Не пропусти — Никита Зелинский рассказывает, что реально могут современные AI-агенты: кейсы, инструменты, архитектуры
P. S. Вебинар бесплатный, поэтому ждем ВСЕХ
‼️ Последний шанс вебинар уже СЕГОДНЯ в 19:00
«AI-агенты: Новый инструмент в арсенале DS-специалиста. Обзор курса»
Прекращаем писать вручную каждый скрипт, прямо сегодня можно узнать, как реализовать все ИИ-хотелки
➡️ Кто будет ведущий:
Никита Зелинский – Chief Data Scientist МТС, руководитель центра компетенций Data Science и head of ML Platforms Big Data МТС
➡️ На вебинаре разберем:
1. Содержание уроков курса:
🔵Что такое AI-агенты и как они работают «под капотом»
🔵Какие фреймворки и инструменты будем осваивать (LangChain, AutoGen, CrewAI и др.)
🔵Практические кейсы курса: от простых автономных скриптов до сложных агентских систем.
🔵Чему конкретно вы научитесь на каждом модуле
2. Применение агентов в мире и в МТС:
🔵Реальные примеры: как агенты уже меняют DS-практику глобально (автоматизация EDA, feature engineering, мониторинг, развертывание).
🔵Особый фокус: Как мы уже применяем и будем применять AI-агенты внутри МТС для решения бизнес-задач
🔵Какие задачи DS в МТС идеально ложатся на плечи агентов
🔵Перспективы: Куда движется это направление и как занять в нем лидирующую позицию
Не упусти свой шанс стать эффективнее уже сейчас!
📅 Дата: СЕГОДНЯ, 23 июня
⏰ Время: 19:00 (МСК)
📍 Формат: Онлайн-вебинар
👨💻 Ведущий: Никита Зелинский
👉 Бронируй свое место прямо сейчас!
P.S. Вебинар стартует через несколько часов — регистрируйся, пока не опоздал!
❔ Как понижение размерности может помочь SVM и логистической регрессии справляться с выбросами
Понижение размерности (например, с помощью PCA, ICA или автоэнкодеров) сжимает признаки в более компактное представление. Это может выделить выбросы или уменьшить их влияние, особенно если применяются устойчивые методы. Например, в PCA выбросы могут проявляться как точки с аномально высокой дисперсией вдоль главных компонент, что позволяет их легче заметить и учесть до обучения модели.
Однако стоит быть осторожным: обычный PCA чувствителен к выбросам и может построить искажённые компоненты, подстраиваясь под аномалии. Поэтому лучше использовать робастные методы понижения размерности, которые отделяют выбросы от основного (низкорангового) представления данных. После этого SVM и логистическая регрессия обучаются уже на «очищенном» пространстве признаков.
Библиотека собеса по Data Science
Available now! Telegram Research 2025 — the year's key insights 
