Библиотека собеса по Data Science | вопросы с собеседований

Open in Telegram

Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot

Network:Книги для программистов Russia124 627 Career6 905

4 491

Subscribers

+324 hours

+87 days

+4230 days

533

Post views

~ 27624 hours

~ 34448 hours

11.87%

Engagement rate

~ 1

Posts per day

Ads index

beta

Posts Archive

4 491

😤 Пока вы думаете — остальные уже учатся строить системы, которые работают за них ⚡24 часа до старта курса по AI-агентам. Самое время задуматься о прокачке скиллов, потому что места ограничены! Если вы до сих пор думаете, что LLM — это просто «вызов через API», то вы рискуете очень скоро оказаться за бортом индустрии. Модели больше не в центре. Решают те, кто умеет собирать интеллектуальные системы, а не просто «дообучать модельку». ➡️ Что вы потеряете, если не впишетесь: — навык, который уже востребован на рынке — понимание, как из GPT сделать полноценного помощника, агента или продукт — шанс догнать тех, кто уже перешёл на следующий уровень 📌 Курс стартует уже завтра — 5 вебинаров, живая практика, код, разборы, продовые кейсы — без «посмотрите статью», только то, что реально нужно Спикеры: Никита Зелинский (МТС), Диана Павликова, Макс Пташник, Дима Фомин — те, кто реально собирает агентные системы, а не просто про них пишет. ❗Старт уже завтра — забронируйте место на курсе сейчас

4 491

🧠 «Поиграйся с LLM, почитай про агентов — и сам поймёшь, как это работает» Это один из самых бесполезных советов, который мы слышали в адрес тех, кто хочет разобраться в AI-агентах. Поиграйся — это как? Потыкать пару промптов в ChatGPT и решить, что теперь ты можешь строить мультиагентные системы? 🤡 Ну-ну. AI-агенты — это не «очередная обёртка над GPT». Это архитектура. Состояния, инструменты, цепочки вызовов, память, оценка качества и адекватность поведения. ➡️ Чтобы разобраться, нужно: — понимать, как устроен LLM под капотом — уметь подключать внешние данные (RAG, retrievers, rerankers) — уметь масштабировать и дебажить поведение агентов — разбираться в фреймворках вроде AutoGen, CrewAI, LangChain — знать, как всё это тащится в прод Если вы реально хотите не «поиграться», а научиться собирать рабочие агентные системы — у нас стартует курс по разработке ИИ-агентов 5го июля P.S: не упусти свой шанс, промокод: LASTCALL на 10.000₽

4 491

👇 Зачем в машинном обучении иногда специально нарушают симметрию Во многих моделях, особенно нейронных сетях, изначальная симметрия (одинаковая инициализация весов, одинаковая структура путей) может привести к тому, что все нейроны начинают учиться одинаково — и, по сути, дублируют друг друга. Это мешает сети извлекать разнообразные признаки и тормозит обучение. Чтобы этого избежать, симметрию намеренно ломают — например, инициализируя веса случайными значениями, даже если структура одинаковая. Этот маленький хаос позволяет разным частям модели начать «думать» по-разному с самого старта и постепенно развивать разные специализации. Симметрия красива в математике, но в обучении может быть смертельна: без разнообразия начальных состояний — нет разнообразия решений. Библиотека собеса по Data Science

4 491

🌀 Почему в некоторых случаях полезно обучать модель на данных, полученных… от другой модели Обучение на предсказаниях другой модели — это основа подхода под названием knowledge distillation (дистилляция знаний). Идея в том, что сложная, тяжёлая модель (например, глубокая нейросеть) может содержать более «мягкую» и богатую информацию о структуре задачи, чем просто метки «0» и «1». Маленькая модель, обучающаяся не на оригинальных метках, а на вероятностных предсказаниях большой модели, может: ➡️ лучше улавливать обобщённые закономерности, ➡️ достигать качества, близкого к исходной модели, ➡️ быть гораздо быстрее и легче в продакшене. Это особенно полезно, когда требуется deploy в ограниченной среде (например, на мобильных устройствах), но не хочется терять в качестве. Получается, что модель может «учиться у другой модели», как ученик у учителя — и это работает. Библиотека собеса по Data Science

4 491

🔥 Последняя неделя перед стартом курса по AI-агентам Старт курса уже 5го числа! Если вы планировали вписаться — сейчас ПОСЛЕДНИЙ шанс забронировать место На курсе: — разложим LLM по косточкам: токенизация, SFT, PEFT, инференс — соберём RAG и научимся оценивать его адекватно — построим настоящую мультиагентную систему — архитектуру, которая умеет расти — разберём CoPilot, сломаем через prompt injection (спасибо Максу) — и наконец, посмотрим, как это работает в MCP и реальных кейсах 📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API» 👉 Курс здесь

4 491

✅ Почему иногда имеет смысл обучать модель не на всех доступных данных Интуитивно кажется, что больше данных — всегда лучше. Но в некоторых случаях использование всего набора данных может быть неэффективным или даже вредным: 1⃣ Переизбыток одинаковых примеров может привести к смещению модели в сторону часто встречающихся паттернов и заглушить редкие, но важные случаи. 2⃣ Шумные или устаревшие данные могут ввести модель в заблуждение, особенно если данные собирались в разное время или из разных источников. 3⃣ При прототипировании или отладке модели обучение на подмножестве экономит ресурсы и ускоряет эксперименты. Выборка «умных» подмножеств (например, стратифицированных или репрезентативных) может дать почти то же качество — но быстрее и устойчивее. Библиотека собеса по Data Science

4 491

🔎 Зачем использовать метод главных компонент (PCA), если модель и так может работать с большим числом признаков Хотя современные модели способны обрабатывать высокоразмерные данные, большое количество признаков может привести к проклятию размерности, увеличению времени обучения, риску переобучения и ухудшению интерпретируемости. PCA помогает уменьшить размерность, сохранив основную информацию — он находит новые оси (комбинации признаков), по которым данные варьируются сильнее всего. Это ускоряет обучение, уменьшает шум, помогает визуализировать данные и делает модель более устойчивой, особенно когда среди признаков есть коррелирующие или нерелевантные. Библиотека собеса по Data Science

4 491

🔖 Почему в задачах машинного обучения важно фиксировать случайное зерно (random seed) Во многих алгоритмах машинного обучения присутствует случайность — например, в инициализации весов, случайных разбиениях данных, выборе подмножеств признаков и т.д. Без фиксации random seed каждый запуск модели может давать немного разные результаты. Фиксация случайного зерна позволяет сделать эксперименты воспроизводимыми: другие исследователи (или вы сами позже) смогут получить те же результаты и проверить корректность методики. Это особенно важно при сравнении моделей, отладке и написании научных статей. Библиотека собеса по Data Science

4 491

✨ Зачем иногда использовать вероятностные модели, если можно просто выбрать класс с наибольшей вероятностью Выбор класса с наибольшей вероятностью даёт одно конкретное решение, но теряет информацию об уверенности модели. В некоторых задачах (например, медицине, кредитном скоринге, системах рекомендаций) важно не только знать что модель предсказывает, но и насколько она в этом уверена. Вероятностный вывод позволяет: — учитывать риски при принятии решений, — строить более надёжные ансамбли, — калибровать пороги отсечения для разных задач (например, при дисбалансе классов), — делать «мягкие» предсказания для downstream-задач. Таким образом, вероятности дают больше гибкости и контроля в использовании модели. Библиотека собеса по Data Science

4 491

🌸 Почему иногда полезно использовать аугментацию данных даже при большом объёме обучающей выборки Аугментация помогает не только в условиях дефицита данных, но и при их избыточности — она повышает разнообразие обучающего набора. Даже если данных много, они могут быть однородными или содержать скрытые смещения (bias). Аугментация (например, случайные повороты изображений, перестановки слов в тексте, добавление шума) помогает модели стать устойчивее к небольшим изменениям входных данных и улучшает её способность обобщать. Это особенно полезно в реальных задачах, где на этапе инференса данные могут немного отличаться от обучающих. Библиотека собеса по Data Science

4 491

🤯 Мы больше года строим мультиагентные системы Грабли, находки, паттерны, эксперименты — всё это накопилось и в какой-то момент стало жалко держать только у себя. Никита — рассказывает (и показывает) базу: токенизация, LLM, SFT, PEFT, локальный инференс + RAG и как оценивать его качество. Диана — как строят мультиагентные системы, какие есть паттерны проектирования и библиотеки. Макс — про инференс в проде + разберет CoPilot, соберет с вами из кусочков свой копайлот, а затем его сломает через prompt injection. // Макс фанат autogen (а если нет — он вас разубедит в своем классном канале) Финальным аккордом Дима углубится в MCP и соберет несколько кейсов повзрослее. Курс тут: https://clc.to/47pgYA Промокод: datarascals действует до 23:59 29 июня

4 491

🖍 Почему в задачах обработки текста важно учитывать порядок слов, а не только их частоту Порядок слов несёт ключевую смысловую информацию, которая часто теряется при простом подсчёте частоты слов (мешок слов). Например, фразы «кот chased мышь» и «мышь chased кот» имеют одинаковые слова, но совсем разный смысл. Учёт порядка помогает моделям понять контекст, отношения между словами и построить более точное представление текста, что особенно важно в задачах перевода, анализа тональности и ответах на вопросы. Библиотека собеса по Data Science

4 491

👇 Когда стоит рассмотреть использование специализированных решателей вместо стандартных градиентных фреймворков глубокого обучения Хотя PyTorch или TensorFlow способны справляться со многими задачами с ограничениями, есть ситуации, когда специализированные решатели оказываются более подходящими: • Комбинаторные или целочисленные ограничения: если необходимо обеспечить дискретность выходных данных или комбинаторную допустимость (например, в задачах планирования или маршрутизации), более эффективными могут быть методы смешанного целочисленного программирования. • Жёсткие физические или операционные ограничения: в инженерном проектировании или исследовании операций ограничения часто настолько строгие, что естественнее использовать методы вроде ветвей и границ или внутренней точки. • Высокомерные и связанные между собой ограничения: если ограничения затрагивают множество взаимодействующих переменных (например, потоки в сетях, многопериодное планирование), общие решатели, способные обрабатывать крупномасштабные задачи с ограничениями, могут быть быстрее или надёжнее. Потенциальные сложности и крайние случаи: • Сложная интеграция: связать параметры нейросети с внешним решателем требует дополнительных усилий для организации связи или передачи градиентов (некоторые решатели не являются полностью дифференцируемыми). • Ограниченная масштабируемость: некоторые специализированные решатели могут не справляться с задачами, где размерность проблем или сети очень велика. Библиотека собеса по Data Science

4 491

📝 Немного инсайтов из третьего модуля курса Сейчас большинство представлений об ИИ ограничиваются одним агентом — моделькой, которая что-то предсказывает, генерирует или классифицирует. Но реальный прорыв начинается, когда этих агентов становится несколько. Когда они начинают взаимодействовать друг с другом. Когда появляется координация, распределение ролей, память, планирование — всё это и есть мультиагентные системы (MAS). ➡️ Пока кто-то думает, что это звучит как научная фантастика, индустрия уже переходит к новым уровням сложности: — Microsoft делает язык DroidSpeak для общения между LLM — Open Source-фреймворки вроде LangChain, AutoGen, CrewAI, LangGraph — бурно развиваются — компании, включая МТС, уже применяют MAS в боевых задачах 🎓 На курсе мы подходим к этому практично: 🔵 разбираем, как устроены MAS 🔵 пишем агентов с нуля 🔵 учимся выстраивать взаимодействие: конкуренцию, кооперацию, планирование Именно на третьем уроке вы впервые собираете не просто «умного бота», а живую систему из агентов, которая работает вместе — как команда. Причём по-настоящему: врач, SQL-аналитик, travel-планировщик, Python-генератор, поисковик. 🙂 Если хочется не просто использовать ИИ, а проектировать системы, которые думают, планируют и сотрудничают → тогда забирайте курс по ИИ-агентам

4 491

Repost from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Нейросети для дата-сайентиста: свежий гид по инструментам Мир нейросетей меняется каждый день — выбрать подходящий инструмент для задач Data Science непросто. Мы собрали в статье то, что действительно работает: какие модели помогают автоматизировать рутину, ускоряют кодинг и дают ощутимый буст продуктивности. 📊 Что выбрать под вашу задачу — читайте в обзоре! 📌 Подробнее: https://proglib.io/sh/yq0MaQtHrn Библиотека дата-сайентиста #буст

4 491

📍 Зачем использовать log-loss вместо accuracy для оценки качества классификатора Log-loss (логарифмическая функция потерь) учитывает не только правильность предсказания, но и уверенность модели. Если модель предсказывает правильный класс с низкой уверенностью, log-loss будет наказывать её сильнее, чем accuracy. Например, если модель предсказывает класс A с вероятностью 0.51, а правильный ответ — A, то accuracy посчитает это успешным предсказанием. Log-loss же зафиксирует, что модель не была уверена. Это особенно важно в задачах, где требуется хорошо откалиброванная вероятность (например, в медицине или при принятии финансовых решений). Таким образом, log-loss — более строгий критерий, который помогает отбирать не просто «угаданные» модели, а те, которые правильно оценивают свои предсказания. Библиотека собеса по Data Science

4 491

🤔 Что делать, если редкий класс встречается менее 1% случаев и обычное увеличение выборки не помогает Когда редкий класс очень мал (например, менее 1%), простое увеличение выборки (oversampling) может не решить проблему. В некоторых областях, таких как обнаружение мошенничества или аномалий, редкий класс по своей природе сильно отличается от обычных данных. Традиционные методы создания синтетических примеров могут не передавать сложные «аномальные» паттерны. В таких случаях лучше использовать методы обнаружения аномалий, которые учатся распознавать нормальное поведение и отмечают отклонения. Если всё же применяете увеличение выборки, важно не создавать искусственные данные, слишком похожие на обычные, чтобы не запутать модель. Также помогает обучение с учётом стоимости ошибок (cost-sensitive learning), которое сильнее штрафует ошибки на редком классе. Для оценки результатов полезно смотреть специальные метрики, например, количество ложных срабатываний и пропусков именно для редкого класса. Библиотека собеса по Data Science

4 491

📝 Старт через час! Успей подключиться к вебинару про AI-агентов для Data Scientist'ов — и получи практику, а не только теорию. ➡️ Ждём тебя, если: — ты Data Scientist, Analyst или ML Engineer — хочешь автоматизировать рутину и ускорить пайплайны в разы — интересуешься автономными AI-агентами — топ-трендом 2025 года — хочешь быть на шаг впереди коллег и увеличить свою ценность на рынке 👉 Не пропусти — Никита Зелинский рассказывает, что реально могут современные AI-агенты: кейсы, инструменты, архитектуры P. S. Вебинар бесплатный, поэтому ждем ВСЕХ

4 491

‼️ Последний шанс вебинар уже СЕГОДНЯ в 19:00 «AI-агенты: Новый инструмент в арсенале DS-специалиста. Обзор курса» Прекращаем писать вручную каждый скрипт, прямо сегодня можно узнать, как реализовать все ИИ-хотелки ➡️ Кто будет ведущий: Никита Зелинский – Chief Data Scientist МТС, руководитель центра компетенций Data Science и head of ML Platforms Big Data МТС ➡️ На вебинаре разберем: 1. Содержание уроков курса: 🔵Что такое AI-агенты и как они работают «под капотом» 🔵Какие фреймворки и инструменты будем осваивать (LangChain, AutoGen, CrewAI и др.) 🔵Практические кейсы курса: от простых автономных скриптов до сложных агентских систем. 🔵Чему конкретно вы научитесь на каждом модуле 2. Применение агентов в мире и в МТС: 🔵Реальные примеры: как агенты уже меняют DS-практику глобально (автоматизация EDA, feature engineering, мониторинг, развертывание). 🔵Особый фокус: Как мы уже применяем и будем применять AI-агенты внутри МТС для решения бизнес-задач 🔵Какие задачи DS в МТС идеально ложатся на плечи агентов 🔵Перспективы: Куда движется это направление и как занять в нем лидирующую позицию Не упусти свой шанс стать эффективнее уже сейчас! 📅 Дата: СЕГОДНЯ, 23 июня ⏰ Время: 19:00 (МСК) 📍 Формат: Онлайн-вебинар 👨‍💻 Ведущий: Никита Зелинский 👉 Бронируй свое место прямо сейчас! P.S. Вебинар стартует через несколько часов — регистрируйся, пока не опоздал!

4 491

❔ Как понижение размерности может помочь SVM и логистической регрессии справляться с выбросами Понижение размерности (например, с помощью PCA, ICA или автоэнкодеров) сжимает признаки в более компактное представление. Это может выделить выбросы или уменьшить их влияние, особенно если применяются устойчивые методы. Например, в PCA выбросы могут проявляться как точки с аномально высокой дисперсией вдоль главных компонент, что позволяет их легче заметить и учесть до обучения модели. Однако стоит быть осторожным: обычный PCA чувствителен к выбросам и может построить искажённые компоненты, подстраиваясь под аномалии. Поэтому лучше использовать робастные методы понижения размерности, которые отделяют выбросы от основного (низкорангового) представления данных. После этого SVM и логистическая регрессия обучаются уже на «очищенном» пространстве признаков. Библиотека собеса по Data Science