Machine learning Interview

Kanalga Telegram’da o‘tish

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

Ko'proq ko'rsatish

Tarmoq:Machinelearning Rossiya21 928 Texnologiyalar & Aralashmalar4 585...

📈 Telegram kanali Machine learning Interview analitikasi

Machine learning Interview (@machinelearning_interview) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 30 032 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 4 585-o'rinni va Rossiya mintaqasida 21 928-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 30 032 obunachiga ega bo‘ldi.

14 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni 41 ga, so‘nggi 24 soatda esa -8 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 20.73% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 7.14% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 6 226 marta ko‘riladi; birinchi sutkada odatda 2 143 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 39 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent claude, llm, контекст, hermes, nvidia kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 16 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

30 032

Obunachilar

-824 soatlar

-97 kunlar

+4130 kunlar

6 226

Post ko'rishlar

~ 2 14324 soatlar

~ 2 55148 soatlar

20.73%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

30 031

Простое объяснение механизма внимания трансформатора и его использование. часть 2 8. Он особенно полезен при работе с длинными последовательностями текстов, поскольку способен анализировать и понимать взаимосвязи между различными частями текста. Его лучше всего использовать, когда важны точность и контекст, например, в задачах языкового перевода или анализа настроений. 9. Он способен учитывать контекст слова или словосочетания, в том числе его связь с другими словами и словосочетаниями. 10. Это важно, поскольку смысл слова или фразы может зависеть от контекста, в котором оно употребляется. Еще одним преимуществом механизма внимания трансформеров является то, что он способен обучаться и адаптироваться к различным типам данных и задач. @machinelearning_interview

30 031

✅ Простое объяснение механизма внимания трансформеров и его использование. часть 1 1. Представьте, что у вас на полу куча игрушек, и вы хотите выбрать те, которые вам больше всего нравятся. Но игрушек так много, и вы не знаете, с чего начать! 2. А теперь представьте, что у вас есть специальный помощник, который может посмотреть на все игрушки сразу и сказать, какие из них самые важные. Это похоже на то, что делает механизм внимания трансформера! 3. Механизм внимания - это специальный инструмент, который помогает компьютеру выделять наиболее важные части из большого массива информации, например, из рассказа или фильма. Он рассматривает все сразу и решает, какие части наиболее интересны или важны. 4. Итак, как и ваш помощник с игрушками, он помогает компьютерам сосредоточиться на самых важных частях информации, чтобы лучше ее понять! 5. По сути это математический алгоритм, используемый в НЛП и других областях искусственного интеллекта. Он представляет собой разновидность модели машинного обучения, которая помогает компьютерам понять взаимосвязи между различными частями информации. 6. Если говорить проще, то механизм внимания трансформеров - это инструмент, позволяющий компьютерам анализировать и понимать большие объемы текстовых данных, разбивая их на более мелкие части и рассматривая, как эти части связаны друг с другом. 7. Это достигается за счет сложного процесса математических вычислений, позволяющих компьютеру определить, какие части текста наиболее важны и как они соотносятся друг с другом. @machinelearning_interview

30 031

♾️ Что такое MLOps и как внедрять ML-модели в компании? Друзья, 31 октября в 20:00 по МСК будет бесплатный вебинар, который проведет Евгений Мунин Data Scientist в Teads, в конце я также смогу к вам присоединиться ☺️ 👉 На бесплатном вебинаре вы подробно узнаете: - Зачем компании внедряют модели машинного обучения - Как устроен жизненный цикл внедрения ML-моделей - Какие типы метрик необходимо учитывать и мониторить - Какие паттерны проектирования использовать при развертывании ML-приложения - О различных MLOps инструментах, которые помогают не только развернуть ML-модель, но и отслеживать результаты 🙋‍♀️ Также у вас будет возможность задать вопросы онлайн мне и Евгению 👉 Зарегистрироваться

30 031

✨ OTUS приглашает 30 октября, в 20.00 МСК на бесплатный вебинар “Методология DevOps: стратегии и процессы деплоя”! Вебинар пройдет в рамках онлайн-курса "DevOps практики и инструменты" от Отус. 🎙️ Спикером выступит Рустем Галиев - специалист с многолетним опытом в области DevOps, познакомит вас с основными концепциями и стратегиями деплоя в DevOps. На уроке вы узнаете: ✔️ Что такое деплой и почему он так важен в процессе разработки ПО ✔️ Различные стратегии деплоя, такие как Canary Releases, Rolling и Blue/Green. ✔️ Примеры использования каждой стратегии и их преимущества и недостатки. ➡️ Регистрация на вебинар: https://otus.pw/yJ2L/ На вебинаре Вы получите практические советы и рекомендации, которые сможете применить в своей работе. Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KRVWV

30 031

👨‍🎓 Стэнфордский университет предлагает бесплатные онлайн-курсы. 📌 Без вступительного взноса. 📌 Нет платы за обучение. 📌 Не нужно покупать учебники. 1. Специализация "Машинное обучение". https://online.stanford.edu/courses/soe-ymls-machine-learning-specialization 2. Информатика 101. https://online.stanford.edu/courses/soe-ycscs101-computer-science-101 3. Алгоритмы: Проектирование и анализ. https://online.stanford.edu/courses/soe-ycsalgorithms1-algorithms-design-and-analysis-part-1 4. Базы данных: Продвинутые темы по SQL . https://online.stanford.edu/courses/soe-ydatabases0001-databases-advanced-topics-sql 5. Основы программирования на языке R. https://online.stanford.edu/courses/xfds112-r-programming-fundamentals 6. Статистическое обучение. https://online.stanford.edu/courses/sohs-ystatslearning-statistical-learning 7. Программа Advanced Cybersecurity. https://online.stanford.edu/courses/xacs100-advanced-cybersecurity-program-preview 8. Введение в Интернет вещей. https://online.stanford.edu/courses/xee100-introduction-internet-things 9. Теория игр. https://online.stanford.edu/courses/soe-ycs0002-game-theory 10. Проектирование карьеры. https://online.stanford.edu/courses/tds-y0003-designing-your-career @machinelearning_interview

30 031

🚀 Мечтаете присоединиться к талантливой команде и работать вместе над проектом с огромной аудиторией? Сейчас в Авито открыто более 350 вакансий в различных направлениях: разработка, маркетинг, продажи, продукт, HR, аналитика и не только! Вас ждут: • Гибридный и удалённый форматы работы; • ДМС со стоматологией с первого дня; • Классный офис в Москве в двух минутах от метро «Белорусская» с местами для уединённой работы и зонами отдыха, а ещё офисы в Питере, Казани и Самаре; • Прозрачная система премий; • Обучение за счёт компании. Возможно, ищут именно вас! Откликайтесь на подходящие вакансии по ссылке.

30 031

📊 11 основных диаграм для #DataScientists Наглядный гайд, в котором подробно рассмотрены 11 важнейших графиков, которые специалисты, работающие с данными, используют в 95% случаев. 📌 Статья @machinelearning_interview

30 031

Repost from Искусственный интеллект. Высокие технологии

Вышел GigaChat нового поколения. Разработчики @gigachat_bot качественно обновили его, изменив свой подход к обучению. Благодаря этому сервис стал лучше отвечать на запросы пользователей — примерно в два раза. При этом GigaChat также запустили в VK, аудитория сервиса уже достигла более 1 млн пользователей. Попробовать. @vistehno

30 031

📃 Генерация отчетов графовой аналитики в формате PDF с помощью Python Создание отчетов графовой аналитики является важной частью работы многих проектов и бизнес-процессов. Однако, процесс создания и настройки таких отчетов может быть сложным и требовать больших усилий. Рассмотрим, как использование языка программирования Python и его библиотек может значительно упростить генерацию отчетов графовой аналитики в формате PDF. Для работы с PDF в Python есть множество библиотек, самые популярные из них: PyPDF2, ReportLab, FPDF. Сравнение основных библиотек: в изображении. По совокупным критериям для дальнейшего разбора мной была выбрана библиотека ReportLab. Одной из самых популярных библиотек для работы с графами в Python является NetworkX. Она предоставляет широкий набор инструментов для создания и анализа графов. Ее и буду использовать для создания графа и анализа данных. В посте приведен код, необходимый для воспроизведения. Полный код доступен по ссылке. Данные сгенерирую с помощью Python. Пусть будет 500 операций, где будет информация об отправителе, получателе, сумме операции и флаг подозрительности операции.

df_dict = {}
count_operation = 500
for i in range(count_operation):
    df_dict[i] = {'reciver' : random.randint(1, count_operation/2),
                  'sender': random.randint(1, count_operation/2),
                  'sum_oper': random.randint(1000, 1000000),
                  'suspisios_transaction': random.randint(0, 1)}

Добавлю 100 переводов, где получателем будет клиент 1, а отправителем- любой другой клиент из основного датасета:

for i in range(100):
    df_dict[i] = {'reciver' : 1,
                  'sender': random.randint(1, count_operation/2),
                  'sum_oper': random.randint(1000, 1000000),
                  'suspisios_transaction': random.randint(0, 1)}
df =  pd.DataFrame().from_dict(df_dict).T

Получится вот такой датасет: Смотреть

30 031

💪 Что такое Байесовское А/B-тестирование и как его провести? Подробно обсудим 19 октября в 20:00 мск на открытом уроке в OTUS. Занятие приурочено к старту онлайн-курса «Machine Learning. Advanced». 🔹 На вебинаре мы разберем, какие преимущества дают Байесовские A/B тесты по сравнению с обычными, как проводить Байесовские A/B тесты и как работать с Байесовскми моделями в PyMC3. 📌 Результаты урока: Познакомитесь с основами A/B тестирования и получите новый, простой и эффективный инструмент для A/B тестирования 👉 РЕГИСТРАЦИЯ https://otus.pw/ydYd/ Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KUFd5

30 031

✅ Разбор NLP задачи. Определяем тональность текста при помощи NLTK и DL. https://www.youtube.com/watch?v=w2y01D2tLt4 @machinelearning_interview

30 031

🚀 Опишите алгоритм для нахождения миллиона наименьших чисел в наборе из миллиарда чисел. Память компьютера позволяет хранить весь миллиард чисел. Если придумали какое-либо решение, то оцените его эффективность по времени. Есть ли более эффективное решение? Решение 1. Сортировка Можно отсортировать элементы в порядке возрастания, а затем взять первый миллион чисел. Это потребует O(n log(n)) времени. Решение 2. Минимум кучи Чтобы решить эту задачу, можно использовать минимум кучи. Мы сначала создаем кучу для первого миллиона чисел с наибольшим элементом сверху. Затем мы проходимся по списку. Вставляя элемент в список, удаляем наибольший элемент. В итоге мы получим кучу, содержащую миллион наименьших чисел. Эффективность алгоритма O(n log(m)), где m — количество значений, которые нужно найти. Решение 3. Ранжирование (если изменять исходный массив) Данный алгоритм очень популярен и позволяет найти i-й наименьший (или наибольший) элемент в массиве. Если элементы уникальны, поиск i-гo наименьшего элемента потребует О(n) времени. Основной алгоритм будет таким: Выберите случайный элемент в массиве и используйте его в качестве «центра». Разбейте элементы вокруг центра, отслеживая число элементов слева. Если слева находится ровно i элементов, вам нужно вернуть наибольший элемент. Если слева находится больше элементов, чем i, то повторите алгоритм, но только для левой части массива. Если элементов слева меньше, чем i, то повторите алгоритм справа, но ищите алгоритм с рангом

 i - leftSize.

Приведенный далее код реализует этот алгоритм.

public int partition(int[] array, int left, int right, int pivot) {
 while (true) {
  while (left <= right && array[left] <= pivot) {
   left++;
  }
 
  while (left <= right && array[right] > pivot) {
   right--;
  }

  if (left > right) {
   return left - 1;
  }

  swap(array, left, right);
 }
}

public int rank(int[] array, int left, int right, int rank) {
 int pivot = array[randomIntInRange(left, right)];
 
 /* Раздел и возврат конца левого раздела */
 int leftEnd = partition(array, left, right, pivot);
 
 int leftSize = leftEnd - left + 1;
 if (leftSize == rank + 1) {
  return max(array, left, leftEnd);
 } else if (rank < leftSize) {
  return rank(array, left, leftEnd, rank);
 } else {
  return rank(array, leftEnd + 1, right, rank - leftSize);
 }
}

Как только найден наименьший i-й элемент, можно пройтись по массиву и найти все значения, которые меньше или равны этому элементу. Если элементы повторяются (вряд ли они будут «уникальными»), можно слегка модифицировать алгоритм, чтобы он соответствовал этому условию. Но в этом случае невозможно будет предсказать время его выполнения. Существует алгоритм, гарантирующий, что мы найдем наименьший i-й элемент за линейное время, независимо от «уникальности» элементов. Однако эта задача несколько сложнее. Если вас заинтересовала эта тема, этот алгоритм приведен в книге Т. Кормен, Ч. Лейзер-сон, Р. Ривестп, К. Штайн «CLRS’ Introduction to Algorithms» (есть в переводе). Пишите свое решение в комментариях👇 @machinelearning_interview

30 031

Сбер расширяет географию своих ивентов: 6 октября в Тбилиси состоится первый технологический митап, посвящённый разработке рекомендательных систем 👨‍💻 На RecSys MeetUp вы познакомитесь с экспертами Сбера, станете частью одного из крупнейших IT-комьюнити и узнаете о: ✔️ Технологических трендах в области искусственного интеллекта и машинного обучения. ✔️ Устройстве современных стримингов компаний-партнёров Сбера. Гарантируем: будет интересно и безумно полезно каждому DS-специалисту. Регистрируйтесь по ссылке , встречаемся 6 октября в 18:30 по адресу: Тбилиси, Ресторан на 6 этаже отеля «Golden Palace», переулок Агмашенебели 62 💚

30 031

⭐️ Разбираем реальную задачи с собеседования Data Science https://www.youtube.com/watch?v=iLzA0H0Ao6o&t=28s @machinelearning_interview

30 031

🚗 Тест-драйв PyTorch 2.0 и заглядываем под капот «двушки» ⚜️ Новейший метод для ускорения кода в PyTorch 2.0 — torch.compile(), который позволяет JIT‑компилировать код PyTorch в оптимизированные ядра, требуя минимальных изменений кода. JIT‑компиляция (Just‑In‑Time compilation) — это процесс, при котором код на высокоуровневом языке преобразуется в код на низкоуровневом языке, который может быть быстрее и эффективнее исполнен процессором или графическим ускорителем. torch.compile() использует TorchDynamo и заданный бэкенд для JIT‑компиляции кода PyTorch. Рассмотрим, насколько эффективен torch.compile() на практике, заглянем под капот «двушки» PyTorch 2.0, чтобы узнать, как работает этот метод и какие преимущества он дает. Разработчики PyTorch заявляют, что torch.compile() может дать прирост производительности до 50% по сравнению с обычным кодом PyTorch. Для проверки этого заявления мы проведем ряд экспериментов на разных моделях и данных, выясним, есть ли реальная выгода от использования torch.compile(). 📌 Для того чтобы понять, как работает torch.compile() рассмотрим основные его компоненты, которые отвечают за различные аспекты JIT‑компиляции кода PyTorch: ▪️TorchDynamo — это динамический компилятор, который анализирует код PyTorch и определяет, какие части кода могут быть скомпилированы в оптимизированные ядра. Отслеживает изменения в коде и перекомпилирует его при необходимости. ▪️AOT AutoGrad — это система автоматического дифференцирования, которая позволяет вычислять градиенты для скомпилированных ядер. Генерирует код для обратного распространения ошибки во время компиляции, а не во время исполнения, что ускоряет процесс обучения нейронных сетей. ▪️PrimTorch — это набор примитивных операций, которые используются для построения скомпилированных ядер. Включает в себя базовые математические и логические операции, а также операции над тензорами, такие как сложение, умножение, свертка и т. д. ▪️TorchInductor — это бэкенд для JIT‑компиляции кода PyTorch в оптимизированные ядра для разных устройств. Поддерживает разные бэкенды и адаптирует код PyTorch к специфике каждого устройства. Далее подробнее рассмотрим, как работают компоненты TorchDynamo и TorchInductor и как они взаимодействуют друг с другом, чтобы обеспечить JIT‑компиляцию кода PyTorch. 📌Читать @machinelearning_interview

30 031

VK Data Meetup — митап об инструментах и людях, которые умеют работать с данными ⏰ Когда: 12 октября, 14:00 по Москве 📍 Регистрация VK Data Meetup — это серия событий о практиках работы с данными на разных уровнях. Митап 12 октября посвящен работе с большими данными и ML. Обсудим: • Тренды работы с данными; • Процессы взаимодействия со смежными подразделениями и внутри дата-команд; • Новые инструменты, такие как Spark on Kubernetes и No Code AutoML-платформы; • Кейсы решения практических бизнес-задач от ведущих российских компаний. Митап будет интересен дата- и ML-инженерам, тимлидам и разработчикам платформ данных, архитекторам и специалистам по Data Science. Присоединяйтесь к сообществу VK Data Meetup, чтобы узнать про работающие практики и поделиться своим опытом. Зарегистрироваться

30 031

🚀 TorchServe – это фреймворк, который является частью экосистемы PyTorch для обслуживания моделей, который является гибким и простым в использовании. Инструмент позволяет развертывать обученные модели PyTorch без необходимости писать собственный код. Он обеспечивает очень легкую настройку и низкую задержку даже для масштабных проектов. Возможности: • Поддержка нескольких форматов моделей (torchscript, onnx, ipex, tensorrt); • TorchServe можно использовать для многих типов вывода в производственных условиях. • Объединение нескольких моделей в один граф/workflow; • Инференс API (REST и GRPC); • API для управления моделями; • Метрики из коробки.

pip install torch==1.7.0 torchvision==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html 
pip install torchserve==0.2.0 torch-model-archiver==0.2.0

• Примеры, демонстрирующие возможности и интеграции TorchServe @machinelearning_interview

30 031

❗️ Как устроены методы коллаборативной фильтрации для рекомендательных систем? 👉 Изучаем SVD алгоритм на открытом уроке 25 сентября в 17:30 мск — «Методы коллаборативной фильтрации для рекомендательных систем: изучаем SVD алгоритм» 🔹 На занятии мы обсудим один из самых мощных алгоритмов области рексис, основанный на сингулярном разложении матрицы (SVD) 📌 Результаты урока: Вы примените на практике подход на основе SVD разложения матрицы для построения рекомендательной системы 👉 РЕГИСТРАЦИЯ https://otus.pw/8td7/ Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru. Вебинар пройдет в преддверии старта онлайн-курса «Machine Learning. Advanced» от OTUS. Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8Jx2Cp

30 031

🔍 Анализ данных для задач НЛП • Для успешного NLP-проекта одним из важнейших этапов является предварительная обработка данных. В этой статье мы рассмотрим все шаги, связанные с анализом данных для любой задачи НЛП. • Для анализа данных мы можем использовать статистические методы, вычислительные алгоритмы, чтобы обработать данные и повысить производительность модели. Шаги, описанные в этом посте, могут быть использованы для анализа данных для любой задачи НЛП. Настройка среды ▪Первым шагом любого проекта является настройка среды, т.е. установка важных пакетов и импорт важных библиотек.

!pip install nltk
!pip install pandas

import pandas as pd
import nltk
from nltk.tokenize import sent_tokenize,word_tokenize
from nltk.stem import PorterStemmer
from nltk.corpus import stopwords
import re

Обзор данных ▪Следующим этапом проекта будет загрузка датасета. В данном случае мы будем использовать набор данных твитов о катастрофах из Kaggle. ▪Мы можем загрузить наш датасет с помощью библиотеки pandas. df = pd.read_csv("/train.csv") ▪Для того чтобы получить общее представление о данных, мы можем просмотреть верхние строки набора данных с помощью функции head в pandas: df.head(10) Для анализа столбца ключевых слов мы используем библиотеку seaborn, которая позволяет визуализировать распределение ключевых слов и их корреляцию с целью.

plt.figure(figsize=(10,70))
sns.countplot(data=df,y="keyword",hue="target",saturation=0.50)
plt.legend(bbox_to_anchor=(1.02, 1), loc='upper left', borderaxespad=0)
plt.show()

📌 Продолжение @pro_python_code

30 031

❗️ Как стать высокооплачиваемым специалистом в ML? 👉 Совершенствуй мастерство ML в сообществе единомышленников на открытом уроке 26 сентября в 20:00 мск — «Алгоритм PCA как один из популярных Unsupervised алгоритмов ML» 🔹 Зачастую нам приходится проецировать многомерные данные на плоскость либо в пространство меньшей размерности. На открытом уроке вы узнаете, что из себя представляет задача снижения размерности 📌 Результаты урока: Вы изучите основные техники снижения размерности и изучите метод PCA 👉 РЕГИСТРАЦИЯ https://otus.pw/xq3E/ Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KPo2x