Machine learning Interview

Kanalga Telegram’da o‘tish

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

Ko'proq ko'rsatish

Tarmoq:Machinelearning Rossiya21 928 Texnologiyalar & Aralashmalar4 585...

📈 Telegram kanali Machine learning Interview analitikasi

Machine learning Interview (@machinelearning_interview) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 30 032 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 4 585-o'rinni va Rossiya mintaqasida 21 928-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 30 032 obunachiga ega bo‘ldi.

14 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni 41 ga, so‘nggi 24 soatda esa -8 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 20.73% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 7.14% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 6 226 marta ko‘riladi; birinchi sutkada odatda 2 143 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 39 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent claude, llm, контекст, hermes, nvidia kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 16 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

30 032

Obunachilar

-824 soatlar

-97 kunlar

+4130 kunlar

6 226

Post ko'rishlar

~ 2 14324 soatlar

~ 2 55148 soatlar

20.73%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

30 031

🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода. Все, что вам нужно сделать, это:

%load_ext cudf.pandas
import pandas as pd

Их библиотека RAPIDS автоматически определяет, работаете ли вы на GPU или CPU, и ускоряет обработку. Попробовать можно здесь: https://colab.research.google.com/drive/12tCzP94zFG2BRduACucn5Q_OcX1TUKY3 Repo: https://github.com/rapidsai/cudf @data_analysis_ml

30 031

Как создают цифровых аватаров и автономные машины? Короткий ответ: используя технологии и подходы из трехмерного компьютерного зрения. Но если вам интересно узнать подробнее и вы хотите познакомиться с областью 3D Computer Vision, приходите на открытую лекцию от команды DeepSchool! На лекции вы узнаете: - какие задачи решают в 3D CV - почему таких задач становится больше - с чего начать погружение в эту область - почему CV-инженеру важно знакомиться с 3D - что такое SLAM, SfM, SMPL, NeRF и другие баззворды 🐝 Лекию будут вести: - Давид Свитов, PhD, Samsung AI Center - Тимур Фатыхов, основатель DeepSchool, ex Lead CV-engineer KoronaPay Также ребята представят программу курса "3D Computer Vision" и подарят скидки участникам! 📌 Лекция пройдет в субботу, 11 ноября, 12:00 мск 💡 Всем, кто зарегистрируется на встречу, мы отправим miro-схему с описанием направлений и инструментов в 3D — поможет быстро сориентироваться и погрузиться. Регистрируйтесь по ссылке! @machinelearning_interview

30 031

1cd46cb_356f_7c4d_2772_701708b4e3d4_real_time_pipeline_betta.webp0.44 KB

30 031

Хотите научиться строить полноценный ML конвейер в реальном времени 🛠️ Гайд по его созданию Шаг за шагом На Python 𓊍: https://www.realworldml.xyz/blog/real-time-pipelines-in-python @machinelearning_interview

30 031

🚀 Представлена Embed-v3 - новейшая модель эмбединга текста. Embed-v3 превосходит системы семантического поиска и RAG и обладает улучшенной оценкой качества контента и высокой эффективностью. http://clarifai.com/cohere/embed/models/cohere-embed-english-v3_0 @machinelearning_interview

30 031

ERID: 2VtzqukDLSr У команды Тинькофф есть своя лаборатория в МФТИ, где сотрудники и лаборанты работают над задачами в сфере ИИ. Несколько раз в год они проводят Tinkoff Lab Event, на котором рассказывают о свежих проектах. И 9 ноября как раз пройдет очередное мероприятие. Что-то вроде отчетного концерта, но про науку и искусственный интеллект 💫 Будут доклады лаборантов, сессия вопросов и ответов с менторами и руководителями, много неформального общения и пицца. Если вы не в Москве — не беда, для иногородних участников организаторы предусмотрели трансляцию. Явки и пароли: 9 ноября в 19:00 в штаб-квартире Тинькофф в БЦ «Водный», подробности и регистрация тут Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673

30 031

👉 Reinforcement Learning Серия простых методов и учебных пособий по обучению с подкреплением, охватывающая как базовые алгоритмы RL, так и недавно разработанные и обновленные усовершенствованные алгоритмы. 🖥 Github @machinelearning_interview

30 031

Erid:2VtzqxJMzEK Регистрация на отборочный этап Всероссийского хакатона по биометрии! Если ты молодой специалист, жаждущий новых вызовов и возможностей, не упусти шанс побороться за часть призового фонда в размере 1.000.000 рублей! Зарегистрируйся на отборочный тур прямо сейчас, выбери кейс и стань частью Всероссийского хакатона по биометрии. Кейсы: • Разработка инструмента для создания дипфейков • Разработка инструмента для обнаружения дипфейков • Фронтальный алгоритм защиты от атак предъявления для лицевой биометрии • Решения для использования новых биометрических модальностей на пользовательских устройствах Хакатон пройдёт в два этапа: • Отборочный тур онлайн 10-12 ноября • Финал офлайн 25 ноября в Москве Победители соревнования получат ценные призы и возможность представить свои проекты перед экспертами и топ-менеджерами биометрических вендоров и крупных технологических компаний. Мероприятие проводится при поддержке Центра Биометрических Технологий. Генеральный партнёр мероприятия – Сбер, официальные партнёры – IT-компании «InnoView», Ovision. Хакатон проводится при поддержке Минспорта, Федерации Спортивного Программирования и Минцифры. Даты отборочного этапа в онлайн-формате: 10-12 ноября 2023 года Даты финала: 25 ноября 2023 года Место: Москва Формат: смешанный (отборочный этап в онлайн-формате, а финал – на площадке в Москве) Подробности и регистрация до 6 ноября 2023 года по ссылке: https://clck.ru/36PH5y Собирай команду, решай задачу и выигрывай на Всероссийском хакатоне по биометрии Реклама. ООО «Акселератор Возможностей». ИНН 9704005146

30 031

⚡️ 20 сайтов, на которых можно найти удаленную работу с оплатой в долларах США 1. Remote. co: https://remote.co 2. We Work Remotely: https://weworkremotely.com 3. FlexJobs: https://flexjobs.com 4. Remote OK: https://remoteok.io 5. Working Nomads: https://workingnomads.co/jobs 6. Jobspresso: https://jobspresso.co 7. Stack Overflow Jobs: https://stackoverflow.com/jobs 8. AngelList: https://angel.co 9. LinkedIn: https://linkedin.com 10. SkipTheDrive: https://skipthedrive.com 11. Remotive: https://remotive.io 12. Виртуальные профессии: https://virtualvocations.com 13. JustRemote: https://justremote.co 14. Удаленная техническая работа: https://remotetechwork.com 15. Dynamite Jobs: https://dynamitejobs.co 16. Pangian: https://pangian.com 17. Outsourcely: https://outsourcely.com 18. Remote Woman: https://remotewoman.com 19. Jobmote: https://jobmote.com 20. EuropeRemotely: https://europeremotely.com @machinelearning_interview

30 031

🚀 20 сайтов, на которых можно найти удаленную работу с оплатой в долларах США 1. Remote. co: https://remote.co 2. We Work Remotely: https://weworkremotely.com 3. FlexJobs: https://flexjobs.com 4. Remote OK: https://remoteok.io 5. Working Nomads: https://workingnomads.co/jobs 6. Jobspresso: https://jobspresso.co 7. Stack Overflow Jobs: https://stackoverflow.com/jobs 8. AngelList: https://angel.co 9. LinkedIn: https://linkedin.com 10. SkipTheDrive: https://skipthedrive.com 11. Remotive: https://remotive.io 12. Виртуальные профессии: https://virtualvocations.com 13. JustRemote: https://justremote.co 14. Удаленная техническая работа: https://remotetechwork.com 15. Dynamite Jobs: https://dynamitejobs.co 16. Pangian: https://pangian.com 17. Outsourcely: https://outsourcely.com 18. Remote Woman: https://remotewoman.com 19. Jobmote: https://jobmote.com 20. EuropeRemotely: https://europeremotely.com @machinelearning_interview

30 031

Теория, лежащая в основе шардинга баз данных, кажется простой. Но как она реализуется в реальных базах данных? Рассмотрим это на примере MongoDB (одной из самых популярных баз данных NoSQL) Основы Для шардинга в MongoDB необходим кластер. Кластер - это группа взаимосвязанных серверов или узлов. Для горизонтального масштабирования можно просто увеличить количество серверов. Кластер состоит из трех частей: - Шард - Маршрутизатор Mongos - Маршрутизатор конфигурации Рассмотрим каждую часть: ✅ Шард Шард - это подмножество данных. Данные разделяются между группой шардов. Каждый шард развертывается как набор реплик. Это замечательная вещь... ...потому что вы получаете репликацию и автоматическое восстановление данных после отказа системы. Но никаких прямых запросов к шарду не поступает. ✅ Маршрутизатор Mongos Mongos Router играет ключевую роль в кластере Все запросы направляются на Mongos Router. Он выполняет две важнейшие задачи: - Маршрутизация запросов и балансировка нагрузки - Кэширование метаданных Маршрутизатор выступает в роли посредника для получения данных с реальных шардов. ✅ Серверы конфигурации Серверы конфигурации работают как отдельный набор реплик. Они хранят метаданные для кластера шардов MongoDB. Метаданные - это как индекс для вашего кластера. В них хранится такая информация, как: - Как организованы данные? - Какие компоненты присутствуют в кластере. Вот как выглядит весь процесс: - Код приложения запрашивает данные - Маршрутизатор Mongos получает запрос - Маршрутизатор проверяет сервер Config Server, чтобы найти, на каком шарде находятся данные - Запрос направляется на соответствующий шард - Данные возвращаются в приложение

30 031

❗️Как легко получить Spark кластер на 10 узлов? Современные облачные инфраструктуры позволяют сделать это всего за несколько шагов. ▶️ 9 ноября в 20:00 мск в рамках онлайн-курса MLOps от OTUS пройдёт открытый урок «Big Data в облаках». На открытом уроке: 🔹Рассмотрим как создать в Yandex Cloud Spark кластер. 🔹 Что лучше использовать в качестве хранилища: HDFS или S3. 🔹 Как можно экономить за счет динамического выделения ресурсов. ✅ Владение инструментами MLOps открывает новые карьерные горизонты специалистам ML, Data Scientist’ам и Software инженерам. 👉 РЕГИСТРАЦИЯ https://otus.ru/lessons/ml-bigdata/?utm_source=telegram&utm_medium=cpm&utm_campaign=ml-bigdata&utm_content=lesson-09-11-2023&utm_term=machinelearning_interview#event-3489 Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KMZ4J

30 031

🔥 Дайджест полезных материалов из мира Машинного обучения за неделю Почитать: — Как мы определили веса алгоритмов ранжирования крупнейших маркетплейсов на открытых данных — ИИ выходит на новый уровень: LLM обретают пространственно-временную картину мира — MLOps-инструменты, обзоры рынка и тренды потоковой обработки данных — От Style Transfer до диффузии: эволюция визуальных эффектов на смартфонах — Объясняем простым языком, что такое трансформеры — Машинное обучение помогает классическому моделированию квантовых систем — Борьба с несбалансированными данными — Как экспертиза в области мониторинга событий ИБ помогает создавать качественные продукты. Часть 3 — Предсказание остановок оборудования с использованием LSTM и Байесовского подхода — Как получить полезную информацию из своих категориальных признаков? — why learn web (javascript) ML(machine learning) 2024 — Getting Started with Machine Learning: A Beginner's Guide — La IA — The Hydra of Machine Learning: Understanding Multi-headed Attention — Interpreting Loan Predictions with TrustyAI: Part 1 — BakaLLM, part 7: XL struggles are done, for now — The Complete Guide to Time Series Models — How to Land a Job as an AI Engineer 🤖 — How to train an Iris dataset classifier with Tinygrad — Take your career to the next level: GitHub Universe create your own agenda Посмотреть: 🌐 Making Private Data Open and Enhancing Decision-Making through Digital Atlases (⏱ 28:27) Хорошего дня!

30 031

Как использовать машинное обучение для оптимизации производства? Узнайте на примере реальных кейсов на бесплатном онлайн-митапе «Лучше практики MLOps в бизнесе. Опыт FinTech и Security индустрий» от OTUS. После эфира вы сможете: 🔹 Найти и выстроить процессы, связанные с машинным обучением 🔹 Понять, как работать с эффективностью данных проектов 🔹 Избежать основных ошибок руководителя 🔹 Получить ответы на свои вопросы от опытного эксперта Встречаемся в следующий вторник, 31 октября в 19:00 мск. 💻Эфир будет в формате конференции и после каждого блока вы сможете задать любые вопросы спикеру Павлу Филонову – ex-Kaspersky, ex-Positive technologies Data Science Manager с опытом в IT 15 лет. 👉Регистрируйтесь бесплатно прямо сейчас и забирайте чек-лист «Список технологий, нужный для MLOps» в подарок: https://otus.pw/CehC/ Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8K3h7L

30 031

📌 Расскажите про методы сбалансирования данных. Часть 1. Взвешивание классов (Class Weighting) Одним из первых методов, которые стоит рассмотреть, является взвешивание классов, или Class Weighting. Этот метод позволяет учесть дисбаланс между классами в процессе обучения модели. Он основан на идее того, что модель будет штрафовать более сильно за ошибки в классе-меньшинстве, поощряя более точное предсказание. Принцип работы взвешивания классов заключается в присвоении разных весов каждому классу в зависимости от его доли в данных. Это позволяет модели лучше справляться с классом-меньшинством. Пример 1: Взвешивание классов в библиотеке Scikit-learn (Python) from sklearn.ensemble import RandomForestClassifier from sklearn.utils.class_weight import compute_class_weight # Получение весов классов class_weights = compute_class_weight('balanced', classes=np.unique(y), y=y) # Создание модели с взвешиванием классов model = RandomForestClassifier(class_weight=dict(enumerate(class_weights))) В приведенном коде мы используем библиотеку Scikit-learn для вычисления весов классов с помощью compute_class_weight. Параметр 'balanced' автоматически вычисляет веса классов на основе их доли в данных. Затем мы передаем эти веса в нашу модель случайного леса, что позволяет учесть дисбаланс классов. Пример 2: Взвешивание классов в TensorFlow (Python) import tensorflow as tf # Создание модели model = tf.keras.Sequential([ # добавьте слои вашей модели ]) # Определение весов классов class_weights = { 0: 1.0, # Вес для класса 0 1: 10.0, # Вес для класса 1 (пример взвешивания, где класс-меньшинство получает более высокий вес) } # Компиляция модели с учетом весов классов model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'], class_weight=class_weights) В данном примере мы создаем нейронную сеть с использованием TensorFlow и задаем веса классов вручную с помощью словаря class_weights. Здесь класс-меньшинство (класс 1) получает более высокий вес (10.0), что отражает нашу попытку сбалансировать дисбаланс данных. Увеличение (Oversampling) и уменьшение (Undersampling) выборки Одним из основных способов борьбы с несбалансированными данными является увеличение (oversampling) и уменьшение (undersampling) выборки. Эти методы направлены на достижение баланса между классами путем изменения количества примеров в каждом классе. Увеличение выборки (Oversampling) Увеличение выборки заключается в добавлении дополнительных примеров класса-меньшинства, чтобы сделать его более представительным. Это можно сделать различными способами, например, путем дублирования существующих примеров, генерации синтетических данных или комбинирования этих методов. Пример 1: Увеличение выборки с использованием библиотеки imbalanced-learn (Python) from imblearn.over_sampling import RandomOverSampler # Создание экземпляра RandomOverSampler ros = RandomOverSampler() # Применение увеличения выборки к данным X_resampled, y_resampled = ros.fit_resample(X, y) В этом примере мы используем библиотеку imbalanced-learn для увеличения выборки с помощью RandomOverSampler. Этот метод случайным образом выбирает примеры из класса-меньшинства и дублирует их, пока не достигнется баланс. Уменьшение выборки (Undersampling) Уменьшение выборки заключается в уменьшении количества примеров в классе-большинстве, чтобы сделать его менее доминирующим. Это может быть полезным, если дублирование примеров класса-меньшинства нежелательно. Пример 2: Уменьшение выборки с использованием библиотеки imbalanced-learn (Python) from imblearn.under_sampling import RandomUnderSampler # Создание экземпляра RandomUnderSampler rus = RandomUnderSampler() # Применение уменьшения выборки к данным X_resampled, y_resampled = rus.fit_resample(X, y) Здесь мы используем библиотеку imbalanced-learn для уменьшения выборки с помощью RandomUnderSampler. Этот метод случайным образом удаляет примеры из класса-большинства до достижения баланса. @machinelearning_interview

30 031

Если вы работаете с кодом или данными, а хотите попробовать себя в чём-то новом, присмотритесь к профессии ML-инженера. В ней вы сможете применить наработанные знания и опыт, не придётся начинать всё «с нуля». Понять, будет ли вам интересно в этой сфере, можно на курсе Яндекс Практикума. В программе не будет основ, которые вам уже знакомы, только прикладные знания и практические задания. За 4 месяца: — вы поймёте, как переводить бизнес-задачу на язык машинного обучения, — научитесь строить продвинутые ML-модели, — создадите 3 сервиса в облаке для решения задач бизнеса. Начните бесплатную часть этого курса до 30 ноября и получите промокод со скидкой 20%. Пусть Чёрная Пятница станет поводом сделать карьерный рывок!

30 031

Для оценки способности обобщения нейронной сети на новых данных мы разбиваем датасет на три части. 1️⃣ обучающий набор данных для подгонки модели 2️⃣ валидационный набор данных для настройки модели 3️⃣ тестовый набор для оценки производительности окончательной модели. Простой сниппет кода с пояснение на PyTorch Lightning, чтобы сделать это без проблем ⚡ 📌 Подробнее @machinelearning_interview

30 031

Открыта регистрация на отборочный этап Всероссийского хакатона по биометрии с призовым фондом 1 000 000 рублей! ⠀ Тебе предстоит решить интересные задачи, чтобы победить в отборочном туре и принять участие в финале Всероссийского хакатона по биометрии, который пройдет уже 24-25 ноября в Москве. Кейсы: • Создание дипфейков для тестирования • Обнаружение дипфейков • Некооперативный фронтальный алгоритм защиты от атак предъявления • Решения для использования новых биометрических модальностей на пользовательских устройствах ⠀ ⠀ 🗓 Даты отборочного этапа в ОНЛАЙН-ФОРМАТЕ: 3-5 ноября 2023 года ❗️Даты финала: 24-25 ноября 2023 года 📍 Место: Москва ❗️ Формат: смешанный (отборочный этап в онлайн-формате, а финал на площадке в Москве) 👉 Регистрация на отборочный тур открыта до 29 октября 2023 года: https://tglink.io/a695c6866d5b Реклама. ООО "АКСЕЛЕРАТОР ВОЗМОЖНОСТЕЙ". ИНН 9704005146. erid: LjN8KYt6z

30 031

🔥 Большое обновление: Meta's Long Llama обошла GPT-3.5 в длинных контекстах и сравнялась с GPT-4 в обобщении. Основные моменты: ▸ Контекст: Поддерживает до 32 тыс. ▸ Производительность: Сравнивается с GPT-4 в суммировании, выигрывает у GPT-3.5 в длинных задачах. ▸ Эффективность: на 40% меньше вычислительных затрат при той же производительности. Технические характеристики: ▸ Позиционное кодирование: Внесены изменения для улучшения работы с длинными текстами. ▸ Дополнительное обучение: Использовано больше наборов данных, включая длинные тексты. Настройка инструкции: ▸ Задачи QA: Генерируются из длинных документов. ▸ Валидация: Llama 2 70B проверила пары QA. ▸ Тонкая настройка: Использовались синтетические данные и данные коротких инструкций. arxiv.org/abs/2309.16039

30 031

⚡В OTUS стартует набор в группу курса Reinforcement Learning. Отправьте заявку, для того чтобы получить доступ к открытым урокам и получите скидку на обучение. 31.10 в 20.00 (мск) приглашаем на welcome-вебинар «Основные алгоритмы в обучении с подкреплением» 📌На занятии вы: - познакомитесь с основными алгоритмами обучения с подкреплением; - узнаете, как применять нейросети для обучения агентов, как обучить агента в среде с дискретным и непрерывным набором действий; - изучите многообразие алгоритмов обучения с подкреплением и выбор наиболее подходящих из них. 👉Регистрация https://otus.pw/SJiV/ После прохождения курса студенты поймут сильные и слабые стороны основных алгоритмов RL и научатся применять их для решения разнообразных задач в реальном мире, включая игровую индустрию, робототехнику, управление энергетическими системами и управление финансовым портфелем. При оплате курса возможны разные способы оплаты и рассрочка платежа Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KbLVB