Machine learning Interview
前往频道在 Telegram
ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz
显示更多📈 Telegram 频道 Machine learning Interview 的分析概览
频道 Machine learning Interview (@machinelearning_interview) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 30 032 名订阅者,在 技术与应用 类别中位列第 4 585,并在 俄罗斯 地区排名第 21 928 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 30 032 名订阅者。
根据 14 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 41,过去 24 小时变化为 -8,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 20.73%。内容发布后 24 小时内通常能获得 7.14% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 6 226 次浏览,首日通常累积 2 143 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 39。
- 主题关注点: 内容集中在 claude, llm, контекст, hermes, nvidia 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно!
Вопросы - @workakkk
РКН: clck.ru/3FmwRz”
凭借高频更新(最新数据采集于 16 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
30 032
订阅者
-824 小时
-97 天
+4130 天
帖子存档
🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода.
Все, что вам нужно сделать, это:
%load_ext cudf.pandas
import pandas as pd
Их библиотека RAPIDS автоматически определяет, работаете ли вы на GPU или CPU, и ускоряет обработку.
Попробовать можно здесь: https://colab.research.google.com/drive/12tCzP94zFG2BRduACucn5Q_OcX1TUKY3
Repo: https://github.com/rapidsai/cudf
@data_analysis_mlКак создают цифровых аватаров и автономные машины?
Короткий ответ: используя технологии и подходы из трехмерного компьютерного зрения.
Но если вам интересно узнать подробнее и вы хотите познакомиться с областью 3D Computer Vision, приходите на открытую лекцию от команды DeepSchool!
На лекции вы узнаете:
- какие задачи решают в 3D CV
- почему таких задач становится больше
- с чего начать погружение в эту область
- почему CV-инженеру важно знакомиться с 3D
- что такое SLAM, SfM, SMPL, NeRF и другие баззворды 🐝
Лекию будут вести:
- Давид Свитов, PhD, Samsung AI Center
- Тимур Фатыхов, основатель DeepSchool, ex Lead CV-engineer KoronaPay
Также ребята представят программу курса "3D Computer Vision" и подарят скидки участникам!
📌 Лекция пройдет в субботу, 11 ноября, 12:00 мск
💡 Всем, кто зарегистрируется на встречу, мы отправим miro-схему с описанием направлений и инструментов в 3D — поможет быстро сориентироваться и погрузиться.
Регистрируйтесь по ссылке!
@machinelearning_interview
1cd46cb_356f_7c4d_2772_701708b4e3d4_real_time_pipeline_betta.webp0.44 KB
Хотите научиться строить полноценный ML конвейер в реальном времени 🛠️
Гайд по его созданию Шаг за шагом На Python 𓊍:
https://www.realworldml.xyz/blog/real-time-pipelines-in-python
@machinelearning_interview
🚀 Представлена Embed-v3 - новейшая модель эмбединга текста.
Embed-v3 превосходит системы семантического поиска и RAG и обладает улучшенной оценкой качества контента и высокой эффективностью.
http://clarifai.com/cohere/embed/models/cohere-embed-english-v3_0
@machinelearning_interview
ERID: 2VtzqukDLSr
У команды Тинькофф есть своя лаборатория в МФТИ, где сотрудники и лаборанты работают над задачами в сфере ИИ. Несколько раз в год они проводят Tinkoff Lab Event, на котором рассказывают о свежих проектах. И 9 ноября как раз пройдет очередное мероприятие. Что-то вроде отчетного концерта, но про науку и искусственный интеллект 💫
Будут доклады лаборантов, сессия вопросов и ответов с менторами и руководителями, много неформального общения и пицца. Если вы не в Москве — не беда, для иногородних участников организаторы предусмотрели трансляцию.
Явки и пароли: 9 ноября в 19:00 в штаб-квартире Тинькофф в БЦ «Водный», подробности и регистрация тут
Реклама. АО "Тинькофф Банк",
ИНН 7710140679, лицензия ЦБ РФ № 2673
👉 Reinforcement Learning
Серия простых методов и учебных пособий по обучению с подкреплением, охватывающая как базовые алгоритмы RL, так и недавно разработанные и обновленные усовершенствованные алгоритмы.
🖥 Github
@machinelearning_interview
Erid:2VtzqxJMzEK
Регистрация на отборочный этап Всероссийского хакатона по биометрии!
Если ты молодой специалист, жаждущий новых вызовов и возможностей, не упусти шанс побороться за часть призового фонда в размере 1.000.000 рублей! Зарегистрируйся на отборочный тур прямо сейчас, выбери кейс и стань частью Всероссийского хакатона по биометрии.
Кейсы:
• Разработка инструмента для создания дипфейков
• Разработка инструмента для обнаружения дипфейков
• Фронтальный алгоритм защиты от атак предъявления для лицевой биометрии
• Решения для использования новых биометрических модальностей на пользовательских устройствах
Хакатон пройдёт в два этапа:
• Отборочный тур онлайн 10-12 ноября
• Финал офлайн 25 ноября в Москве
Победители соревнования получат ценные призы и возможность представить свои проекты перед экспертами и топ-менеджерами биометрических вендоров и крупных технологических компаний. Мероприятие проводится при поддержке Центра Биометрических Технологий. Генеральный партнёр мероприятия – Сбер, официальные партнёры – IT-компании «InnoView», Ovision. Хакатон проводится при поддержке Минспорта, Федерации Спортивного Программирования и Минцифры.
Даты отборочного этапа в онлайн-формате: 10-12 ноября 2023 года
Даты финала: 25 ноября 2023 года
Место: Москва
Формат: смешанный (отборочный этап в онлайн-формате, а финал – на площадке в Москве)
Подробности и регистрация до 6 ноября 2023 года по ссылке: https://clck.ru/36PH5y
Собирай команду, решай задачу и выигрывай на Всероссийском хакатоне по биометрии
Реклама. ООО «Акселератор Возможностей». ИНН 9704005146
⚡️ 20 сайтов, на которых можно найти удаленную работу с оплатой в долларах США
1. Remote. co: https://remote.co
2. We Work Remotely: https://weworkremotely.com
3. FlexJobs: https://flexjobs.com
4. Remote OK: https://remoteok.io
5. Working Nomads: https://workingnomads.co/jobs
6. Jobspresso: https://jobspresso.co
7. Stack Overflow Jobs: https://stackoverflow.com/jobs
8. AngelList: https://angel.co
9. LinkedIn: https://linkedin.com
10. SkipTheDrive: https://skipthedrive.com
11. Remotive: https://remotive.io
12. Виртуальные профессии: https://virtualvocations.com
13. JustRemote: https://justremote.co
14. Удаленная техническая работа: https://remotetechwork.com
15. Dynamite Jobs: https://dynamitejobs.co
16. Pangian: https://pangian.com
17. Outsourcely: https://outsourcely.com
18. Remote Woman: https://remotewoman.com
19. Jobmote: https://jobmote.com
20. EuropeRemotely: https://europeremotely.com
@machinelearning_interview
🚀 20 сайтов, на которых можно найти удаленную работу с оплатой в долларах США
1. Remote. co: https://remote.co
2. We Work Remotely: https://weworkremotely.com
3. FlexJobs: https://flexjobs.com
4. Remote OK: https://remoteok.io
5. Working Nomads: https://workingnomads.co/jobs
6. Jobspresso: https://jobspresso.co
7. Stack Overflow Jobs: https://stackoverflow.com/jobs
8. AngelList: https://angel.co
9. LinkedIn: https://linkedin.com
10. SkipTheDrive: https://skipthedrive.com
11. Remotive: https://remotive.io
12. Виртуальные профессии: https://virtualvocations.com
13. JustRemote: https://justremote.co
14. Удаленная техническая работа: https://remotetechwork.com
15. Dynamite Jobs: https://dynamitejobs.co
16. Pangian: https://pangian.com
17. Outsourcely: https://outsourcely.com
18. Remote Woman: https://remotewoman.com
19. Jobmote: https://jobmote.com
20. EuropeRemotely: https://europeremotely.com
@machinelearning_interview
Теория, лежащая в основе шардинга баз данных, кажется простой.
Но как она реализуется в реальных базах данных?
Рассмотрим это на примере MongoDB (одной из самых популярных баз данных NoSQL)
Основы
Для шардинга в MongoDB необходим кластер.
Кластер - это группа взаимосвязанных серверов или узлов.
Для горизонтального масштабирования можно просто увеличить количество серверов.
Кластер состоит из трех частей:
- Шард
- Маршрутизатор Mongos
- Маршрутизатор конфигурации
Рассмотрим каждую часть:
✅ Шард
Шард - это подмножество данных.
Данные разделяются между группой шардов.
Каждый шард развертывается как набор реплик.
Это замечательная вещь...
...потому что вы получаете репликацию и автоматическое восстановление данных после отказа системы.
Но никаких прямых запросов к шарду не поступает.
✅ Маршрутизатор Mongos
Mongos Router играет ключевую роль в кластере Все запросы направляются на Mongos Router.
Он выполняет две важнейшие задачи:
- Маршрутизация запросов и балансировка нагрузки
- Кэширование метаданных
Маршрутизатор выступает в роли посредника для получения данных с реальных шардов.
✅ Серверы конфигурации
Серверы конфигурации работают как отдельный набор реплик.
Они хранят метаданные для кластера шардов MongoDB.
Метаданные - это как индекс для вашего кластера.
В них хранится такая информация, как:
- Как организованы данные?
- Какие компоненты присутствуют в кластере.
Вот как выглядит весь процесс:
- Код приложения запрашивает данные
- Маршрутизатор Mongos получает запрос
- Маршрутизатор проверяет сервер Config Server, чтобы найти, на каком шарде находятся данные
- Запрос направляется на соответствующий шард
- Данные возвращаются в приложение
❗️Как легко получить Spark кластер на 10 узлов?
Современные облачные инфраструктуры позволяют сделать это всего за несколько шагов.
▶️ 9 ноября в 20:00 мск в рамках онлайн-курса MLOps от OTUS пройдёт открытый урок «Big Data в облаках».
На открытом уроке:
🔹Рассмотрим как создать в Yandex Cloud Spark кластер.
🔹 Что лучше использовать в качестве хранилища: HDFS или S3.
🔹 Как можно экономить за счет динамического выделения ресурсов.
✅ Владение инструментами MLOps открывает новые карьерные горизонты специалистам ML, Data Scientist’ам и Software инженерам.
👉 РЕГИСТРАЦИЯ
https://otus.ru/lessons/ml-bigdata/?utm_source=telegram&utm_medium=cpm&utm_campaign=ml-bigdata&utm_content=lesson-09-11-2023&utm_term=machinelearning_interview#event-3489
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KMZ4J
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю
Почитать:
— Как мы определили веса алгоритмов ранжирования крупнейших маркетплейсов на открытых данных
— ИИ выходит на новый уровень: LLM обретают пространственно-временную картину мира
— MLOps-инструменты, обзоры рынка и тренды потоковой обработки данных
— От Style Transfer до диффузии: эволюция визуальных эффектов на смартфонах
— Объясняем простым языком, что такое трансформеры
— Машинное обучение помогает классическому моделированию квантовых систем
— Борьба с несбалансированными данными
— Как экспертиза в области мониторинга событий ИБ помогает создавать качественные продукты. Часть 3
— Предсказание остановок оборудования с использованием LSTM и Байесовского подхода
— Как получить полезную информацию из своих категориальных признаков?
— why learn web (javascript) ML(machine learning) 2024
— Getting Started with Machine Learning: A Beginner's Guide
— La IA
— The Hydra of Machine Learning: Understanding Multi-headed Attention
— Interpreting Loan Predictions with TrustyAI: Part 1
— BakaLLM, part 7: XL struggles are done, for now
— The Complete Guide to Time Series Models
— How to Land a Job as an AI Engineer 🤖
— How to train an Iris dataset classifier with Tinygrad
— Take your career to the next level: GitHub Universe create your own agenda
Посмотреть:
🌐 Making Private Data Open and Enhancing Decision-Making through Digital Atlases (⏱ 28:27)
Хорошего дня!
Как использовать машинное обучение для оптимизации производства?
Узнайте на примере реальных кейсов на бесплатном онлайн-митапе «Лучше практики MLOps в бизнесе. Опыт FinTech и Security индустрий» от OTUS.
После эфира вы сможете:
🔹 Найти и выстроить процессы, связанные с машинным обучением
🔹 Понять, как работать с эффективностью данных проектов
🔹 Избежать основных ошибок руководителя
🔹 Получить ответы на свои вопросы от опытного эксперта
Встречаемся в следующий вторник, 31 октября в 19:00 мск.
💻Эфир будет в формате конференции и после каждого блока вы сможете задать любые вопросы спикеру Павлу Филонову – ex-Kaspersky, ex-Positive technologies Data Science Manager с опытом в IT 15 лет.
👉Регистрируйтесь бесплатно прямо сейчас и забирайте чек-лист «Список технологий, нужный для MLOps» в подарок: https://otus.pw/CehC/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8K3h7L
📌 Расскажите про методы сбалансирования данных. Часть 1.
Взвешивание классов (Class Weighting)
Одним из первых методов, которые стоит рассмотреть, является взвешивание классов, или Class Weighting. Этот метод позволяет учесть дисбаланс между классами в процессе обучения модели. Он основан на идее того, что модель будет штрафовать более сильно за ошибки в классе-меньшинстве, поощряя более точное предсказание.
Принцип работы взвешивания классов заключается в присвоении разных весов каждому классу в зависимости от его доли в данных. Это позволяет модели лучше справляться с классом-меньшинством.
Пример 1: Взвешивание классов в библиотеке Scikit-learn (Python)
from sklearn.ensemble import RandomForestClassifier
from sklearn.utils.class_weight import compute_class_weight
# Получение весов классов
class_weights = compute_class_weight('balanced', classes=np.unique(y), y=y)
# Создание модели с взвешиванием классов
model = RandomForestClassifier(class_weight=dict(enumerate(class_weights)))
В приведенном коде мы используем библиотеку Scikit-learn для вычисления весов классов с помощью compute_class_weight. Параметр 'balanced' автоматически вычисляет веса классов на основе их доли в данных. Затем мы передаем эти веса в нашу модель случайного леса, что позволяет учесть дисбаланс классов.
Пример 2: Взвешивание классов в TensorFlow (Python)
import tensorflow as tf
# Создание модели
model = tf.keras.Sequential([
# добавьте слои вашей модели
])
# Определение весов классов
class_weights = {
0: 1.0, # Вес для класса 0
1: 10.0, # Вес для класса 1 (пример взвешивания, где класс-меньшинство получает более высокий вес)
}
# Компиляция модели с учетом весов классов
model.compile(optimizer='adam',
loss='sparse_categorical_crossentropy',
metrics=['accuracy'],
class_weight=class_weights)
В данном примере мы создаем нейронную сеть с использованием TensorFlow и задаем веса классов вручную с помощью словаря class_weights. Здесь класс-меньшинство (класс 1) получает более высокий вес (10.0), что отражает нашу попытку сбалансировать дисбаланс данных.
Увеличение (Oversampling) и уменьшение (Undersampling) выборки
Одним из основных способов борьбы с несбалансированными данными является увеличение (oversampling) и уменьшение (undersampling) выборки. Эти методы направлены на достижение баланса между классами путем изменения количества примеров в каждом классе.
Увеличение выборки (Oversampling)
Увеличение выборки заключается в добавлении дополнительных примеров класса-меньшинства, чтобы сделать его более представительным. Это можно сделать различными способами, например, путем дублирования существующих примеров, генерации синтетических данных или комбинирования этих методов.
Пример 1: Увеличение выборки с использованием библиотеки imbalanced-learn (Python)
from imblearn.over_sampling import RandomOverSampler
# Создание экземпляра RandomOverSampler
ros = RandomOverSampler()
# Применение увеличения выборки к данным
X_resampled, y_resampled = ros.fit_resample(X, y)
В этом примере мы используем библиотеку imbalanced-learn для увеличения выборки с помощью RandomOverSampler. Этот метод случайным образом выбирает примеры из класса-меньшинства и дублирует их, пока не достигнется баланс.
Уменьшение выборки (Undersampling)
Уменьшение выборки заключается в уменьшении количества примеров в классе-большинстве, чтобы сделать его менее доминирующим. Это может быть полезным, если дублирование примеров класса-меньшинства нежелательно.
Пример 2: Уменьшение выборки с использованием библиотеки imbalanced-learn (Python)
from imblearn.under_sampling import RandomUnderSampler
# Создание экземпляра RandomUnderSampler
rus = RandomUnderSampler()
# Применение уменьшения выборки к данным
X_resampled, y_resampled = rus.fit_resample(X, y)
Здесь мы используем библиотеку imbalanced-learn для уменьшения выборки с помощью RandomUnderSampler. Этот метод случайным образом удаляет примеры из класса-большинства до достижения баланса.
@machinelearning_interview
Если вы работаете с кодом или данными, а хотите попробовать себя в чём-то новом, присмотритесь к профессии ML-инженера. В ней вы сможете применить наработанные знания и опыт, не придётся начинать всё «с нуля».
Понять, будет ли вам интересно в этой сфере, можно на курсе Яндекс Практикума. В программе не будет основ, которые вам уже знакомы, только прикладные знания и практические задания.
За 4 месяца:
— вы поймёте, как переводить бизнес-задачу на язык машинного обучения,
— научитесь строить продвинутые ML-модели,
— создадите 3 сервиса в облаке для решения задач бизнеса.
Начните бесплатную часть этого курса до 30 ноября и получите промокод со скидкой 20%. Пусть Чёрная Пятница станет поводом сделать карьерный рывок!
Для оценки способности обобщения нейронной сети на новых данных мы разбиваем датасет на три части.
1️⃣ обучающий набор данных для подгонки модели
2️⃣ валидационный набор данных для настройки модели
3️⃣ тестовый набор для оценки производительности окончательной модели.
Простой сниппет кода с пояснение на PyTorch Lightning, чтобы сделать это без проблем ⚡
📌 Подробнее
@machinelearning_interview
Открыта регистрация на отборочный этап Всероссийского хакатона по биометрии с призовым фондом 1 000 000 рублей!
⠀
Тебе предстоит решить интересные задачи, чтобы победить в отборочном туре и принять участие в финале Всероссийского хакатона по биометрии, который пройдет уже 24-25 ноября в Москве.
Кейсы:
• Создание дипфейков для тестирования
• Обнаружение дипфейков
• Некооперативный фронтальный алгоритм защиты от атак предъявления
• Решения для использования новых биометрических модальностей на пользовательских устройствах
⠀ ⠀
🗓 Даты отборочного этапа в ОНЛАЙН-ФОРМАТЕ: 3-5 ноября 2023 года
❗️Даты финала: 24-25 ноября 2023 года 📍 Место: Москва
❗️ Формат: смешанный (отборочный этап в онлайн-формате, а финал на площадке в Москве)
👉 Регистрация на отборочный тур открыта до 29 октября 2023 года: https://tglink.io/a695c6866d5b
Реклама. ООО "АКСЕЛЕРАТОР ВОЗМОЖНОСТЕЙ". ИНН 9704005146. erid: LjN8KYt6z
🔥 Большое обновление: Meta's Long Llama обошла GPT-3.5 в длинных контекстах и сравнялась с GPT-4 в обобщении.
Основные моменты:
▸ Контекст: Поддерживает до 32 тыс.
▸ Производительность: Сравнивается с GPT-4 в суммировании, выигрывает у GPT-3.5 в длинных задачах.
▸ Эффективность: на 40% меньше вычислительных затрат при той же производительности.
Технические характеристики:
▸ Позиционное кодирование: Внесены изменения для улучшения работы с длинными текстами.
▸ Дополнительное обучение: Использовано больше наборов данных, включая длинные тексты.
Настройка инструкции:
▸ Задачи QA: Генерируются из длинных документов.
▸ Валидация: Llama 2 70B проверила пары QA.
▸ Тонкая настройка: Использовались синтетические данные и данные коротких инструкций.
arxiv.org/abs/2309.16039
⚡В OTUS стартует набор в группу курса Reinforcement Learning. Отправьте заявку, для того чтобы получить доступ к открытым урокам и получите скидку на обучение.
31.10 в 20.00 (мск) приглашаем на welcome-вебинар «Основные алгоритмы в обучении с подкреплением»
📌На занятии вы:
- познакомитесь с основными алгоритмами обучения с подкреплением;
- узнаете, как применять нейросети для обучения агентов, как обучить агента в среде с дискретным и непрерывным набором действий;
- изучите многообразие алгоритмов обучения с подкреплением и выбор наиболее подходящих из них.
👉Регистрация https://otus.pw/SJiV/
После прохождения курса студенты поймут сильные и слабые стороны основных алгоритмов RL и научатся применять их для решения разнообразных задач в реальном мире, включая игровую индустрию, робототехнику, управление энергетическими системами и управление финансовым портфелем.
При оплате курса возможны разные способы оплаты и рассрочка платежа
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KbLVB
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
