Machine learning Interview
前往频道在 Telegram
ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz
显示更多📈 Telegram 频道 Machine learning Interview 的分析概览
频道 Machine learning Interview (@machinelearning_interview) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 30 045 名订阅者,在 技术与应用 类别中位列第 4 579,并在 俄罗斯 地区排名第 21 921 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 30 045 名订阅者。
根据 13 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 40,过去 24 小时变化为 8,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 21.14%。内容发布后 24 小时内通常能获得 7.35% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 6 350 次浏览,首日通常累积 2 208 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 40。
- 主题关注点: 内容集中在 claude, llm, контекст, hermes, nvidia 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно!
Вопросы - @workakkk
РКН: clck.ru/3FmwRz”
凭借高频更新(最新数据采集于 14 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
30 045
订阅者
+824 小时
-77 天
+4030 天
帖子存档
+1
💼 Обратное собеседование (reverse-interview) это списка вопросов соискателем должности технического специалиста для потенциального работодателя.
Это список вопросов, который может быть интересен соискателю должности технического специалиста.
Пункты не упорядочены и могут быть неприменимы к конкретной должности или виду работы. Вначале это был просто список вопросов, но со временем он стал включать ещё и те вещи, которых хотелось бы видеть больше, и «красные флажки», то есть вещи, которых хочется избегать. Ещё я обратил внимание, что многие люди, которых я собеседовал, не задавали эти вопросы, и, я думаю, это были упущенные возможности.
Разделы вопросов:
- Технологии
- Должность
- Команда
- Ваши будущие коллеги
- Компания
- Бизнес
- Удалённая работа
- Офисная работа
- Компенсация
- Больничный, декретный период, отпуск
📌 Вопросы
@machinelearning_interview
+4
Группа «Интер РАО» запустила ТурбоХакатон по обработке данных в сфере электроэнергетики. Участвуйте в соревновании с 10 октября по 26 ноября и получите шанс разделить призовой фонд в 500 000 рублей.
Регистрация уже открыта
Приглашаем на хакатон специалистов в области Data Science и Machine Learning от 18 лет. Участвовать можно индивидуально или в команде до 5 человек.
Задачи ТурбоХакатона:
1️⃣ Цифровой ассистент – система «вопрос\ответ» для быстрого поиска ответов во внутренней документации компании через вопросы, заданные в свободной форме
2️⃣ Система рекомендации технологических параметров для оптимизации режимов работы ТЭС
3️⃣ Анализ аномалий в платежах за тепловую энергию
4️⃣ Оптимизация маршрутов обхода многоквартирных домов для проверки состояния приборов учета и контроля достоверности показаний
5️⃣ Оптимизация процесса планирования закупки топлива на электростанциях на основе прогнозирования цены электричества и объемов его выработки
Расписание мероприятия:
🔹 08.10 – старт ТурбоХакатона и открытие задач;
🔹 10.10-04.11 – работа над задачей;
🔹 08.11-12.11 – отбор лучших решений для участия в финальном питчинге;
🔹 19.11 – итоговая питч-сессия и презентация решений для жюри ТурбоХакатона;
🔹 26.11 – объявление результатов и награждение победителей.
Успейте подать заявку до 4 октября
Реклама. Фонд «Энергия без Границ». ИНН 7704278904. erid: LjN8KKXGx
Repost from Machinelearning
+2
⚡️ Llama 3.1-Nemotron-51B-Instruct: модель от NVIDIA по методу Neural Architecture Search.
Llama 3.1-Nemotron-51B-Instruct основана на Llama 3.1-70B и предназначена для NLP-задач генерации текста, чата, рассуждения и обобщения. Мультиязычность наследована от родительская модель. Llama 3.1-Nemotron-51B-Instruct также умеет обрабатывать языки программирования.
Архитектура модели построена с использованием методологии Neural Architecture Search (NAS) и блочной дистилляции.
NAS позволяет отобрать наиболее эффективные блоки трансформера для каждого слоя модели, а блочная дистилляция обеспечивает перенос знаний от исходной модели Llama 3.1-70B к более компактной Llama 3.1-Nemotron-51B-Instruct.
Полученная архитектура имеет нерегулярную структуру блоков с уменьшенным количеством операций внимания и полносвязных слоев, что существенно снижает вычислительную сложность и объем используемой памяти.
В процессе обучения модели использовались бенчмаркиMT-Bench и MMLU. Тестирование проводилось на задачах генерации текста, перевода и ответов на вопросы.
Результаты показали, что инференс Llama 3.1-Nemotron-51B-Instruct в 2.2 раза быстрее "родительской" модели (Llama 3.1-70B) при сохранении практически той же точности.
Благодаря сниженным требованиям к памяти, модель может обрабатывать в 4 раза большие объемы данных на одном GPU.
▶️Рекомендованные аппаратные конфигурации:
🟠FP8 - H100-80GB (версии FP8 пока нет в открытом доступе);
🟢BF16 - 2x H100-80GB GPU или 2x A100-80GB GPU.
▶️Пример инференса на Transformers (версия 4.44.2 или выше):
import torch
import transformers
model_id = "nvidia/Llama-3_1-Nemotron-51B-Instruct"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=20,
**model_kwargs
)
print(pipeline([{"role": "user", "content": "Hey how are you?"}]))
📌Лицензирование : NVIDIA AI Foundation Models Community License.
🟡Страница проекта
🟡Модель
🟡Demo
@ai_machinelearning_big_data
#AI #ML #LLM #NemotronАвито ищет опытных специалистов в команду Data Science — пройдите ускоренный отбор и получите оффер за одни выходные!
Вас ждет:
— конкурентная зарплата, удаленка и дополнительные дни отпуска;
— возможность прокачать свой стек – разрабатывать инструменты монетизации, автоматизировать алгоритмы, обучать LLM и улучшать пользовательский опыт;
— участие в создании новых продуктов крупнейшего в мире сервиса объявлений;
— сильное IT-комьюнити, которое любит опенсорс.
Выбирайте одну из четырех команд DS-направления и присоединяйтесь к Data Weekend Offer — регистрируйтесь до 1 октября: https://u.to/8O3jIA
⚡️ Отличный блог о стратегиях параллелизма в JAX.
В нем много подробных рисунков и простого кода.
https://astralord.github.io/posts/exploring-parallel-strategies-with-jax/
@machinelearning_interview
🤖 Интересуетесь Data Science и Machine Learning? Изучите модели матричной факторизации на примере ALS и BPRMF.
На занятии мы познакомимся с коллаборативной фильтрацией, рассмотрим особенности обучения моделей ALS и BPRMF.
а именно:
➡️ Познакомимся с популярным подходом к построению рекомендательных систем: collaborative filtering.
➡️ Изучим архитектуру моделей ALS и BPRMF.
➡️ Рассмотрим особенности функций потерь, которые используются для обучения этих моделей.
➡️ Применим модели ALS и BPRMF на практике.
📅 Дата и время: 3 октября в 20:00 мск
Участие бесплатное
Занятие проходит в преддверии старта курса «Рекомендательные системы». Все участники вебинара получат специальную цену на обучение и персональную консультацию от менеджеров OTUS!
Регистрируйтесь прямо сейчас, чтобы не пропустить урок: https://otus.pw/EFno/
О рекламодателе
Repost from Machinelearning
+2
🌟 CUTLASS Tutorial: Быстрое матричное умножение с WGMMA на GPU NVIDIA Hopper.
Большой, подробный и лаконичный туториал в 2-х частях по оптимизации матричного умножения на микроархитектуре Hopper (H100) с использованием библиотеки CUTLASS.
CUTLASS - это набор реализаций алгоритмов линейной алгебры (шаблонов) для использования на CUDA в задачах глубокого обучения, инженерных расчетах и научных исследованиях.
▶️Первая часть посвящена инструкции WGMMA (asynchronous warpgroup matrix-multiply and accumulate) - как она работает, какие ограничения имеет на размер и расположение данных в памяти и как использовать синхронизацию для правильного выполнения операций.
В этой части подробно рассматривается концепция «ядерных матриц» и «матричных дескрипторов», которые нужны для эффективной работы с WGMMA.
✔️ Вторая часть про умножение матриц(GEMM) и методы повышения эффективности GEMM-ядра путем конвейеризации. Рассматриваются две стратегии пайплайна : многоступенчатую и warp-specialization, с подробным описанием их концепции, применением CUTLASS для их построения и сравнивается производительность стратегий.
В конце туториала кратко описывается реализация конвейеризации в GEMM-ядрах для архитектуры Ampere.
@ai_machinelearning_big_data
#AI #ML #CUTLASS #Tutorial
🛠 Эксперименты с обучением моделей для нейроредактора в Яндекс Браузере
Команда разработки доработала предыдущее решение, что в итоге привело к созданию отдельного инструмента на основе языковой модели YandexGPT. Он помогает пользователям создавать тексты с нуля и улучшать готовые прямо в браузере — например, исправлять ошибки и переписывать в определенном стиле и формате.
Для офлайн-метрик использовалась диффалка, написанная на Go. Диффалка работает на основе алгоритма поиска наибольшей общей подпоследовательности (LCS): ищутся наидлиннейшие общие подпоследовательности между версиями текста. Это позволило подсчитывать количество ошибок, которые модель не исправляет, сравнивая вывод модели с текстом, отредактированным человеком, и проверять гипотезы о качестве, экономя время.
Эксперименты (переход к Encoder-Decoder, curriculum learning, предобучение) дали ускорение в 2 раза и +10% качества на открытых датасетах.
Раньше при нейроредактировании модель могла легко удалить или добавить лишние спецсимволы, что приводило к непредсказуемым результатам. Теперь, с внедрением полноценной поддержки Маркдауна, эта проблема устранена. Для обеспечения корректной обработки разметки применялся подход восстановления: прогон текста через модель, ручное восстановление пропавшей разметки и переобучение модели. В итоге достигнуто сохранение разметки 1:1 в модели исправления ошибок.
📝 Хабр
@machinelearning_interview
⚡️ Задача: Предсказание дохода человека.
Вам известны все необходимые признаки, а данных достаточно.
После построения модели как вы определите, что она получилась хорошей?
Чтобы оценить, построенная модель для предсказания доходов человека получилась хорошей, нужно сделать следующее:
1. Выберите метрику качества модели: Для оценки точности модели используйте одну из следующих метрик: Mean Absolute Error (MAE), Mean Squared Error (MSE) или Root Mean Squared Error (RMSE). Эти метрики помогут понять, насколько точно модель предсказывает целевую переменную.
2. Разделите данные на обучающую и тестовую выборки: Используйте обучающую выборку для построения модели, а тестовую — для оценки её качества. Это поможет избежать переобучения, при котором модель хорошо работает на обучающих данных, но плохо на новых примерах.
3. Оцените модель на тестовых данных: Проверьте качество модели на тестовой выборке. Если значения метрик на обучающей и тестовой выборках не сильно различаются, это указывает на отсутствие переобучения и способность модели давать хорошие предсказания.
4. Примените кросс-валидацию: Дополнительно можно использовать кросс-валидацию для оценки стабильности модели. Это позволит убедиться, что модель демонстрирует хорошие результаты на различных подвыборках данных.
👇 Пишите свой вариант ответа в комментариях.
@machinelearning_interview
Приглашение на открытый вебинар: Разметка данных с помощью CVAT
На данном открытом уроке вы узнаете:
- Как осуществляется разметка в CVAT.
- Как интегрировать собственную авторазметку.
- Про разные виды конвертеров готовой разметки.
В результате вебинара вы сможете:
- Начать использовать CVAT в своих проектах.
- Ускорить процесс разметки в десятки раз.
- Стать опытными пользователями CVAT.
Для кого это занятие:
Этот вебинар будет особенно интересен начинающим и продвинутым разработчикам компьютерного зрения, разметчикам.
Присоединяйтесь к открытому вебинару 23 сентября в 20:00 мск!
Встречаемся в преддверии старта курса «Компьютерное зрение». Все участники вебинара получат специальную цену на обучение!
Регистрируйтесь прямо сейчас, чтобы не пропустить мероприятие: https://clck.ru/3DNk5J
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ", ИНН: 9705100963
🖥 Python Training — хороший курс по Python для бизнес-аналитиков JPMorgan
Полезный курс сосредоточен на введении в вычисления и визуализацию данных в Python. Подходит для тех, кто не имеет опыта программирования.
Вот темы, которые охватывает курс:
▪️основы Python (в Jupyter);
▪️базовые вычисления и работа с данными (NumPy, Pandas);
▪️работа с API;
▪️визуализация данных (Matplotlib, Seaborn);
▪️лучшие практики Python.
🔗 Ссылка на курс
#курс #python
@machinelearning_interview
🔹 Прогнозируем биткойн с использованием машинного обучения на открытом уроке от Otus.
Познакомьтесь с набором инструментов для анализа временных рядов.
Рассмотрим примеры продвинутых моделей
✅ Практика: Скачивание данных с помощью api, предобработка, прогноз средним, sarima, линейной регрессией, бустингом, recurent pro
Оставляйте заявку на курс «ML для финансового анализа» и создайте торгового робота для автоматического проведения операций с оценкой уровня риска
👉 Регистрация на урок и подробности:
https://otus.pw/PVPa/?erid=LjN8KMvJv
🛠 Интересный проект: разработчик создал простую систему, которая помогает пройти собеседование, фактически отвечая за вас!
Алгоритм работает так: Whisper преобразует речь интервьюера в текст, передаёт его ChatGPT, который генерирует ответ. Затем вы просто читаете его с экрана.
Всё, что вам нужно — открывать рот и произносить готовые фразы🤣
▪ GitHub
И получите своё предсказание🔮
Прогнозируйте изменения своих бизнес-метрик с помощью машинного обучения.Учим начинающих дата-сайентистов ориентироваться в Machine Learning для решения рабочих задач на курсе «Data Science» от Слёрма. За 4 месяца обучения вас ждет: 🌟 Работа с реальными проектами, анализ и визуализация больших данных 🌟 Погружение в ключевые ML-алгоритмы и библиотеки, включая Scikit-learn и CatBoost 🌟 Сведение бизнес-задач в задачи машинного обучения Полная программа курса — здесь 👈 Формат: ⚡️ 132 часа нетривиальной практики с реальными датасетами ⚡️ 25 минут — среднее время видеолекций, которые можно смотреть, когда угодно — хоть за завтраком, хоть по дороге на работу. Старт 30 сентября, присоединяйтесь! Реклама ООО «Слёрм» ИНН 3652901451
Repost from Machinelearning
⚡️ Nemotron-Mini-4B-Instruct: инструктивная компактная модель от Nvidia
Nemotron-Mini-4B-Instruct - небольшая модель, полученная в результате файнтюна, обрезки (pruning), дистилляции и квантования модели Minitron-4B-Base.
Эта модель оптимизирована для roleplay-сценариев, RAG QA и вызова функций на английском языке.
Практическое применение модели ориентировано на интеграции в гейм-разработке, преимущественно - в экосистеме NVIDIA.
Модель обучалась в период февраль-август 2024 года.
При создании Nemotron-Mini-4B-Instruct использованы техники Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).
▶️Технические характеристики:
🟢total params - 4B;
🟢embedding size - 3072;
🟢attention heads - 32;
🟢MLP intermediate dimension - 9216;
🟢input context - 4096.
Пример инференса в Transformers, шаблоны простого промпта и instruct- шаблон в карточке модели на Huggingface.
Есть неофициальные квантованные (imatrix) GGUF - версии модели в 8 разрядностях, от 3-bit (2.18 Gb) до 16-bit (8.39 Gb) для запуска в llama.cpp и LM Studio.
📌Лицензирование : NVIDIA Community Model License.
🟡Страница модели на NGC Catalog
🟡Модель
🟡GGUF
🟡Arxiv
🟡Demo
@ai_machinelearning_big_data
#AI #NVIDIA #LLM #ML #Nemotron
🥥 Kokoc Hackathon 2024: Объединяй технологии, спорт и бизнес!
Прими участие в Kokoc Hackathon 2024 – событии, где спорт, e-commerce и технологии сливаются воедино! С 3 по 18 октября ты сможешь решить реальные кейсы и побороться за призовой фонд в 1 000 000 рублей.
💼 Приглашаем аналитиков, ML-специалистов, Product-менеджеров, Backend и Frontend-разработчиков (знание Python, Django и/или PHP будет преимуществом), UI/UX-дизайнеров, студентов и выпускников технических вузов.
🎯 Задачи хакатона:
1. Веб-платформа для футбольного клуба – создай платформу для взаимодействия клуба и болельщиков.
2. Интеллектуальная рекомендательная система – создай ML-модель, прогнозирующую действия пользователей интернет-магазина.
📅 Таймлайн:
🔸 3 сентября - 30 сентября: Регистрация
🔸 3 октября: Открытие и задачи
🔸 4 - 10 октября: Чек-поинты с экспертами
🔸 18 октября: Питчинг и награждение
👉 Регистрируйся до 30 сентября! https://cnrlink.com/kokochack2024mlinview
Реклама. ООО «Эдбокс». ИНН: 9702043065. erid: LjN8KbMRL
📌Open Source в ML/Data: исследование ИТМО
ИТМО представил анализ Open Source проектов в области машинного обучения и работы с данными в России. Вот ключевые моменты:
— Лидеры: Яндекс, Сбер, Т-банк.
— Решения российских разработчиков ориентируются на локальный и международный рынок.
— Исследователи насчитали 120 открытых решений от Яндекса.
— В топ-3 проектов компании попали CatBoost, YTsaurus, YDB.
— Среди свежих релизов: YaFSDP, Gravity UI, Diplodoc, DataLens.
— В список также попал ex-проект Яндекса — ClickHouse.
Исследование показало смену парадигмы: участники больше не считают, что опенсорс играет на руку конкурентам. Фокус смещается на коллективное развитие сферы через открытые проекты.
🟡Сайт исследования
@machinelearning_interview
Пофиксил баг — устроил перерыв с бесплатными печеньками, зарелизил новую программу — выпил чай на офисной кухне 😅
Если хочешь получать реальные бонусы и признание коллег — приходи в Сбер. Обещаем, у тебя будут только масштабные и интересные таски, а ещё ты станешь частью сообщества амбициозных и классных IT-специалистов.
Прокачивай скилы за счёт банка, получай премии и пользуйся ДМС с первого дня работы. Но и печеньки у нас тоже есть! 😉
Звучит заманчиво? Присоединяйся!
🖥 UNet 3+ Implementation in TensorFlow
В этой статье представлена реализация архитектуры UNet 3+ с помощью TensorFlow.
UNet 3+ расширяет классическую архитектуру UNet и UNet++.
В статье рассмотрен каждый блок архитектуры UNet 3+ и объяснено, как они работают и что способствует повышению производительности модели.
Понимание этих блоков позволит понять механизмы, лежащие в основе UNet 3+, и то, как она эффективно справляется с такими задачами, как сегментация изображений или другими задачами попиксельного предсказания.
https://idiotdeveloper.com/unet-3-plus-implementation-in-tensorflow/
🖥 SQL для Data Science: ключевые вопросы с собеседований по разным уровням
Подборка важных SQL вопросов для разных уровней👇
🔹 Начинающие (0-2 года):
▪️ В чем разница между WHERE и HAVING?
▪️ Какие виды JOIN существуют в SQL?
🔹 Опытные (2-5 лет):
▪️ Запрос для поиска второй по величине зарплаты.
▪️ Оконные функции в SQL, пример с ROW_NUMBER().
🔹 Эксперты (5+ лет):
▪️ Как оптимизировать медленный запрос?
▪️ Когда использовать кластеризованные и некластеризованные индексы?
🖥 Ссылка
@machinelearning_interview
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
