Machine learning Interview
前往频道在 Telegram
ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz
显示更多📈 Telegram 频道 Machine learning Interview 的分析概览
频道 Machine learning Interview (@machinelearning_interview) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 30 045 名订阅者,在 技术与应用 类别中位列第 4 579,并在 俄罗斯 地区排名第 21 921 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 30 045 名订阅者。
根据 13 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 40,过去 24 小时变化为 8,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 21.14%。内容发布后 24 小时内通常能获得 7.35% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 6 350 次浏览,首日通常累积 2 208 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 40。
- 主题关注点: 内容集中在 claude, llm, контекст, hermes, nvidia 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно!
Вопросы - @workakkk
РКН: clck.ru/3FmwRz”
凭借高频更新(最新数据采集于 14 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
30 045
订阅者
+824 小时
-77 天
+4030 天
帖子存档
⁉️ Открытый урок «Методы сегментации в рекомендациях»
🗓 17 октября в 20:00 МСК
🆓 Бесплатно. Урок в рамках старта курса «Рекомендательные системы» от Otus.
На вебинаре разберем:
✔️ как использовать RFM-анализ, методы кластеризации и look-a-like моделирование;
✔️ как применять аналитические и машинные методы для сегментации клиентов;
✔️ примеры практического применения этих методов в реальных задачах.
🔗 Ссылка для регистрации на урок: https://otus.pw/rFTT/
#реклама
О рекламодателе
Repost from Machinelearning
+2
🌟 LeLaN: метод обучения политики навигации для роботов с помощью видео из реальной среды.
LeLaN - метод, использующий модели Owl-ViT2 и OpenVLA для маркировки видеоданных из реальной среды с помощью языковых инструкций для навигации по объектам.
Политика навигации по объектам, обученная на этих данных, показала высокие результаты в задаче навигации по незнакомым объектам в разных условиях: внутри и снаружи помещений.
LeLaN использует аннотации VLM для маркировки видеоданных из различных источников: наборы данных о навигации роботов, видеоролики с экскурсиями с YouTube и данные из носимых видеорегистраторов. Эти аннотации предоставляют инструкции, охватывающие широкий спектр объектов с разной степенью детализации в их описаниях.
В процессе обучения политика навигации оптимизируется по трем направлениям:
🟢достижение целевого объекта;
🟢предотвращение столкновений;
🟢плавность скорости.
После обучения LeLaN была проведена серия экспериментов из более 1000 испытаний, проведенных в реальных условиях.
Результаты показывают, что LeLaN превосходит существующие методы zero-shot политик навигации по способности ориентироваться в различных средах, надежности в условиях нечетких команд, способности следовать за пешеходами и навыке избегать столкновений.
Код, предлагаемый в репозитории LeLaN, разбит на две части: обучение модели на собственных данных и локальное развертывание с предварительно обученными моделями LeLaN на роботизированной платформе с NVIDIA Jetson Orin.
▶️Локальная установка и запуск обучения:
# Clone repository:
git clone https://github.com/NHirose/learning-language-navigation.git
# Set up the conda env:
conda env create -f train/train_lelan.yml
conda activate lelan
# Install the lelan packages:
pip install -e train/
# Install the `diffusion_policy` package:
git clone git@github.com:real-stanford/diffusion_policy.git
pip install -e diffusion_policy/
# Training lelan w/o collision avoidance
python train.py -c ./config/lelan.yaml
📌Лицензирование : MIT License.
🟡Страница проекта
🟡Набор моделей
🟡Датасет
🟡Демо видео на Youtube
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #Navigation #RoboticsПривет, это Андрей Богомолов.
Выпустился c Матфака Вышки, был СТО в ИИ-стартапе NLogic, а сейчас сооснователь в GenAI Lab, и в канале рассказываю, как мы внедряем генеративный ИИ в энтерпрайз
Не собираем подборки лучших промптов для контент-плана, но рассказываем о методах оценки точности RAG и нюансах разворачивания open-source LLM в контуре.
Делаем контент для разработчиков, продактов и всех, кто планирует или уже внедряет генеративный ИИ в свои процессы. Например, завтра в лайве расскажем, как сделали RAG-бота с интеграцией с БД интернет-магазина для консультации клиентов.
Подпишись, чтобы узнать больше про внедрение GenAI: @genailab
⚡️ Шпаргалка по статистике
Если у вас предстоят собеседования или экзамены по статистике в университете, вот полезная полная шпора. В ней рассмотрены ключевые понятия, такие как выборка, распределение, мода, медиана и другие.
Также приведено практическое занятие по статистическому наблюдению на примере производственной компании.
@machinelearning_interview
2 и 3 декабря 2024 года в Москве, в Кампусе СКОЛКОВО, пройдёт крупнейшая профессиональная конференция для разработчиков высоконагруженных систем — HighLoad++ 2024.
В этом году мероприятие соберёт 3 800 участников, будет проведено 170 докладов в 13 залах. На одной площадке пройдут сразу 3 конференции: HighLoad++, GolangConf 2024 и PHP Russia 2024.
✅Доклады и спикеры конференции: https://clck.ru/3DnKYX?erid=LjN8JvJ5f
Будем разбираться в архитектуре сложных проектов, обсудим вызовы работы с распределёнными транзакциями, базами данных и системами хранения. Поговорим про оптимизацию производительности с использованием CGo и применение WebAssembly для решения задач веб-разработки.
До встречи на HighLoad++ 2024!
#реклама
О рекламодателе
🖥 Большой плейлист Deep Learning лекций от MIT!
🌟 72 видео
🔗 Ссылка: *клик*
#курс #deeplearning #machinelearning #bigdata #ai
@machinelearning_interview
🖥 Model Memory Utility — полезная утилита, которая помогает оценить использование памяти различными моделями машинного обучения
🌟 Инструмент предоставляет визуализацию и информацию о том, как загружаются и обрабатываются модели на CPU и GPU, что помогает разработчикам оптимизировать память и производительность своих моделей. Это полезно для выбора наиболее подходящих конфигураций для обучения и развертывания моделей
🔗 Ссылка: *клик*
@machinelearning_interview
🤖 Готовы ли вы стать специалистом по персонализации и рекомендациям?
Мы разработали профессиональный онлайн-курс «Рекомендательные системы», для специалистов в области ML и DS, которые хотят расширить свои компетенции в области рекомендательных систем.
Приходите на открытый урок курса 17 октября в 20:00 мск.
Тема: «Методы сегментации в рекомендациях».
На уроке разберем:
➡️ как использовать RFM-анализ, методы кластеризации и look-a-like моделирование;
➡️ как применять аналитические и машинные методы для сегментации клиентов;
➡️ примеры практического применения этих методов в реальных задачах.
🔗 Ссылка для регистрации на урок: https://otus.pw/4IpV/
#реклама
О рекламодателе
+5
📌 Яндекс добавил в Нейро новую мультимодальную VLM для поиска по картинкам
В своей статье на Хабре ML-разработчик Яндекса детально описывает, что представляют собой визуально-текстовые мультимодальные модели. Он аскрывает их архитектуру, состоящую из LLM, картиночного энкодера и адаптера, а также процесс обучения.
Кроме того, автор рассказывает про эволюцию Нейро: от предыдущей LLM-версии к новой VLM. Это позволяет понять, как изменился процесс обработки запросов и почему новая версия эффективнее.
Интересный инсайд: Яндекс использует instruct-based pretrain с несколькими миллионами семплов и активно работает над interleaved pretrain для дальнейшего улучшения качества модели.
▪️Статья на Хабре
@machinelearning_interview
Repost from Machinelearning
+2
🌟 Малые языковые модели: обзор, измерения и выводы.
Исследование, проведенное Университетом Кембриджа, Пекинским университетом почты и телекоммуникаций о малых языковых моделях, опубликованных в открытом доступе в период с 2022-2024 гг.
Авторами были проанализированы 59 современных открытых SLM, их архитектуру, используемые наборы данных для обучения и алгоритмы. Целевая группа состояла из моделей с 100M–5B параметрами, построенных на архитектуре декодера-трансформера, которые подходят для устройств от носимых гаджетов до смартфонов и планшетов.
Выводы, к которым пришли авторы:
Архитектура SLM
🟢Наблюдается переход от Multi-Head Attention (MHA) к Group-Query Attention (GQA) для повышения эффективности.
🟢Gated FFN с активацией SiLU и промежуточным соотношением 2-8 становится все более популярным выбором.
🟢Большинство моделей используют RMS-нормализацию и размер словаря более 50 тыс. токенов.
🟢Инновации в архитектуре пока ограничены.
Наборы данных для обучения
🟢The Pile был наиболее часто используемым набором данных, но в последнее время выбор стал более разнообразным, все чаще используются RefinedWeb и RedPajama.
🟢Современные SLM обучаются на значительно большем количестве токенов (обычно >1.5T), чем предполагает закон Chinchilla, что указывает на их «переобучение» для повышения производительности на устройствах с ограниченными ресурсами.
Алгоритмы обучения
🟠Чаще используются новые методы: Maximal Update Parameterization (µP), Knowledge Distillation и Two Stage Pre-training Strategy для повышения стабильности обучения и эффективности переноса знаний.
Возможности SLM
🟠За период с 2022 по 2024 год SLM показали значительное повышение производительности в разных задачах обработки естественного языка, превзойдя серию LLM LLaMA-7B.
🟠Семейство моделей Phi имеет самые высокие показатели точности, соперничая с LLaMA 3.1 8B.
🟠SLM, обученные на общедоступных датасетах, сокращают разрыв с моделями, обученными на закрытых данных, в задачах, связанных со здравым смыслом.
Контекстное обучение
🟢Большинство SLM обладают способностью к контекстному обучению, хотя она зависит от задачи.
🟢Более крупные модели из SLM более восприимчивы к контекстному обучению.
Latency и потребление VRAM
🟢Помимо размера модели, на задержку влияет и архитектура: количество слоев, ширина FFN, размер словаря и совместное использование параметров.
🟢Влияние архитектуры модели на скорость вывода более значительно на этапе предварительной обработки (prefill), чем на этапе декодирования.
🟢Использование памяти во время выполнения обычно линейно коррелирует с количеством параметров модели.
Влияние квантования и оборудования
🟠Преимущества квантования на этапе декодирования больше, чем на этапе предварительной обработки.
🟠Графические процессоры демонстрируют еще большее преимущество перед центральными процессорами на этапе предварительной обработки.
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #SLM #Paper #Arxiv
Зачем тестировать торговую стратегию?
✅ Разберемся в теме на практическом уроке — Тестирование торговых стратегий с помощью инструмента Backtrading
Урок посвящен курсу «ML для финансового анализа» по окончанию которого вы создадите торгового робота для автоматического проведения операций с оценкой уровня риска
Регистрация на урок 👇
https://otus.pw/l6iq/?erid=LjN8KDqJo
#реклама
О рекламодателе
📌 Лаконичная шпаргалка по методам энкодинга категориальных признаков
@machinelearning_interview
Первый митап от инженеров Т-Банка во Владивостоке!
Да, вы все правильно прочитали. Во Владивостоке наша команда будет не первый раз, а вот с комьюнити там встретимся впервые 10 октября в «Фактуре».
В программе — три доклада:
— расскажут, как устроено хранилище данных в Т-Банке;
— поговорят об использовании нейронок в повседневной жизни инженера;
— обсудят недостатки и преимущества открытых архитектур синтеза речи.
После митапа можно остаться понетворкать и просто познакомиться поближе.
📆 Увидимся 10 октября во Владивостоке! Не забудьте зарегистрироваться и позвать с собой коллег-разработчиков.
🖥 GitHub Repo to Text Converter
Этот веб-инструмент преобразует содержимое репозитория GitHub в форматированный текстовый файл для запросов Large Language Model (LLM).
Он упрощает процесс преобразования репозитория в удобные для LLM данные для генерации кода, документации, использования и др.
▪️Github
@machinelearning_interview
«Как интересные задачи затягивают в Data Science»
Команда DS из большого синего банка запустила новый сезон подкаста «Деньги любят техно», в котором топ-эксперты рассказывают про ML в их компаниях.
Самое интересное: сферы не повторяются, то есть можно послушать и сравнить, насколько различаются задачи и подходы в ML в технологической сфере и в компаниях из других отраслей, в том числе очень “традиционных”.
Первый эпизод про ML в IT — со старшим директором по данным и аналитике «Авито» Андреем Рыбинцевым. Ведут подкаст начальник управления моделирования партнерств и ИТ-процессов ВТБ Юлий Шамаев и технологический обозреватель Марина Эфендиева.
В новом сезоне подкаст выходит не только в аудио, но и в видео-версии на всех популярных платформах.
— Смотреть и слушать можно тут 👈
— А просто слушать тут 👈
Repost from Machinelearning
🌟 Awesome-list советов по поступлению в аспирантуру и научной работе.
Репозиторий GitHub "advice", в котором содержится обширная коллекция ссылок на ресурсы, предлагающие советы по различным аспектам поступления в аспирантуру, проведения исследований и жизни в аспирантуре, в основном в области информатики, NLP и ML.
Автор репозитория - Shaily Bhatt, аспирант первого года обучения в Институте языковых технологий CMU и бывший сотрудник NLU Group в Google Research (Индия).
Содержание:
Заявки в аспирантуру:
🟢общие советы по заявкам;
🟢советы, специфичные для программ MS;
🟢советы по заявкам на предварительные докторские программы;
🟢советы о том, стоит ли получать докторскую степень;
🟢советы по выбору учебных заведений и научных руководителей.
Исследования:
🟠общие советы по исследованиям;
🟠советы для аспирантов;
🟠идеи для исследований;
🟠советы по написанию работ;
🟠советы по рецензированию;
🟠советы по чтению;
🟠советы по публикации и конференциям;
🟠советы по динамике отношений между научным руководителем и аспирантом;
🟠советы по научно-исследовательским стажировкам;
🟠советы по нетворкингу;
🟠советы по выступлениям и презентациям;
🟠советы по продуктивности;
🟠советы по борьбе с синдромом самозванца;
🟠советы по инструментам для исследований.
В репозитории также есть раздел "Список списков", в котором собраны ссылки на другие полезные ресурсы.
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Resources #Github #Awesome
🖥 PhysGen — это новый метод генерации видео, который преобразует одно изображение и входное условие (например, силу или крутящий момент, приложенные к объекту) для создания реалистичных, физически правдоподобных и временно согласованных видеороликов. Основная идея заключается в интеграции физического моделирования с процессом генерации видео, что обеспечивает правдоподобную динамику объектов на изображении.
💡 Система PhysGen состоит из трех ключевых компонентов:
🌟 Модуль понимания изображения, фиксирующий геометрию, материалы и физические параметры сцены.
🌟 Модель динамики пространства изображения, использующая физику твердого тела для моделирования реалистичного поведения.
🌟 Модуль рендеринга и уточнения, который с помощью генеративной диффузии видео создаёт правдоподобные видеокадры с учётом физики движения.
🔥 Полученные видео реалистичны и точно контролируются, демонстрируя превосходные результаты по сравнению с существующими методами. PhysGen может применяться для создания анимаций и интерактивных видеороликов, а также моделирования динамики объектов. Подробности доступны на странице проекта
▪️Github
@machinelearning_interview
Бесплатный экспресс-курс по технологии ускорения ML-моделей Triton от Ozon Tech
Курс — это гайд в формате лонгрида, из которого ты узнаешь:
— что такое Triton и как в нём происходит типизация данных;
— как собрать простую модель под любые нужды;
— как оптимизировать модель и дотащить до прода.
Чтобы пройти курс, нужно:
1) отправить заявку на этой странице;
2) иметь 2 часа свободного времени.
Прокачайся в Data Science🚀
🖥 MaskLLM — метод обрезки языковых моделей для уменьшения вычислительных затрат
🌟 Вместо поиска важных параметров MaskLLM использует выборку Gumbel Softmax для обучения разреженных масок, что обеспечивает высокую точность и возможность переноса между разными задачами.
Эффективность MaskLLM оценивали сравнением с другими методами на моделях LLaMA-2, Nemotron-4 и GPT-3.
Результаты показали, что MaskLLM достигает более низкой перплексии на наборе данных Wikitext при использовании 2:4 разреженности. Например, для LLaMA-2 7B MaskLLM достиг перплексии 6.72, в то время как SparseGPT показал результат 10.42.
🔗 Прочитать оригинал статьи можно здесь: *клик*
@machinelearning_interview
+4
🖥 Большой список вопросов и ответов по Python для подготовки к собеседованию
Собираетесь на собеседование на позицию Python Developer? Тогда обратите внимание на эту шпаргалку, где собраны ответы на более чем 100 вопросов, которые часто задают на интервью. Разработчики тщательно подготовили эти материалы, и уверены, что они помогут вам лучше подготовиться к вопросам.
Эти вопросы покрывают практически все темы Python + затрагивают азы Computer Science: алгоритмы, структуры данных и т.д.
▶️ Вопросы и ответы
@python_job_interview
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
