Machine learning Interview
前往频道在 Telegram
ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz
显示更多📈 Telegram 频道 Machine learning Interview 的分析概览
频道 Machine learning Interview (@machinelearning_interview) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 30 045 名订阅者,在 技术与应用 类别中位列第 4 579,并在 俄罗斯 地区排名第 21 921 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 30 045 名订阅者。
根据 13 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 40,过去 24 小时变化为 8,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 21.14%。内容发布后 24 小时内通常能获得 7.35% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 6 350 次浏览,首日通常累积 2 208 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 40。
- 主题关注点: 内容集中在 claude, llm, контекст, hermes, nvidia 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно!
Вопросы - @workakkk
РКН: clck.ru/3FmwRz”
凭借高频更新(最新数据采集于 14 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
30 045
订阅者
+824 小时
-77 天
+4030 天
帖子存档
🔥 Microsoft выпустила Trellis!
Trellis - это новая 3D-модель, которая создает высококачественные 3D-объекты в таких форматах, как Radiance Fields,, 3D-гауссианы и Мэши.
▪Github: github.com/Microsoft/TRELLIS
▪Demo: https://huggingface.co/spaces/JeffreyXiang/TRELLIS
@machinelearning_interview
Repost from Machinelearning
🌟 Динамическое 4-битное квантование VLM с повышенной точностью от Unsolth .
Unsloth представил практический метод динамического 4-битного квантования VLM, который решает проблему снижения точности популярных алгоритмов квантования AWQ, Bitsandbytes, GPTQ и HQQ.
В эксперименте использовался Bitsandbytes в качестве основы для всех линейных слоев, но квантование определенных параметров было динамически отключено. Этот подход позволил добиться значительного повышения точности при использовании всего на 10% больше VRAM по сравнению с стандартным 4-битным квантованием Bitsandbytes.
В результате, этот метод позволяет сохранить точность модели, близкую к 16-битной точности, при значительном сокращении размера модели.
Тестирование на VL-моделях Llama 3.2 Vision, Qwen2 Vision и Pixtral, показали значительные преимущества по сравнению со стандартным 4-битным квантованием. Например, квантование Qwen2 Vision 2B до 4 бит приводило к полной поломке модели, в то время как метод динамического квантования позволял восстановить точность при увеличении использования памяти всего на 450 МБ.
Аналогичным образом, получилось восстановить точность Llama 3.2 Vision 11B и Pixtral 12B, которые также деградировали на стандартном 4-битном квантовании.
▶️В открытый доступ на HF опубликованы модели, участвующие в исследовании:
🟢Llama-3.2-11B-Vision-Instruct-unsloth-bnb-4bit (7.23 GB)
🟢Llama-3.2-11B-Vision-unsloth-bnb-4bit (7.23 GB)
🟠Qwen2-VL-2B-Instruct-unsloth-bnb-4bit (1.81 GB)
🟠Qwen2-VL-7B-Instruct-unsloth-bnb-4bit (6.3 GB)
🟠QwQ-32B-Preview-unsloth-bnb-4bit
🟢Pixtral-12B-2409-unsloth-bnb-4bit (8.42GB)
⚠️ К каждой модели в Model Card можно найти блокнот для запуска в Google Collab и созданные сообществом GGUF-версии.
📌Лицензирование моделей:
🟠Семейство Llama: Llama 3.2 Community License Agreement
🟢Семейство Qwen: Apache 2.0 License.
🟢Pixtral: Apache 2.0 License.
🟡Статья
🟡Набор моделей
🟡Сообщество в Discord
@ai_machinelearning_big_data
#AI #ML #VLM #Unsolth #Quantization
+1
🎓 A smol course
Hugging Face запустили бесплатный открытый курс по файнтюнингу моделей. В курсе рассматриваются теория и практические аспекты работы с такими методами, как LoRA, супервайзед-файнтюнинг, DPO, ORPO и другие техники для настройки моделей под конкретные задачи.
Примеры в курсе основаны на использовании модели SmolLM2, а сам материал ориентирован на работу с локальными моделями, однако полученные знания могут быть легко применены к другим моделям.
Это полезный и интересный ресурс, особенно для тех, кто занимается файнтюнингом на практике или изучает эту тему
⚡️ Github
@machinelearning_interview
Приглашаем тебя на крутое IT-мероприятие, посвящённое AI и передовым технологиям разработки рекомендательных систем.
Регистрируйся, и в день мероприятия мы пришлём тебе ссылку на трансляцию. Или приходи очно, если ты живёшь в одном из городов.
Где и когда?
👉 Нижний Новгород, 5 декабря
👉 Санкт-Петербург, 6 декабря
Тебя ждут крутейшие доклады, живая дискуссия и новые знания в сфере рекомендательных систем.
Количество мест ограничено — успей занять своё и прикоснуться к миру рекомендательных систем! 😉
Приглашаем тебя на крутое IT-мероприятие, посвящённое AI и передовым технологиям разработки рекомендательных систем.
Регистрируйся, и в день мероприятия мы пришлём тебе ссылку на трансляцию. Или приходи очно, если ты живёшь в одном из городов.
Где и когда?
👉 Нижний Новгород, 5 декабря
👉 Санкт-Петербург, 6 декабря
Тебя ждут крутейшие доклады, живая дискуссия и новые знания в сфере рекомендательных систем.
Количество мест ограничено — успей занять своё и прикоснуться к миру рекомендательных систем! 😉
🎥 HunyuanVideo: Фреймворк для генерации видео 🔥 Jupyter Notebook
🌐page: https://aivideo.hunyuan.tencent.com
🧬code: https://github.com/Tencent/HunyuanVideo
💡jupyter: https://github.com/camenduru/hunyuan-video-jupyter https://x.com/camenduru/status/1863853010251571492/video/1
@machinelearning_interview
🔍 Подготовка к собеседованию по Deep Learning!
🌟 Этот комплексный курс содержит 50 наиболее распространенных вопросов с подробными объяснениями для каждого!
🔗 Ссылка: *клик*
#deeplearning #machinelearning
@machinelearning_interview
Repost from Machinelearning
+3
🌟 INTELLECT-1: релиз первой модели децентрализованного обучения.
PRIME Intellect опубликовала INTELLECT-1 (Instruct + Base), первую языковую модель с 10 млрд. параметров, совместно обученную за 50 суток 30 участниками эксперимента по всему миру.
PRIME Intellect использовала собственную платформу PRIME, разработанную для решения главных проблем децентрализованного обучения: ненадежность сети и динамическое управление вычислительными узлами.
Платформа использовала сеть из 112 GPU H100 на 3 континентах и достигла коэффициента использования вычислений в 96% при оптимальных условиях.
Корпус обучения составлял на 1 трлн. токенов публичных датасетов с процентным соотношением: 55% fineweb-edu, 10% fineweb, 20% Stack V1, 10% dclm-baseline, 5% open-web-math.
▶️Технические характеристики:
🟢Parameters: 10B;
🟢Layers: 42;
🟢Attention Heads: 32;
🟢Hidden Size: 4096;
🟢Context Length: 8192;
🟢Vocabulary Size: 128256.
INTELLECT-1 достигла точности 37,5% на тесте MMLU и 72,26% на HellaSwag и превзошла несколько других моделей с открытым исходным кодом в WinoGrande с результатом 65,82%.
Хотя эти показатели немного отстают от современных популярных моделей, результаты эксперимента - важнейший шаг к демократизации разработки ИИ и предотвращению консолидации возможностей ИИ в рамках нескольких организаций.
▶️Квантованные в GGUF версии INTELLECT-1_Instruct в разрядностях от 3-bit (5.46 GB) до 8-bit(10.9 GB) от сообщества LM Studio.
▶️Пример инференса на Transformers:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
torch.set_default_device("cuda")
model = AutoModelForCausalLM.from_pretrained("PrimeIntellect/INTELLECT-1")
tokenizer = AutoTokenizer.from_pretrained("PrimeIntellect/INTELLECT-1")
input_text = "%prompt%"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output_ids = model.generate(input_ids, max_length=50, num_return_sequences=1)
output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
print(output_text)
📌Лицензирование: Apache 2.0 License.
🟡Статья
🟡Набор моделей HF
🟡Набор GGUF версий
🟡Техотчет
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #Decentralizated📌Методология оценки LLM
На Хабре вышла статья о современных подходах к оценке языковых моделей. Традиционно используются академические методы оценки (школьные тесты, профэкзамены) и специальные бенчмарки вроде COPA, PIQA для проверки базового понимания контекста, но они не отражают реальной ценности моделей в бизнес-задачах — способности к диалогу, переводу или генерации идей.
Для решения этой проблемы, например, в Яндексе разрабатывают внутренние бенчмарки под каждую практическую задачу YandexGPT, учитывая, что стандартные тесты подвержены протечкам данных и быстро устаревают. Для комплексной оценки привлекаются AI-тренеры — специалисты со строгим отбором по навыкам фактчекинга.
Ключевой вывод: нет универсального метода оценки, необходимы постоянный анализ данных и ручная разметка.
📌 Оригинал
@machinelearning_interview
Repost from Machinelearning
+2
⚡️ QwQ-32B-Preview: экспериментальная ризонинг-модель от Qwen.
QwQ (Qwen with Questions) – экспериментальная исследовательская модель, разработанная Qwen Team с фокусом на развитие способности рассуждения.
QwQ отличается любознательностью, подходя к каждой проблеме – будь то математика, программирование или знания о мире – с подлинным удивлением и сомнением. Прежде чем остановиться на каком-либо ответе, модель подвергает сомнению свои собственные предположения, исследуя разные пути рассуждений в поисках более глубокой истины.
QwQ-32B-Preview, предварительная версия модели, которая демонстрирует аналитические способности в математике и программировании, показывая топовые результаты в тестах:
🟢65.2% на GPQA (тест на решение научных задач на уровне выпускника);
🟢50.0% на AIME (оценка математических способностей);
🟢90.6% на MATH-500 (тест на понимание математики по различным темам);
🟢50.0% на LiveCodeBench (тест на навыки программирования в реальных сценариях).
Архитектура QwQ основана на
transformers с использованием RoPE, SwiGLU, RMSNorm и Attention QKV bias. Модель имеет 32.5 млрд. параметров, 64 слоя и 40 attention heads для Q и 8 для KV. Контекст модели - 32 768 токенов.
⚠️ Как у любого эксперимента, у QwQ есть ограничения:
🟠Модель может смешивать языки или переключаться между ними неожиданно, влияя на четкость ответов.
🟠QwQ склонна входить в циклические шаблоны рассуждений, что приводит к длинным ответам без окончательного результата.
⚠️ Сообществом LM Studio опубликованы квантованные версии в формате GGUF в разрядности от 3-bit (17.2 Gb) до 8-bit (34.8 GB), совместимые для запуска в llama.cpp (release b4191) и LM Studio.
▶️Пример инференса на HF Transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/QwQ-32B-Preview"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "How many r in strawberry."
messages = [
{"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Модель
🟡Набор GGUF версий
🟡Demo
🟡Сообщество в Discord
@ai_machinelearning_big_data
#AI #ML #LLM #QwQ #QwenКак запускать AI-проекты до 3 раз быстрее?
Используйте готовую inference-платформу от Selectel. Она превращает вашу обученную ML-модель в публичный сервис без разработки. Настройка платформы и инфраструктуры — полностью на стороне Selectel.
С inference-платформой вы сможете обновлять версию работающей модели, не прекращая при этом обработку пользовательских запросов. А ресурсы масштабируются автоматически при увеличении нагрузки, так что бесперебойная работа обеспечена даже при росте количества запросов к ML-модели.
Протестировать inference-платформу Selectel и оценить производительность можно бесплатно. Оставляйте заявку на двухнедельный тест: https://slc.tl/0dgyb
Реклама, АО «Селектел», ИНН: 7810962785, ERID: 2VtzqupL9Ys
⚡️ RL за 185 строках с помощью numpy
Блокнот, в котором все подробно описано
- код лаконичен, удобочитаем и снабжен множеством комментариев
- в нем используется только numpy
- хорошая отправная точка для изучения PPO
- заметки, которые помогут в обучении
📌 Ссылка на коллаб
Repost from Machinelearning
📌Книга "Обучение с подкреплением: Основы"
Хороших книг по обучению с подкреплением (Reinforcement Learning, RL) уже выпущено достаточно, однако есть пробел между продвинутыми учебниками, в которых основное внимание уделяется одному или нескольким аспектам, и более общими книгами, в которых предпочтение отдается удобочитаемости, а не сложности.
Авторы книги, люди с опытом работы в CS и инжиниринга, подают тему RL в строгом и академическом стиле. Книга основана на конспектах лекций для углубленного курса бакалавриата, который преподается авторами в Тель-Авивском университете.
К этой книге дополнительно идет брошюра с упражнениями и экзаменационными вопросами, которые помогут освоить материал книги на практике. Эти упражнения разрабатывались на протяжении нескольких лет.
Математическая модель книги - Марковский процесс принятия решений (Markov Decision Process, MDP). Основное внимание уделяется: последовательному принятию решений, выбору действий, долгосрочному эффекту от этих действий и разница между немедленным вознаграждением и долгосрочной выгодой.
Тематически книга состоит из двух частей – "Планирование" и "Обучение".
▶️ Раздел "Планирование" - основы принятия оптимальных решений в условиях неопределенности в соответствии с MDP.
🟢Глава 2. Обоснование модели MDP и ее связь с другими моделями.
🟢Глава 3. Основные алгоритмические идеи в детерминированной постановке.
🟢Глава 4. Цепи Маркова, на которых основана MDP.
🟢Глава 5. Модель MDP с конечным горизонтом и фундаментальный подход к динамическому программированию.
🟢Глава 6. Дисконтированная настройка с бесконечным горизонтом.
🟢Глава 7. Эпизодическая настройка.
🟢Глава 8. Альтернативный подход к решению MDP с использованием формулировки линейного программирования.
▶️ Раздел "Обучение" - принятие решений, когда модель MDP неизвестна заранее.
🟠Глава 9. Описание и мотивация модели обучения и ее связь с альтернативами при принятии решений.
🟠Глава 10. Подход, основанный на моделях, при котором агент явно изучает модель MDP на основе своего опыта и использует ее для принятия решений по планированию.
🟠Глава 11. Альтернативный подход без использования моделей, при котором решения принимаются без явного построения модели.
🟠Глава 12. Изучение приблизительно оптимальных решений крупных задач с использованием аппроксимации функции стоимости.
🟠Глава 13 Решение крупных задач с использованием методов градиентной политики.
🟠Глава 14. Особый случай на примере игровых автоматов, как MDP с единым состоянием и неизвестными наградами, и онлайн-характер принятия решений.
🟡Сайт учебника
🟡Читать
@ai_machinelearning_big_data
#AI #ML #RL #MDP #Book
MTS AI идет в Open Source
MTS AI выпустила модель Cotype Nano – открытую языковую модель для решения бизнес-задач на русском языке.
Она обрабатывает до 32,000 токенов за раз, запускается локально на персональных устройствах и подходит для анализа данных, создания контента, перевода и поиска в большом массиве информации.
По бенчмаркам Ru Arena Hard модель — лидер в своём классе (21.3). Доступна бесплатно с возможностью использования в коммерческих целях. Скачать по ссылке.
Подробные технические характеристики — на Хабре.
📖 Огромный и крайне полезный бесплатный учебник: Обзор больших языковых моделей!
🔗 Ссылка: *клик*
#учебник #machinelearning
@machinelearning_interview
есom.teсh meetup — Generative AI
6 декабря 18:00 в Москве пройдёт митап по прикладному использованию генеративных технологий для специалистов по Data Science!
Обсудим технические аспекты экспериментов с нейронными сетями, посмотрим свежие кейсы внедрения ИИ в бигтехе и не только.
В программе:
👁🗨 Виртуальная фотосъемка для продавца на маркетплейсе: возможности Gen AI.
Арнольд Сааков, руководитель отдела разработки сервисов искусственного интеллекта в ecom.tеch.
👁🗨 От потоковой обработки к генерации: AI-алгоритмы для автоматизации работы с фотографиями товаров на маркетплейсе.
Александр Савельев, руководитель группы развития технологий компьютерного зрения в ecom.tеch;
Татьяна Гришина, менеджер продукта в ecom.tеch.
👁🗨 Секретный доклад.
Митап будет интересен тем, кто уже работает или проходит обучение в области Data Science и интересуется генеративными технологиями!
🧠 Регистрируйтесь и пересылайте знакомым!
Реклама. ООО "УМНОЕ ПРОСТРАНСТВО", ИНН 7811554010, Erid: 2VSb5z72bzg
⭐️ Katz - это мощный инструментарий от facebookresearch
для анализа временных рядов.
Это легкая и простая в использовании библиотека .
Она позволяет делать:
- Прогнозирование
- Обработку данных
- Извлечение признаков
- Моделирование
Установка:
pip install --upgrade pip
pip install kats
Пример использования:
# import packages
import numpy as np
import pandas as pd
from kats.consts import TimeSeriesData
from kats.detectors.cusum_detection import CUSUMDetector
# simulate time series with increase
np.random.seed(10)
df_increase = pd.DataFrame(
{
'time': pd.date_range('2019-01-01', '2019-03-01'),
'increase':np.concatenate([np.random.normal(1,0.2,30), np.random.normal(2,0.2,30)]),
}
)
# convert to TimeSeriesData object
timeseries = TimeSeriesData(df_increase)
# run detector and find change points
change_points = CUSUMDetector(timeseries).detector()
`
▪Примеры работы: https://github.com/facebookresearch/Kats/tree/main/tutorials
▪Пакет Kats Python: https://pypi.org/project/kats/
▪Блог Facebook: https://engineering.fb.com/2021/06/21/open-source/kats/
▪Исходный код: https://github.com/facebookresearch/kats
@machinelearning_interviewКак сэкономить до 44% на профессиональных GPU? 💰
Профессиональные GPU стоят дорого и покупать их не всегда выгодно. Например, если вам нужно протестировать сервис или выполнить краткосрочную задачу.
Оптимальное решение — арендовать видеокарту в облаке. Тем более сейчас в Selectel вы можете сделать это с большой выгодой. Скидка на аренду GPU NVIDIA A100 (40 ГБ) — 29%, а на NVIDIA A30 (24 ГБ) доходит до 44%.
Кроме скидки, при аренде GPU в облаке Selectel вы получаете:
🔹Отсутствие переплат и тарификацию только за используемые ресурсы
🔹Экономию на инфраструктуре благодаря прерываемым облачным серверам и возможности заморозки ресурсов
🔹Широкий выбор готовых конфигураций серверов под любые задачи и возможность индивидуальной настройки
Арендуйте GPU со скидкой до 44% в облаке Selectel: https://slc.tl/lll90
Реклама, АО «Селектел», ИНН: 7810962785, ERID: 2Vtzqx3sapf
📖 Конспект лекций по теории графов в Университете штата Пенсильвания (для студентов бакалавриата)
📌 PDF: https://roam.libraries.psu.edu/system/files/e-books/MATH485-Graph_Theory.pdf
@machinelearning_interview
⚡️ "Самая быстрая библиотека глубокого обучения с подкреплением"
Библиотека C++ Deep RL, создана для запуска DL проектов "на лету" за считанные секунды
Что она предлагает:
📐 Высокопроизводительная библиотека C++ Deep RL, оптимизированная для задач непрерывного контроля
✅ Собственные реализации алгоритмов TD 3, PPO, SAC с ускорением CPU/CUDA
✅ Поддержка развертывания микроконтроллеров (ESP32, Teensy, PX4, iOS)
✅ Привязка Python через PyPI для среды залов
🔹 В 2-4 раза быстрее, чем существующие библиотеки RL на CPU / GPU
▪Github
▪Colab
▪Документация
@machinelearning_interview
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
