Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
显示更多📈 Telegram 频道 Machinelearning 的分析概览
频道 Machinelearning (@ai_machinelearning_big_data) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 295 804 名订阅者,在 技术与应用 类别中位列第 332,并在 俄罗斯 地区排名第 1 276 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 295 804 名订阅者。
根据 22 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -6 276,过去 24 小时变化为 -223,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.09%。内容发布后 24 小时内通常能获得 5.69% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 23 927 次浏览,首日通常累积 16 831 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 193。
- 主题关注点: 内容集中在 openai, claude, api, gemini, контекст 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
凭借高频更新(最新数据采集于 23 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
recognize_wav.py. Для каждого режима будут созданы отдельные выходные каталоги. Варианты декодирования:
🟢attention;
🟢ctc_greedy_search;
🟢ctc_prefix_beam_search;
🟢attention_rescoring;
🟢joint_decoding.
В оценке Reverb ASR использовались три корпуса длинных аудиозаписей: Rev16 (подкасты), Earnings21 и Earnings22 (телефонные разговоры).
Reverb ASR значительно превосходит конкурентов в тестовых наборах ASR для длинных форм, особенно в Earnings22, где в основном речь носителей английского языка не как родного.
Для традиционного бенчмаркинга использовался GigaSpeech, Reverb ASR запускался в дословном режиме на скриптах оценки Hugging Face Open ASR Leaderboard. По их результатам Reverb ASR значительно превосходит конкурентов в тестовых наборах ASR для длинных форм.
Reverb diarization v1 использует архитектуру pyannote 3.0 и имеет 2 слоя LSTM со скрытым размером 256, всего около 2,2 млн параметров, а Reverb diarization v2 использует WavLM вместо функций SincNet в базовой модели pyannote 3.0.
Обе модели диаризации прошли донастройку на 26 000 часах данных с экспертной разметкой.
▶️Локальное использование предусматривает несколько вариантов: установка с anaconda, использование Docker-образа и масштабное развертывание.
⚠️ Для локальной установки понадобится Huggingface API KEY
🟡Набор моделей
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #ASR #Diarization #REVAIfrom_pretrained и push_to_hub.
Пайплайн Model2Vec трехэтапный. На первом этапе словарь пропускается через модель Sentence Transformer для получения векторов эмбедингов для каждого слова.
Далее, размерность полученных эмбеддингов сокращается с помощью метода главных компонент (PCA). Наконец, применяется zipf-взвешивание для учета частотности слов в словаре.
Model2Vec работает в двух режимах:
🟠Output, в котором модель работает подобно Sentence Transformer, используя subword токенизацию;
🟠Vocab, в котором создается набор статических эмбедингов слов, аналогично GloVe или Word2Vec.
Оценку производительности Model2Vec делали на наборе данных MTEB на задачах PEARL (оценка качества представления фраз) и WordSim (оценка семантической близости слов).
Результаты показывают, что Model2Vec превосходит по производительности GloVe и модели, основанные на WordLlama по всем задачам оценки.
▶️Пример дистилляции:
from model2vec.distill import distill
# Choose a Sentence Transformer model
model_name = "BAAI/bge-base-en-v1.5"
# Distill the model
m2v_model = distill(model_name=model_name, pca_dims=256)
# Save the model
m2v_model.save_pretrained("m2v_model")
▶️Пример инференса:
from model2vec import StaticModel
# Load a model from the HuggingFace hub, or a local one.
model_name = "minishlab/M2V_base_output"
# You can optionally pass a token if you're loading a private model
model = StaticModel.from_pretrained(model_name, token=None)
# Make embeddings
embeddings = model.encode(["It's dangerous to go alone!", "It's a secret to everybody."])
📌Лицензирование : MIT License.
🟡Набор моделей
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #Embedding #Model2Vecfrom_pretrained и push_to_hub.
Пайплайн Model2Vec трехэтапный. На первом этапе словарь пропускается через модель Sentence Transformer для получения векторов эмбедингов для каждого слова.
Далее, размерность полученных эмбеддингов сокращается с помощью метода главных компонент (PCA). Наконец, применяется zipf-взвешивание для учета частотности слов в словаре.
Model2Vec работает в двух режимах:
🟠Output, в котором модель работает подобно Sentence Transformer, используя subword токенизацию;
🟠Vocab, в котором создается набор статических эмбедингов слов, аналогично GloVe или Word2Vec.
Оценку производительности Model2Vec делали на наборе данных MTEB на задачах PEARL (оценка качества представления фраз) и WordSim (оценка семантической близости слов).
Результаты показывают, что Model2Vec превосходит по производительности GloVe и модели, основанные на WordLlama по всем задачам оценки.
▶️Пример дистилляции:
from model2vec.distill import distill
# Choose a Sentence Transformer model
model_name = "BAAI/bge-base-en-v1.5"
# Distill the model
m2v_model = distill(model_name=model_name, pca_dims=256)
# Save the model
m2v_model.save_pretrained("m2v_model")
▶️Пример инференса:
from model2vec import StaticModel
# Load a model from the HuggingFace hub, or a local one.
model_name = "minishlab/M2V_base_output"
# You can optionally pass a token if you're loading a private model
model = StaticModel.from_pretrained(model_name, token=None)
# Make embeddings
embeddings = model.encode(["It's dangerous to go alone!", "It's a secret to everybody."])
📌Лицензирование : MIT License.
🟡Набор моделей
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #Embedding #Model2Vecpip uninstall SAM-2.
▶️ Набор кода для самостоятельного обучения базовой модели с подробной инструкцией можно найти в разделе training репозитория SAM2. Все необходимые изменения в связи с обновлением до версии 2.1 внесены.
▶️Подробная инструкция по запуску локальной установки с web-интерфейсом в разделе demo репозитория. Backend - Docker, frontend - yarn.
Демо-ноутбуки для запуска в Google Collab:
🟠автоматическое создание масок объектов;
🟠маскирование объектов по текстовому промпту;
🟠интерактивная сегментация на видео.
📌Лицензирование : Apache 2.0 License.
🟡Коллекция моделей на HF
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #SAM2 #META #Segmentation #CV на 0.01-0.34, 0.38-0.68 и 4.41-7.34 соответственно.
🏸 VPTQ отличается низкими вычислительными затратами процесса квантования (10.4-18.6% от времени аналогичных алгоритмов) и высокой пропускной способностью при инференсе (в 1.6-1.8 раза выше, чем у SOTA)
В сообществе VPTQ на Huggingface выложена 41 модель в разрядностях VPTQ-квантования от 1.375 до 4 bits:
🟢Llama 3.1 Instruct (8B, 70B и 405B);
🟢Qwen 2.5 Instruct (7B, 14B и 72B) .
Посчитать битность и размер модели по названию на примере Meta-Llama-3.1-70B-Instruct-v8-k65536-256-woft:
🟢v8 - длина вектора, равная 8
🟢k65536 - количество центроидов (2^16)
🟢256 - количество остаточных центроидов (2^8)
🟠woft - маркировка without finetune, в расчете не участвует.
Расчет итоговой битности: индекс: log2(65536) = 16 / 8 = 2 bits, остаточный индекс: log2(256) = 8 / 8 = 1 bit, итоговое значение 2 bits+1 bit, = 3 bits.
Расчет размера модели (без учета codebook): 70B * 3 bits / 8 bits = 26.25 GB.
▶️Локальная установка и примеры инференса в разных режимах:
# Set up CUDA PATH:
export PATH=/usr/local/cuda-12/bin/:$PATH
# Clone repo:
pip install git+https://github.com/microsoft/VPTQ.git --no-build-isolation
# Simple generation:
python -m vptq --model=VPTQ-community/Meta-Llama-3.1-70B-Instruct-v8-k65536-0-woft --prompt="..."
# Chatbot example:
python -m vptq --model=VPTQ-community/Meta-Llama-3.1-70B-Instruct-v8-k65536-0-woft --chat
# Gradio Web App
python -m vptq.app
📌Лицензирование кода : MIT License.
📌Лицензирование моделей: cогласно родительской модели.
▪Коллекция моделей на HF
▪Arxiv
▪Сообщество в HF
▪GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #Quantization #Microsoft #VPTQ #hardcore
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
