Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Больше📈 Аналитический обзор Telegram-канала Machinelearning
Канал Machinelearning (@ai_machinelearning_big_data) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 296 030 подписчиков, занимая 329 место в категории Технологии и приложения и 1 275 место в регионе Россия.
📊 Показатели аудитории и динамика
С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 296 030 подписчиков.
Согласно последним данным от 21 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -6 159, а за последние 24 часа — -192, при этом общий охват остаётся высоким.
- Статус верификации: Не верифицирован
- Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.12%. В первые 24 часа после публикации контент обычно набирает 5.73% реакций от общего числа подписчиков.
- Охват публикаций: В среднем каждый пост получает 24 037 просмотров. В течение первых суток публикация набирает 16 970 просмотров.
- Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 191.
- Тематические интересы: Контент сосредоточен на ключевых темах, таких как openai, claude, api, gemini, контекст.
📝 Описание и контентная политика
Автор описывает ресурс как площадку для выражения субъективного мнения:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
Благодаря высокой частоте обновлений (последние данные получены 22 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.
token type IDs, что упрощает ее использование.
ModernBERT доступна в двух вариантах:
🟢base с 22 слоями и 149 млн. параметров;
🟢large с 28 слоями и 395 млн. параметров.
Модель поддерживает длину контекста в 8192 токена против 512 в оригинальном BERT, это позволяет ей обрабатывать длинные документы и большие объемы текста.
Архитектурные улучшения включают в себя: использование RoPE (вместо механизмов позиционного кодирования), GeGLU слои, удаление смещений, дополнительный слой нормализации после эмбедингов и чередование глобального (Flash Attention 3) и локального (Flash Attention 2) внимания.
Каждые 3 слоя используют глобальное внимание с RoPE theta 160 000, а остальные слои – локальное скользящее окно с 128 токенами и RoPE theta 10 000. Для повышения эффективности ModernBERT использует метод unpadding, удаляя padding токены и обрабатывая последовательности как один пакет.
ModernBERT обучалась на 2 трлн. токенов данных (веб-документы, код и научная литература) на английском языке и использует новый токенизатор BPE, модифицированную версию токенизатора OLMo, с размером словаря в 50 368 токенов.
Результаты тестов показали, что ModernBERT превосходит другие модели в задачах поиска, понимания естественного языка и в задачах программирования.
Например, ModernBERT-base превосходит другие модели своего размера на GLUE и показала высокие результаты на CodeSearchNet и StackQA в кодинге, а ModernBERT-large уступает только Deberta-v3-large .
⚠️ ModernBERT обучалась только на английском языке, поэтому ее производительность может быть ниже для других языков
📌Лицензирование: Apache 2.0 License.
🟡Статья
🟡Набор моделей
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #ModernBERTConstrINT, которая решает задачи целочисленного удовлетворения ограничений, моделируя аппаратные ограничения в виде равенств, неравенств и ограничений делимости.
Эксперименты с FlashRNN показали существенное увеличение скорости работы: до 50 раз по сравнению с PyTorch. FlashRNN также позволяет использовать большие размеры скрытых состояний, чем нативная реализация Triton.
▶️ Локальная установка и пример запуска FlashRNN:
# Install FlashRNN
pip install flashrnn
# FlashRNN employs a functional structure, none of the parameters are tied to the `flashrnn` function:
import torch
from flashrnn import flashrnn
device = torch.device('cuda')
dtype = torch.bfloat16
B = 8 # batch size
T = 1024 # sequence length
N = 3 # number of heads
D = 256 # head dimension
G = 4 # number of gates / pre-activations for LSTM example
S = 2 # number of states
Wx = torch.randn([B, T, G, N, D], device=device, dtype=dtype, requires_grad=True)
R = torch.randn([G, N, D, D], device=device, dtype=dtype, requires_grad=True)
b = torch.randn([G, N, D], device=device, dtype=dtype, requires_grad=True)
states_initial = torch.randn([S, B, 1, N, D], device=device, dtype=dtype, requires_grad=True)
# available functions
# lstm, gru, elman, slstm
# available backend
# cuda_fused, cuda, triton and vanilla
states, last_states = flashrnn(Wx, R, b, states=states_initial, function="lstm", backend="cuda_fused")
# for LSTM the hidden h state is the first of [h, c]
# [S, B, T, N, D]
hidden_state = states[0]
📌Лицензирование: NXAI Community License:
🟠бесплатное использование в некоммерческих целях с маркировкой при публикации в отрытых источниках;
🟠получение коммерческой лицензии при годовом доходе свыше 100 млн.евро
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #RNN #FlashRNNllm-compressor версия Bamba 9B
🟢Bamba 9B 2T FP8 - квантованная с помощью llm-compressor версия Bamba 9B 2Т
🟠Bamba 9B 1.8T FP8 - квантованная с помощью llm-compressor версия Bamba 9B 1.8Т
▶️Пример инференса на Transformers с Bamba-9B:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("ibm-fms/Bamba-9B")
tokenizer = AutoTokenizer.from_pretrained("ibm-fms/Bamba-9B")
message = ["Mamba is a snake with following properties "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
response = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])
📌Лицензирование: Apache 2.0 License.
🟡Статья
🟡Набор моделей
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #Bamba #IBM# Clone repo
git clone https://github.com/infinigence/Infini-Megrez-Omni.git
cd Infini-Megrez-Omni
# Create conda env
conda create -n Megrez-Omni -y
conda activate Megrez-Omni
# Install dependencies
pip install -r requirements.txt
# Run webUI
python gradio_app.py --model_path {model_path} --port {port}
📌Лицензирование: Apache 2.0 License.
🟡Модель
🟡Demo
🖥Github
@ai_machinelearning_big_data
#AI #ML #MMLM #Megrez3BOmni# Clone repo
git clone https://github.com/SHI-Labs/OLA-VLM
cd OLA-VLM
# Create conda env
conda create -n ola_vlm -y
conda activate ola_vlm
# Install dependencies
pip install -e .["demo"]
pip install flash-attn --no-build-isolation
pip install scikit-learn icecream datasets pytorch-fid lpips opencv-python-headless
pip install setuptools==61.0.0
pip install huggingface_hub==0.24.7
pip install transformers==4.41.1
# Run webUI with one of models
CUDA_VISIBLE_DEVICES=0 python demo.py --model-path %path_to_model% --PT-model-path %path_to_model%
📌Лицензирование моделей: Apache 2.0 License.
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #MMLM #OLA-VLM
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
