Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
نمایش بیشتر📈 تحلیل کانال تلگرام Machinelearning
کانال Machinelearning (@ai_machinelearning_big_data) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 296 030 مشترک است و جایگاه 329 را در دسته فناوری و برنامهها و رتبه 1 275 را در منطقه روسيا دارد.
📊 شاخصهای مخاطب و پویایی
از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 296 030 مشترک جذب کرده است.
بر اساس آخرین دادهها در تاریخ 21 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر -6 159 و در ۲۴ ساعت گذشته برابر -192 بوده و همچنان دسترسی گستردهای حفظ شده است.
- وضعیت تأیید: تأیید نشده
- نرخ تعامل (ER): میانگین تعامل مخاطب 8.12% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 5.73% واکنش نسبت به کل مشترکان کسب میکند.
- دسترسی پستها: هر پست به طور میانگین 24 037 بازدید دریافت میکند. در اولین روز معمولاً 16 970 بازدید جمعآوری میشود.
- واکنشها و تعامل: مخاطبان بهطور فعال حمایت میکنند؛ میانگین واکنش به هر پست 191 است.
- علایق موضوعی: محتوا بر موضوعات کلیدی مانند openai, claude, api, gemini, контекст تمرکز دارد.
📝 توضیح و سیاست محتوایی
نویسنده این فضا را محل بیان دیدگاههای شخصی توصیف میکند:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
به لطف بهروزرسانیهای پرتکرار (آخرین داده در تاریخ 22 ژوئن, 2026)، کانال همواره بهروز و دارای دسترسی بالاست. تحلیلها نشان میدهد مخاطبان بهطور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامهها تبدیل کردهاند.
token type IDs, что упрощает ее использование.
ModernBERT доступна в двух вариантах:
🟢base с 22 слоями и 149 млн. параметров;
🟢large с 28 слоями и 395 млн. параметров.
Модель поддерживает длину контекста в 8192 токена против 512 в оригинальном BERT, это позволяет ей обрабатывать длинные документы и большие объемы текста.
Архитектурные улучшения включают в себя: использование RoPE (вместо механизмов позиционного кодирования), GeGLU слои, удаление смещений, дополнительный слой нормализации после эмбедингов и чередование глобального (Flash Attention 3) и локального (Flash Attention 2) внимания.
Каждые 3 слоя используют глобальное внимание с RoPE theta 160 000, а остальные слои – локальное скользящее окно с 128 токенами и RoPE theta 10 000. Для повышения эффективности ModernBERT использует метод unpadding, удаляя padding токены и обрабатывая последовательности как один пакет.
ModernBERT обучалась на 2 трлн. токенов данных (веб-документы, код и научная литература) на английском языке и использует новый токенизатор BPE, модифицированную версию токенизатора OLMo, с размером словаря в 50 368 токенов.
Результаты тестов показали, что ModernBERT превосходит другие модели в задачах поиска, понимания естественного языка и в задачах программирования.
Например, ModernBERT-base превосходит другие модели своего размера на GLUE и показала высокие результаты на CodeSearchNet и StackQA в кодинге, а ModernBERT-large уступает только Deberta-v3-large .
⚠️ ModernBERT обучалась только на английском языке, поэтому ее производительность может быть ниже для других языков
📌Лицензирование: Apache 2.0 License.
🟡Статья
🟡Набор моделей
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #ModernBERTConstrINT, которая решает задачи целочисленного удовлетворения ограничений, моделируя аппаратные ограничения в виде равенств, неравенств и ограничений делимости.
Эксперименты с FlashRNN показали существенное увеличение скорости работы: до 50 раз по сравнению с PyTorch. FlashRNN также позволяет использовать большие размеры скрытых состояний, чем нативная реализация Triton.
▶️ Локальная установка и пример запуска FlashRNN:
# Install FlashRNN
pip install flashrnn
# FlashRNN employs a functional structure, none of the parameters are tied to the `flashrnn` function:
import torch
from flashrnn import flashrnn
device = torch.device('cuda')
dtype = torch.bfloat16
B = 8 # batch size
T = 1024 # sequence length
N = 3 # number of heads
D = 256 # head dimension
G = 4 # number of gates / pre-activations for LSTM example
S = 2 # number of states
Wx = torch.randn([B, T, G, N, D], device=device, dtype=dtype, requires_grad=True)
R = torch.randn([G, N, D, D], device=device, dtype=dtype, requires_grad=True)
b = torch.randn([G, N, D], device=device, dtype=dtype, requires_grad=True)
states_initial = torch.randn([S, B, 1, N, D], device=device, dtype=dtype, requires_grad=True)
# available functions
# lstm, gru, elman, slstm
# available backend
# cuda_fused, cuda, triton and vanilla
states, last_states = flashrnn(Wx, R, b, states=states_initial, function="lstm", backend="cuda_fused")
# for LSTM the hidden h state is the first of [h, c]
# [S, B, T, N, D]
hidden_state = states[0]
📌Лицензирование: NXAI Community License:
🟠бесплатное использование в некоммерческих целях с маркировкой при публикации в отрытых источниках;
🟠получение коммерческой лицензии при годовом доходе свыше 100 млн.евро
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #RNN #FlashRNNllm-compressor версия Bamba 9B
🟢Bamba 9B 2T FP8 - квантованная с помощью llm-compressor версия Bamba 9B 2Т
🟠Bamba 9B 1.8T FP8 - квантованная с помощью llm-compressor версия Bamba 9B 1.8Т
▶️Пример инференса на Transformers с Bamba-9B:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("ibm-fms/Bamba-9B")
tokenizer = AutoTokenizer.from_pretrained("ibm-fms/Bamba-9B")
message = ["Mamba is a snake with following properties "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
response = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])
📌Лицензирование: Apache 2.0 License.
🟡Статья
🟡Набор моделей
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #Bamba #IBM# Clone repo
git clone https://github.com/infinigence/Infini-Megrez-Omni.git
cd Infini-Megrez-Omni
# Create conda env
conda create -n Megrez-Omni -y
conda activate Megrez-Omni
# Install dependencies
pip install -r requirements.txt
# Run webUI
python gradio_app.py --model_path {model_path} --port {port}
📌Лицензирование: Apache 2.0 License.
🟡Модель
🟡Demo
🖥Github
@ai_machinelearning_big_data
#AI #ML #MMLM #Megrez3BOmni# Clone repo
git clone https://github.com/SHI-Labs/OLA-VLM
cd OLA-VLM
# Create conda env
conda create -n ola_vlm -y
conda activate ola_vlm
# Install dependencies
pip install -e .["demo"]
pip install flash-attn --no-build-isolation
pip install scikit-learn icecream datasets pytorch-fid lpips opencv-python-headless
pip install setuptools==61.0.0
pip install huggingface_hub==0.24.7
pip install transformers==4.41.1
# Run webUI with one of models
CUDA_VISIBLE_DEVICES=0 python demo.py --model-path %path_to_model% --PT-model-path %path_to_model%
📌Лицензирование моделей: Apache 2.0 License.
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #MMLM #OLA-VLM
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
