Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
إظهار المزيد📈 نظرة تحليلية على قناة تيليجرام Machinelearning
تُعد قناة Machinelearning (@ai_machinelearning_big_data) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 296 149 مشتركاً، محتلاً المرتبة 329 في فئة التكنولوجيات والتطبيقات والمرتبة 1 275 في منطقة روسيا.
📊 مؤشرات الجمهور والحراك
منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 296 149 مشتركاً.
بحسب آخر البيانات بتاريخ 21 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار -6 159، وفي آخر 24 ساعة بمقدار -192، مع بقاء الوصول العام مرتفعاً.
- حالة التحقق: غير موثّقة
- معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 8.12%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 5.73% من ردود الفعل نسبةً إلى إجمالي المشتركين.
- وصول المنشورات: يحصل كل منشور على متوسط 24 037 مشاهدة. وخلال اليوم الأول يجمع عادةً 16 970 مشاهدة.
- التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 191.
- الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل openai, claude, api, gemini, контекст.
📝 الوصف وسياسة المحتوى
يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 22 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.
token type IDs, что упрощает ее использование.
ModernBERT доступна в двух вариантах:
🟢base с 22 слоями и 149 млн. параметров;
🟢large с 28 слоями и 395 млн. параметров.
Модель поддерживает длину контекста в 8192 токена против 512 в оригинальном BERT, это позволяет ей обрабатывать длинные документы и большие объемы текста.
Архитектурные улучшения включают в себя: использование RoPE (вместо механизмов позиционного кодирования), GeGLU слои, удаление смещений, дополнительный слой нормализации после эмбедингов и чередование глобального (Flash Attention 3) и локального (Flash Attention 2) внимания.
Каждые 3 слоя используют глобальное внимание с RoPE theta 160 000, а остальные слои – локальное скользящее окно с 128 токенами и RoPE theta 10 000. Для повышения эффективности ModernBERT использует метод unpadding, удаляя padding токены и обрабатывая последовательности как один пакет.
ModernBERT обучалась на 2 трлн. токенов данных (веб-документы, код и научная литература) на английском языке и использует новый токенизатор BPE, модифицированную версию токенизатора OLMo, с размером словаря в 50 368 токенов.
Результаты тестов показали, что ModernBERT превосходит другие модели в задачах поиска, понимания естественного языка и в задачах программирования.
Например, ModernBERT-base превосходит другие модели своего размера на GLUE и показала высокие результаты на CodeSearchNet и StackQA в кодинге, а ModernBERT-large уступает только Deberta-v3-large .
⚠️ ModernBERT обучалась только на английском языке, поэтому ее производительность может быть ниже для других языков
📌Лицензирование: Apache 2.0 License.
🟡Статья
🟡Набор моделей
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #ModernBERTConstrINT, которая решает задачи целочисленного удовлетворения ограничений, моделируя аппаратные ограничения в виде равенств, неравенств и ограничений делимости.
Эксперименты с FlashRNN показали существенное увеличение скорости работы: до 50 раз по сравнению с PyTorch. FlashRNN также позволяет использовать большие размеры скрытых состояний, чем нативная реализация Triton.
▶️ Локальная установка и пример запуска FlashRNN:
# Install FlashRNN
pip install flashrnn
# FlashRNN employs a functional structure, none of the parameters are tied to the `flashrnn` function:
import torch
from flashrnn import flashrnn
device = torch.device('cuda')
dtype = torch.bfloat16
B = 8 # batch size
T = 1024 # sequence length
N = 3 # number of heads
D = 256 # head dimension
G = 4 # number of gates / pre-activations for LSTM example
S = 2 # number of states
Wx = torch.randn([B, T, G, N, D], device=device, dtype=dtype, requires_grad=True)
R = torch.randn([G, N, D, D], device=device, dtype=dtype, requires_grad=True)
b = torch.randn([G, N, D], device=device, dtype=dtype, requires_grad=True)
states_initial = torch.randn([S, B, 1, N, D], device=device, dtype=dtype, requires_grad=True)
# available functions
# lstm, gru, elman, slstm
# available backend
# cuda_fused, cuda, triton and vanilla
states, last_states = flashrnn(Wx, R, b, states=states_initial, function="lstm", backend="cuda_fused")
# for LSTM the hidden h state is the first of [h, c]
# [S, B, T, N, D]
hidden_state = states[0]
📌Лицензирование: NXAI Community License:
🟠бесплатное использование в некоммерческих целях с маркировкой при публикации в отрытых источниках;
🟠получение коммерческой лицензии при годовом доходе свыше 100 млн.евро
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #RNN #FlashRNNllm-compressor версия Bamba 9B
🟢Bamba 9B 2T FP8 - квантованная с помощью llm-compressor версия Bamba 9B 2Т
🟠Bamba 9B 1.8T FP8 - квантованная с помощью llm-compressor версия Bamba 9B 1.8Т
▶️Пример инференса на Transformers с Bamba-9B:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("ibm-fms/Bamba-9B")
tokenizer = AutoTokenizer.from_pretrained("ibm-fms/Bamba-9B")
message = ["Mamba is a snake with following properties "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
response = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])
📌Лицензирование: Apache 2.0 License.
🟡Статья
🟡Набор моделей
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #Bamba #IBM# Clone repo
git clone https://github.com/infinigence/Infini-Megrez-Omni.git
cd Infini-Megrez-Omni
# Create conda env
conda create -n Megrez-Omni -y
conda activate Megrez-Omni
# Install dependencies
pip install -r requirements.txt
# Run webUI
python gradio_app.py --model_path {model_path} --port {port}
📌Лицензирование: Apache 2.0 License.
🟡Модель
🟡Demo
🖥Github
@ai_machinelearning_big_data
#AI #ML #MMLM #Megrez3BOmni# Clone repo
git clone https://github.com/SHI-Labs/OLA-VLM
cd OLA-VLM
# Create conda env
conda create -n ola_vlm -y
conda activate ola_vlm
# Install dependencies
pip install -e .["demo"]
pip install flash-attn --no-build-isolation
pip install scikit-learn icecream datasets pytorch-fid lpips opencv-python-headless
pip install setuptools==61.0.0
pip install huggingface_hub==0.24.7
pip install transformers==4.41.1
# Run webUI with one of models
CUDA_VISIBLE_DEVICES=0 python demo.py --model-path %path_to_model% --PT-model-path %path_to_model%
📌Лицензирование моделей: Apache 2.0 License.
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #MMLM #OLA-VLM
متاح الآن! بحث تيليغرام 2025 — أهم رؤى العام 
