Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
نمایش بیشتر📈 تحلیل کانال تلگرام Machinelearning
کانال Machinelearning (@ai_machinelearning_big_data) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 295 804 مشترک است و جایگاه 332 را در دسته فناوری و برنامهها و رتبه 1 276 را در منطقه روسيا دارد.
📊 شاخصهای مخاطب و پویایی
از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 295 804 مشترک جذب کرده است.
بر اساس آخرین دادهها در تاریخ 22 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر -6 276 و در ۲۴ ساعت گذشته برابر -223 بوده و همچنان دسترسی گستردهای حفظ شده است.
- وضعیت تأیید: تأیید نشده
- نرخ تعامل (ER): میانگین تعامل مخاطب 8.09% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 5.69% واکنش نسبت به کل مشترکان کسب میکند.
- دسترسی پستها: هر پست به طور میانگین 23 927 بازدید دریافت میکند. در اولین روز معمولاً 16 831 بازدید جمعآوری میشود.
- واکنشها و تعامل: مخاطبان بهطور فعال حمایت میکنند؛ میانگین واکنش به هر پست 193 است.
- علایق موضوعی: محتوا بر موضوعات کلیدی مانند openai, claude, api, gemini, контекст تمرکز دارد.
📝 توضیح و سیاست محتوایی
نویسنده این فضا را محل بیان دیدگاههای شخصی توصیف میکند:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
به لطف بهروزرسانیهای پرتکرار (آخرین داده در تاریخ 23 ژوئن, 2026)، کانال همواره بهروز و دارای دسترسی بالاست. تحلیلها نشان میدهد مخاطبان بهطور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامهها تبدیل کردهاند.
ElasticDeviceMesh: распределенная абстракция для отказоустойчивой связи;
🟢Асинхронное распределенное создание чекпоинтов с минимизацией времени блокировки;
🟢Восстановление чекпоинтов в реальном времени;
🟢Пользовательское ядро Int8 All-Reduce: квантование псевдоградиентов;
🟢Максимальное использование пропускной способности: шардинг псевдоградиентов, технология VPN.
🟢Реализация PyTorch FSDP2 / DTensor ZeRO-3: шардинг весов модели.
🟢Выгрузка тензоров в CPU.
Дорожная карта Prime:
🟠Масштабирование до более крупных и мощных моделей в научных, рассуждающих областях и в понимании программного кода;
🟠Разработка системы безопасного и проверяемого вклада в децентрализованное обучение;
🟠Создание фреймворка для инициации децентрализованного цикла обучения.
Присоединиться к проекту можно арендовав на любое время серверные мощности в личном кабинете Prime Intellect или подключив в нем сторонние облачные сервисы GPU.
Поддержка подключения локальных GPU через фреймворк Prime ожидается в будущем, открыт прием заявок через форму. Посмотреть статус обучения INTELLECT-1 можно по ссылке.
▶️Локальная установка и запуск фреймворка Prime:
# Install uv
curl -LsSf https://astral.sh/uv/install.sh | sh
source $HOME/.cargo/env
# Set up the env
uv venv
source .venv/bin/activate
uv sync --extra all
uv pip install flash-attn --no-build-isolation
git submodule update --init --recursive
# Running DiLoCo:
# !! Single GPU setups are currently not supported !!
# Using 2 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 1 src/zeroband/train.py @configs/debug/diloco.toml
# Using 4 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 2 src/zeroband/train.py @configs/debug/diloco.toml
📌Лицензирование кода : Apache 2.0 License.
🟡Страница проекта
🟡Документация
🟡Arxiv
🟡Датасет
🟡Сообщество в Discord
🟡Дашборд прогресса
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #Decentralized #TrainingAgent) и передачах управления (handoffs):
Агент - это набор инструкций и функций, который может передавать выполнение другим агентам. Его можно использовать для описания конкретного рабочего процесса или шага (например, последовательность шагов, сложный поиск, одноэтапное преобразование данных и так далее).
Передача управления — это процесс, при котором агент может передать запрос другому агенту, возвращая его в функцию. В процессе передачи управления также происходит обновление переменных контекста, что позволяет вернуть более полный объект Result.
▶️В репозитории собраны функциональные примеры Swarm:
🟢basic - простые примеры настройки, вызова функций, передача данных и контекстные переменные;
🟢traige agent - пример роя с агентом сортировки, который принимает пользовательские данные и решает, ответить ли на запрос напрямую или передать его агенту по продажам или возврату денег;
🟢weather agent - погодный агент с вызовом функций (запрос по городу и отправка на e-mail);
🟢airlines - мультиагентный пример обработки клиентских запросов в контексте авиакомпании (сортировка запросов, изменения рейсов, отмены бронирований и случаи потери багажа);
🟢support_bot - клиентский бот центра поддержки с несколькими инструментами;
🟢personal shopper - пример роя агентов персонального торгового агента, который может помогать совершать покупки и возвращать заказы;
⚠️ Swarm не использует API Assistants и полностью работает на API Chat Completions.
⚠️ Swarm не предназначен для промышленного использования и не имеет официальной поддержки.
▶️ Локальная установка и запуск:
# Install from PIP
pip install git+https://github.com/openai/swarm.git
# Usage
from swarm import Swarm, Agent
client = Swarm()
def transfer_to_agent_b():
return agent_b
agent_a = Agent(
name="Agent A",
instructions="You are a helpful agent.",
functions=[transfer_to_agent_b],
)
agent_b = Agent(
name="Agent B",
instructions="Only speak in Haikus.",
)
response = client.run(
agent=agent_a,
messages=[{"role": "user", "content": "I want to talk to agent B."}],
)
print(response.messages[-1]["content"])
📌Лицензирование : MIT License.
🖥GitHub
🟡Orchestrating Agents Cookbook
@ai_machinelearning_big_data
#AI #ML #Agents #OpenAI #Swarmtrain_text_to_video_lora.sh;
🟠LoRA для "IMG-to-video": cкрипт train_image_to_video_lora.sh;
🟠SFT всей модели для "text-to-video": скрипт train_text_to_video_sft.sh.
⚠️ Предварительная подготовка данных - один из важнейших условий CogVideoX Factory. Скрипт prepare_dataset.py играет ключевую роль в этом процессе, преобразуя видео и аннотации в латенты и эмбединги. Использование предварительно вычисленных латентов и эмбедингов позволяет не загружать VAE и T5 во время обучения.
CogVideoX Factory предлагает подробную документацию, в которой объясняются шаги по подготовке датасетов, настройке параметров обучения, запуску инференса, информацию о требованиях к памяти для каждой модели и конфигурации, помогая принять корректные решения о выборе стратегии обучения.
📌Лицензирование : Apache 2.0 License.
🖥Github
@ai_machinelearning_big_data
#AI #ML #LoRA #T2V #IMG2V #FinetuneBasics в каждой главе, прежде чем погружаться глубже. В разделе базовые знания вы также найдете пояснения, которые помогут вам разобраться в важных темах LLM: например, как работает инференс модели и что такое токенизация.
Более прикладными разделы: советы и рекомендации, устранение неполадок и разделы, посвященные дизайну.
▶️Оглавление:
🟢Автоматические бенчмарки
🟢Оценка человеком
🟢LLM-судья
🟢Устранение неполадок
🟢Базовые знания
📌 Планы на будущие гайды:
🟠Описание автоматических метрик;
🟠Какие основные моменты вы всегда должны учитывать при построении задачи;
🟠Зачем нужна оценка LLM;
🟠Почему сравнивать модели между собой - это сложно.
🖥Github
@ai_machinelearning_big_data
#AI #ML #LLM #Huggingface #Guidenumpy_quaddtype) — это реализация пользовательского типа данных (dtype) для NumPy, которая обеспечивает настоящую арифметику с плавающей точкой четверной точности на разных платформах.
Проект направлен на решение давних проблем с np.longdouble, предлагая согласованный, высокоточный тип с плавающей точкой независимо от базовой архитектуры системы, а также обеспечивая обратную совместимость long double.
Ядро numpy_quaddtype построено вокруг на двух ключевых компонентов:
🟢скалярный тип QuadPrecision, представляющий отдельные скаляры четверной точности;
🟢тип данных NumPy QuadPrecDType, позволяющий использовать эти скаляры четверной точности в массивах и операциях NumPy.
Отличительная черта numpy_quaddtype - его подход с двойным бэкэндом:
🟠SLEEF (библиотека SIMD для оценки элементарных функций): этот бэкэнд использует тип Sleef_quad из библиотеки SLEEF, предоставляя настоящую 128-битную учетверенную точность.
🟠Long Double: этот бэкэнд использует собственный тип long double, который может обеспечивать точность до 80 бит в некоторых системах, обеспечивая совместимость с np.longdouble.
Гибкость архитектуры numpy_quaddtype наследуется от компонентов ее ядра: QuadPrecisionObject, хамелеоноподобная структура, которая может переключаться между формами:
typedef union {
Sleef_quad sleef_value;
long double longdouble_value;
} quad_value;
typedef struct {
PyObject_HEAD
quad_value value;
QuadBackendType backend;
} QuadPrecisionObject;
QuadPrecDTypeObject, который действует как мост, позволяя высокоточным числам гармонично работать в массивах и операциях NumPy:
typedef struct {
PyArray_Descr base;
QuadBackendType backend;
} QuadPrecDTypeObject;
Он позволяет переключаться между бекэндами Sleef_quad (для SLEEF) и long double во время выполнения:
>>> import numpy as np
>>> import numpy_quaddtype as npq
# Using SLEEF backend (default)
>>> x = npq.QuadPrecision(3.5)
>>> x = npq.QuadPrecision(3.5, backend='sleef')
>>> repr(x)
QuadPrecision('3.5e+000', backend='sleef')
# Using longdouble backend
>>> y = npq.QuadPrecision(2.5, backend='longdouble')
>>> repr(y)
QuadPrecision('2.5e+000', backend='longdouble')
# Creating a NumPy array with QuadPrecision dtype
>>> z = np.array([x, x], dtype=npq.QuadPrecDType()) # SLEEF
>>> print(z)
[QuadPrecision('3.5e+000', backend='sleef')
QuadPrecision('3.5e+000', backend='sleef')]
>>> z = np.array([y, y], dtype=npq.QuadPrecDType("longdouble")) # longdouble
>>> print(z)
[QuadPrecision('2.5e+000', backend='longdouble')
QuadPrecision('2.5e+000', backend='longdouble')]
В тестах numpy_quaddtype с бэкендом SLEEF показал точность в 34 десятичных знаков. ULP (единица в младшем разряде) для основных арифметических операций ≤ 0,5000000001, а для трансцендентных функций ≤ 1,0.
C бэкендом Long Double показал точность, зависящую от платформы: 18-19 десятичных знаков в Linux и 15-17 в Windows.
В настоящее время ведётся подготовка к выпуску numpy_quaddtype в виде пакета Python, доступного через PyPI и conda. Также планируется направить предложение NEP для интеграции numpy_quaddtype в экосистему NumPy и рассмотреть TLFloat как потенциальную замену SLEEF в будущих версиях.
▶️Читать полную статью с демо возможностей numpy_quaddtype на примере визуализации множества Мандельброта при экстремальном увеличении и моделирование квантового гармонического осциллятора для двухатомных молекул.
@ai_machinelearning_big_data
#AI #ML #DS #Python #NumPylm-sys и ручной проверки на поиск дубликатов с тестовыми наборами данных.
OpenMathInstruct-2 показал высокую эффективность при обучении LLM.
Модель Llama3.1-8B-Base, обученная на OpenMathInstruct-2, превзошла Llama3.1-8B-Instruct на 15,9% по точности на наборе данных MATH, а OpenMath2-Llama3.1-70B обошла Llama3.1-70B-Instruct на 3,9%.
Датасет выпущен в 3-х размерностях: полный набор (примерно 7.5 GB) и уменьшенные версии train_1M (640 Mb), train_2M (1.3 Gb) и train_5M (3.1 Gb).
▶️ Модели, дообученные на этом датасете:
🟠OpenMath2-Llama3.1-70B, в формате Nemo, квантованные версии GGUF (от 3-bit до 8-bit);
🟠OpenMath2-Llama3.1-8B, в формате Nemo, квантованные версии GGUF (от 2-bit до 8-bit).
📌Лицензирование датасета : CC-BY-4.0 License.
📌Лицензирование моделей: Llama 3.1 Community License.
🟡Набор моделей
🟡Arxiv
🟡Датасет
@ai_machinelearning_big_data
#AI #ML #LLM #MATH #NVIDIA #Dataset
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
