Machinelearning

Kanalga Telegram’da o‘tish

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Ko'proq ko'rsatish

Tarmoq:Machinelearning Rossiya1 273 Texnologiyalar & Aralashmalar332...

📈 Telegram kanali Machinelearning analitikasi

Machinelearning (@ai_machinelearning_big_data) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 295 549 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 332-o'rinni va Rossiya mintaqasida 1 273-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 295 549 obunachiga ega bo‘ldi.

23 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -6 330 ga, so‘nggi 24 soatda esa -217 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 7.94% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 5.68% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 23 490 marta ko‘riladi; birinchi sutkada odatda 16 791 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 190 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent openai, claude, api, gemini, контекст kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 24 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

295 549

Obunachilar

-21724 soatlar

-1 4607 kunlar

-6 33030 kunlar

23 490

Post ko'rishlar

~ 16 79124 soatlar

~ 18 91448 soatlar

7.94%

Muloqot nisbati

~ 5

Kuniga postlar

Ads index

beta

Postlar arxiv

295 482

🌟 EfficientQAT: метод эффективного квантизационного обучения LLM Efficient Quantization-Aware Training (EfficientQAT) предлагает новую технику для сжатия LLM, состоящую из двух этапов: блочное обучение всех параметров (Block-AP) и обучение параметров квантизации (E2E-QP). Block-AP последовательно проводит квантизационное обучение для всех параметров каждого блока трансформера с блочной реконструкцией. Это позволяет избежать обучения всей модели и сохраняет эффективность памяти. На втором этапе EfficientQAT фиксируются квантованные веса и обучаются только параметры квантизации (шаги квантования) на целевых наборах данных. Это повышает производительность квантизации и позволяет проводить инструктаж моделей для выполнения специфических задач. Эксперименты, проведенные в ходе исследования показывают, что EfficientQAT превосходит существующие методы квантизации по производительности и эффективности потребления памяти. Например, модель Llama-2-70B была квантована до 2 бит на одном GPU A100-80GB за 41 час с потерей точности менее 3%. EfficientQAT также способен улучшать точность в сложных условиях 2-битной квантизации и позволяет эффективно проводить finetune моделей. В репозитории проекта предоставлен большой список на предварительно квантованных Model Zoo моделей семейств Llama-2 и Llama-3 в форматах EQAT, GPTQ и BitBLAS. 🟡Arxiv 🟡Модели на на HF 🖥Github [ Stars: 62 | Issues: 1 | Forks: 3] @ai_machinelearning_big_data #AI #LLM #EQAT #ML #Quantization

295 482

Инфраструктура для ML и AI задач Кластеры Kubernetes отлично подходят для запуска ML-проектов в продакшене. С их помощью можно изолировать проведение разных экспериментов, автоматизировать их запуск и управление, а также быстро масштабировать ресурсы под нагрузкой. Добавление нод с GPU в такие кластеры ускорит обучение ML-моделей и повысит их производительность в продакшене. В сервисе Managed Kubernetes от Selectel, как раз есть все необходимое для работы с ML-проектами: ▪️ Большой запас видеокарт под любую задачу в наличии: NVIDIA А2, А30, А100, А2000, А5000, Tesla Т4, GTX 1080, GTX 2080 ▪️ Отказоустойчивость и автомасштабирование нод c GPU. В зависимости от нагрузки Kubernetes автоматически создаст или удалит ноды в группе. ▪️ Простая настройка драйверов на GPU-нодах кластера. Используйте предустановленные драйверы или самостоятельно установите нужные с помощью GPU Operator А сейчас новые клиенты Managed Kubernetes c GPU могут получить 100% кешбэк за первый месяц использования сервиса. Развернуть свой ML-проект в кластерах Kubernetes c GPU и получить кешбэк можно по ссылке: https://slc.tl/3nec3 Реклама АО «Селектел». ИНН: 7810962785 Erid: 2VtzqueYoW2

295 482

🔥 Новостной дайджест ✔️Gam.hp - инструмент для оценки относительной важности предикторов в обобщенных аддитивных моделях. Исследователи из Nanjing Forestry University и Guangzhou Climate and Agro-meteorology Center в Китае создали пакет программного обеспечения - gam.hp, который рассчитывает индивидуальные значения R² для предикторов на основе концепции "средней общей дисперсии" - метода, ранее применявшегося для множественной регрессии и канонических анализов. Это позволяет справедливо распределить общий R² между связанными предикторами, обеспечивая меру уникального и общего вклада каждого предиктора в пригодность модели. Пакет gam.hp доступен для Windows и MacOS. Исходный код выложен на Github phys.org ✔️Lean-STaR - как неформальные рассуждения могут улучшить формальное доказательство теорем. Исследователи из университетов Carnegie Mellon и Tsinghua разработали Lean-STaR, фреймворк для автоматизированного доказательства теорем, объединяющий неформальные рассуждения с формальной проверкой. Этот подход, использующий языковые модели для генерации мыслей на естественном языке перед каждым шагом доказательства, достиг передовых результатов в среде Lean и обещает значительно продвинуть автоматизированные математические рассуждения и их применение в AI. marktechpost.com ✔️Mosaic AI: Model Training и Fine Tune моделей GenAI. Databricks открыла доступ к публичной предварительной версии Mosaic AI, инструменту для тонкой настройки или предварительного обучения широкого спектра моделей, включая Llama 3, Mistral, DBRX и другие. Fine Tune Llama 3 70B с датасетом в 10 млн слов будет стоить согласно тарифам 250 USD, 500 млн слов - 11,440 USD databricks.com ✔️LOTUS: Фреймворк для создания наукоемких LLM-приложениq, которые могут рассуждают над данными. LOTUS предоставляет декларативную модель программирования и оптимизированный механизм запросов для обслуживания мощных конвейеров запросов на основе рассуждений к структурированным и неструктурированным данным. В основе реализован простой и интуитивно понятный Pandas-подобный API, который реализует семантические операторы для расширения реляционной модели набором модульных операторов на основе языка. Пользователи могут легко комбинировать такие операторы с традиционными операциями с данными для создания современных систем искусственного интеллекта, способных рассуждать об огромных массивах знаний. stanford-futuredata ✔️Maestro: Оркестратор рабочих процессов от Netflix с открытым исходным кодом. Maestro - это горизонтально масштабируемый оркестратор рабочих процессов общего назначения, предназначенный для управления крупными рабочими процессами, такими как конвейеры обработки данных и конвейеры обучения моделей машинного обучения. Пользователи могут упаковывать свою бизнес-логику в различные форматы, такие как образы Docker, блокноты, сценарии bash, SQL, Python и т.д. Maestro поддерживает как ациклические, так и циклические рабочие процессы, а также включает множество шаблонов многократного использования, включая циклы foreach, подпроцессы, условные ветвления и т. д. Ознакомится с проектом можно в репозитории на Github netflixtechblog.com ✔️Климатическая модель от Google: генерация недельной симуляции атмосферы всего за 9,2 секунды. Модель NeuralGCM, разработанная в сотрудничестве Google и Европейского центра прогнозов погоды на средние расстояния (ECMWF), - это новая атмосферная модель, объединяющая традиционное физическое моделирование с машинным обучением (ML). Модель предназначена для повышения точности и эффективности прогнозирования погоды и климата. NeuralGCM превосходит существующие модели в прогнозировании циклонов и их трасс. Примечательной особенностью NeuralGCM является его исключительная вычислительная эффективность, способная генерировать 22,8-дневное моделирование атмосферы в течение 30 секунд, при этом вычислительные затраты в 100 000 раз ниже, чем у традиционных моделей. Google выложил исходный код и весовые коэффициенты модели NeuralGCM в открытый доступ на GitHub. ✔️Kling теперь доступна для всех. @ai_machinelearning_big_data #news #digest #ml

295 482

Изучите применение ChatGPT в рабочих целях, чтобы получить от этого прибыль. Сейчас самое время начать использовать искусственный интеллект. Здесь вы узнаете, почему стоит освоить ChatGPT. Это поможет вам: - Использовать ChatGPT в вашей профессиональной сфере. - Предлагать компаниям разработку индивидуально дообученного ChatGPT по заказу. - Увеличить свой доход, освоив навык создания индивидуально дообученного ChatGPT. Зарегистрируйтесь на бесплатный вебинар, чтобы узнать больше деталей. Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395. erid: LjN8JuvTo

295 482

⚡️ Llama-3.1: Обновление семейства моделей Llama 3.1 - набор предварительно обученных и настроенных по инструкции генеративных моделей размером 8B, 70B и 405B (текст в тексте/текст на выходе). Модели Llama 3.1 с инструкциями (8B, 70B, 405B) оптимизированы для использования в многоязычных диалогах и превосходят многие из доступных моделей с открытым исходным кодом и закрытых моделей для чатов в распространенных отраслевых тестах. Llama 3.1 - это авторегрессивная языковая модель, использующая оптимизированную архитектуру трансформаторов. В настроенных версиях используются контролируемая тонкая настройка (SFT) и обучение с подкреплением и обратной связью (RLHF) для согласования с предпочтениями человека в отношении полезности и безопасности. ▶️Доступные для скачивания модели LLaMa 3.1( полный список)

Pretrained:
Meta-Llama-3.1-8B
Meta-Llama-3.1-70B
Meta-Llama-3.1-405B
Meta-Llama-3.1-405B-MP16
Meta-Llama-3.1-405B-FP8

Fine-tuned:
Meta-Llama-3.1-8B-Instruct
Meta-Llama-3.1-70B-Instruct
Meta-Llama-3.1-405B-Instruct
Meta-Llama-3.1-405B-Instruct-MP16
Meta-Llama-3.1-405B-Instruct-FP8
Llama-Guard-3-8B
Llama-Guard-3-8B-INT8
Llama-Guard-2-8B
Llama-Guard-8B
Prompt-Guard-86M

▶️ Комментарии к версии 405B: 🟢MP16 (Model Parallel 16) - полная версия весов BF16. Эти веса можно запустить только на нескольких нодах с использованием pipelined parallel инференса. Минимально требуется 2 ноды с 8 GPU. 🟢MP8 - полная версия весов BF16, но может быть развернута на одной ноде с 8 GPU с использованием динамического квантования FP8 (Floating Point 8). 🟢FP8 (Floating Point 8) - квантованная версия весов. Эти веса можно запустить на одной ноде с 8 GPU и с использованием статического квантования FP. 📌 Модель 405B требует примерно 750 ГБ и минимум двух нод (по 8 GPU) для инференса в MP16. 📌Загрузить модели можно с сайта Meta.Ai или с официальное репозитория на Huggingface Для скачивания нужно заполнить форму запроса доступа. 🟠UPD: Первая GGUF-версия на HF в Q8 уже появилась. @ai_machinelearning_big_data #AI #Llama3.1 #ML #LLM

295 482

⚡️Я️ндекс выложил в опенсорс новые методы сжатия нейросетей Решение разработано совместно с IST Austria и представляет собой двухэтапный метод сжатия, позволяющий уменьшать модели до 8 раз, при этом сохранив качество их ответов на 95%. Это позволит сэкономить потребляемые ресурсы и ускорить работу нейросетей. Эффективность методов оценивали на популярных моделях с открытым исходным кодом: LLama 2, Mistral, Mixtral и других. На Хабре разработчики также могут скачать уже сжатые с помощью метода популярные опенсорс модели. Авторы выложили демо-материалы, которые помогут правильно дообучить уменьшенные нейросети под свои сценарии. ▪️Habr: https://habr.com/ru/companies/yandex/articles/830410/ @ai_machinelearning_big_data

295 482

🌟 Minitron 8В и 4В: Две новые pruned-модели на базе Nemotron-4 15B Minitron - это семейство малых языковых моделей (SLMs), полученных путем экспериментального метода pruning модели Nemotron-4 15B (NVIDIA). Метод состоит из уменьшения embedding size, attention heads и промежуточной размерности MLP, после чего продолжается обучение с дистилляцией до финального результата. Суть экспериментальности состоит в том, что для получения 8В и 4В из 15В требуется в 40 раз меньше обучающих токенов и это дает экономию вычислительных ресурсов почти в 1.8 раза по сравнению с классическим обучением. Более подробно методика описана в исследовании на arxiv 🟢Minitron-8B использует embedding size 4096, 48 attention heads и промежуточную размерность MLP 16384. 🟢Minitron-4B использует embedding size 3072, 32 attention heads и промежуточную размерность MLP 9216. В обеих моделях используется Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Датасет для Minitron-8B-Base состоит из англоязычных и мультиязычных текстов (веб-страницы, диалоги, статьи и другие материалы) взятых из различных областей (юриспруденция, математика, наука, финансы) и примеров кода на различных языках программирования. Для повышения эффективности модели были добавлены в обучающий набор данные типов QA (question-answering) и ASD (alignment style data). Актуальность датасета: Июнь 2023 Модели Minitron показали улучшение результатов MMLU на 16 % по сравнению с обучением с нуля и сопоставимы с Mistral 7B, Gemma 7B и Llama-3 8B. ❗️ Модели Minitron предназначены только для исследований и разработок. PR поддержки моделей в Hugging Face находится на рассмотрении, и ожидается, что она появится в ближайшее время. ▶️ Для локального запуска следует использовать ветку Github с коммитом ID 63d9cb0 :

git clone git@github.com:suiyoubi/transformers.git

cd transformers

git checkout 63d9cb0

pip install .

📌 Лицензирование: NVIDIA Open Model License Agreement 🟡Модель 8B 🟡Модель 4B 🟡Arxiv 🖥Github [ Stars: 5 | Issues: 0 | Forks: 9] @ai_machinelearning_big_data #AI #Minitron #ML #NVIDIA #SLMs

295 482

🌟 ZebraLogic: Комплексная оценка логического мышления крупных языковых моделей. ZebraLogic - бенчмарк, основанный на логических головоломках и представляет собой набор из 1000 программно сгенерированных заданий различной сложности - с сеткой от 2x2 до 6x6. Каждая головоломка состоит из N домов (пронумерованных слева направо) и M характеристик для каждого дома. Задача заключается в том, чтобы на основе предоставленных подсказок определить уникальное распределение значений характеристик по домам. Языковым моделям предоставляется один пример решения головоломки с подробным объяснением хода рассуждений и ответом в формате JSON. Затем модели должны решить новую задачу, предоставив как ход рассуждений, так и окончательное решение в заданном формате. ⏩Метрики оценки: 1. Точность на уровне головоломки (процент полностью правильно решенных головоломок). 2. Точность на уровне ячеек (доля правильно заполненных ячеек в матрице решения). ⏩Головоломки разделены на два уровня по сложности: 1. Легкие (сетка менее 3x3) 2. Сложные (сетка размером 3x3) и более. ✔️ Результаты оценки популярных моделей, представленные в публичном лидерборде: 🟢лучшие результаты показала Claude 3.5 Sonnet, решившая 33,4% всех головоломок и 12,4% сложных задач 🟢лучший результат среди открытых моделей у DeepSeek-v2-Chat (0628) 🟢модели с 7-10B параметров продемонстрировали крайне низкую эффективность на сложных головоломках (менее 1% решенных задач) 🟢Gemini-1.5-Pro оказалась сопоставима с более легкой Gemini-1.5-Flash 🟢Greedy decoding в большинстве случаев дает лучшие результаты, чем сэмплирование. ✔️ Для сравнения, средняя время выполнение теста человеком: 2x2 ~ 15 секунд 3х3 ~ 1 минута 30 секунд 4х4 ~ от 10 до 15 минут ▶️ Локальный запуск ZebraLogic в рамках фреймфорка ZeroEval

# Install via conda

conda create -n zeroeval python=3.10
conda activate zeroeval

# pip install vllm -U # pip install -e vllm 

pip install vllm==0.5.1
pip install -r requirements.txt
# export HF_HOME=/path/to/your/custom/cache_dir/

# Run Meta-Llama-3-8B-Instruct via local, with greedy decoding on `zebra-grid`
bash zero_eval_local.sh -d zebra-grid -m meta-llama/Meta-Llama-3-8B-Instruct -p Meta-Llama-3-8B-Instruct -s 4

📌Лицензирование: Apache-2.0 license 🟡Страница проекта 🟡Датасет на HF 🟡Leaderboard 🖥Github [ Stars: 38 | Issues: 1 | Forks: 1] @ai_machinelearning_big_data #AI #Benchmark #LLM #Evaluation #ML

295 482

Новостной дайджест ✔️ Разработчики Llama откладывают выпуск модели LLama-3-400B в ЕС Релиз самой большой модели компании для пользователей из ЕС отложен на неопределенный срок из-за непредсказуемого поведения регулирующих органов. Решение компания подчеркивает напряженность в отношениях между крупными технологическими компаниями и руководством ЕС на фоне ужесточения нормативно-правовой базы. Брюссель вводит Закон ЕС об искусственном интеллекте, который вступает в силу в следующем месяце, в то время как для крупных технологических компаний вводятся новые нормативные требования в виде Закона о цифровых рынках (DMA). theguardian.com ✔️ Китайские технологические компании предлагают "воскресить" умерших близких с помощью аватаров искусственного интеллекта. Цифровые аватары могут быть созданы на основе видео и аудио с изображением живого человека или его социальных сетей. Некоторые клиенты предпочитают низкотехнологичные решения, такие как использование ИИ для имитации голоса умершего человека, без моделирования визуального образа. npr.org ✔️ Neo4j Knowledge Graph Builder: Инструмент, создающий графы знаний из неструктурированных данных. Neo4j использует несколько моделей машинного обучения для обработки различных форматов данных. Он универсален в настройке схемы извлечения и хорошо работает с английским языком. Архитектура построена на модуле llm-graph-transformer и легко адаптируется для использования в Google Cloud Run и Docker Compose marktechpost.com ✔️ Agent Symbolic Learning: первый фреймворк для обучения агентов с открытым исходным кодом AIWaves разработала комплексную систему символьного обучения "Agent Symbolic Learning", которая обеспечивает автоматическую оптимизацию и автономную эволюцию AI-агентов за счет симуляции алгоритмов обратного распространения и градиентного спуска. Фреймворк использует большие модели и оперативное проектирование для преобразования оценок задач в потери и градиенты на основе текста. jiqizhixin.com ✔️ Microsoft на ICML 2024: инновации в области машинного обучения. На ICML 2024 компания Microsoft представила 68 научных работ, из них несколько были выбранных для устных докладов: NaturalSpeech 3 - новая система преобразования текста в речь, использующая факторизованные диффузионные модели для генерации речи. CompeteAI - фреймворк для изучения конкуренции агентов с помощью больших языковых моделей, который позволил получить представление о социальном обучении и накопленном преимуществе. PRISE - новый подход к обучению временным абстракциям действий, проводя аналогию между квантованием действий и токенизацией текста в LLM, позволяет более эффективно и результативно обучать навыкам для непрерывного контроля. microsoft.com ✔️ Triplex: Открытая SOTA LLM для построения графов знаний обеспечивает структурирование данных с помощью экономичных и эффективных решений. Triplex - это доработанная версия Phi3-3.8B для создания графов знаний из неструктурированных данных, разработанная SciPhiAI. Принцип работы основан на построении локальных графов с помощью R2R путем извлечения триплетов - простых утверждений, состоящих из субъекта, предиката и объекта, - из текста или других источников данных. Она обеспечивает снижение затрат на создание графов знаний на 98 %, относительно GPT-4 по стоимости. Модель доступна на Huggingface. sciphi.ai @ai_machinelearning_big_data #digest #news

295 482

⚡️ Arcee: Семейство merdge-моделей от сервиса arcee.ai Arcee.ai - сервис, основанный в сентябре 2023 года ( Mark McQuade, Jacob Solawetz и Brian Benedict), который предоставляет услуги тренинга LLM для корпоративных клиентов. Сервисом представлены в открытом доступе 2 новые модели: Arcee-Scribe и Arcee-Nova. ✔️ Arcee-Scribe (7.74B) - это универсальная модель чата, ориентированная на рассуждения, решение творческих задач и написание текстов. Модель представляет собой слияние InternLM-2.5-chat с пользовательской InternLM finetune, включающей как общие, так и специфические для письма данные. Возможности и примеры использования: 🟢role-play диалоги с подтекстом и сложными эмоциями; 🟢объяснение сложных идей с помощью творческих аналогий; 🟢создание историй с нелинейным повествованием или уникальной перспективой и сложной повествовательной структурой; 🟢решение бизнес-задач: создание контента, описание продукции, коммуникация с потребителями, брейнстрорминг. Модель набрала 48.5 балла в AGI-Eval, 60.1 в BIG Bench Hard и 69.4 в GPT 4ALL бенчмарках. Это лучший показатель по сравнению с Llama-3-8B-Instuct по всем тестам и Mistral-7B-Instruct v03 в двух из трех. Модель представлена в квантованиях (GGUF) от 2Bit (Q2 - 2.78GB) до 32bit (F32 - 31Gb) и в Transformers ✔️ Arcee-Nova (72.7B) - высокопроизводительная мультиязычная модель с широким спектром языковых задач. Nova - это объединение Qwen2-72B-Instruct с собственной моделью, настроенной на смеси обобщенных данных. Возможности и примеры использования: 🟠решение сложных задач, логические выводы и рассуждения; 🟠создание увлекательного и оригинального текстового контента в различных жанрах; 🟠помощь в решении задач программирования, от создания кода до его отладки; 🟠общее понимание языка, создание человекоподобных текстов в различных контекстах. 🟠решение бизнес-задач: создание контента, разработка программного обеспечения, коммуникация с потребителями, анализ данных и построение отчетов, исследования и гипотезы, анализ документов и проверка соответствия нормативным требованиям, адаптивные системы обучения и интеллектуальные обучающие программы. Модель показала лучшие результаты (43.68) в совокупности тестов ( IFEval, BBH, MATH Lvl 5, GPQA, MUSR и MMLU-PRO) по сравнению с Qwen2-72B-Instruct, OrcaMini_V7-72B, LLama-3-70B-Instruct-DPO-v2.0 и другими моделями. Модель представлена в квантованиях (GGUF) от 1Bit (Q1 - 24GB) до 16bit (F32 - 145Gb) и в Transformers 📌Лицензирование Arcee-Scribe Для некоммерческих проектов - Apache2.0 Для коммерческого использования: - через подачу заявки у InternLM 📌Лицензирование Arcee-Nova Для некоммерческих проектов - свободно, тип не определен. Для коммерческого использования: - симметрично Qwen2-72B 🟡Страница проекта 🟡Модели Arcee-Scribe 🟡Модели Arcee-Nova 🟡Demo Arcee-Nova @ai_machinelearning_big_data #AI #LLM #GGUF #ML #ArceeNova #ArceeScribe

295 482

🌟 XTuner Release V0.1.22: Обновление суперэффективного фреймворка для тонкой настройки LLMs. XTuner - это простой, гибкий и полнофункциональный набор инструментов для тонкой настройки больших моделей (LLM, VLM) практически на всех GPU (от 7B LLM на 8 Gb VRAM до 70B+ на многоузловых GPU). Обновление V0.1.22: 🟠улучшен контроль за памятью; 🟠улучшена поддержка Sequence Parallelism в Preference Alignment ; 🟠исправлено более 10 ошибок предыдущей версии; 🟠добавлена поддержка internlm2.5; 🟠добавлена поддержка DatasetInfoHook в DPO; 🟠добавлен конфиг minicpm для sft, qlora, lora и DPO. С учетом обновления XTuner поддерживает: *️⃣Mодели: InternLM2 / 2.5, Liama 2/3, Phi-3, ChatGLM 2/3, QWen, Mixtral, DeepSeek V2, Gemma, Baichuan 2. *️⃣SFT Датасеты: MSAgent-Bench, MOSS-003-SFT, Alpaca, WizardLM, oasst1, Open-Platypus, Code Alpaca, Colorist, Arxiv GenTitle, Chinese Law, OpenOrca, Medical Dialogue. *️⃣Дата Пайплайны: Incremental Pre-training, Single-turn Conversation SFT, Multi-turn Conversation SFT. *️⃣Алгоритмы: QLoRA, LoRA, Full parameter fine-tune, DPO, ORPO, Reward Model. ▶️ Локальный запуск

# It is recommended to build a Python-3.10 virtual environment using conda
conda create --name xtuner-env python=3.10 -y
conda activate xtuner-env

# Install XTuner from source
git clone https://github.com/InternLM/xtuner.git
cd xtuner
pip install -e '.[all]'

# Step 0, prepare the config
xtuner list-cfg

# Step 1, start fine-tuning
xtuner train ${CONFIG_NAME_OR_PATH}

# For example, we can start the QLoRA fine-tuning of InternLM2.5-Chat-7B with oasst1 dataset by
# On a single GPU
xtuner train internlm2_5_chat_7b_qlora_oasst1_e3 --deepspeed deepspeed_zero2

# On multiple GPUs
(DIST) NPROC_PER_NODE=${GPU_NUM} xtuner train internlm2_5_chat_7b_qlora_oasst1_e3 --deepspeed deepspeed_zero2

(SLURM) srun ${SRUN_ARGS} xtuner train internlm2_5_chat_7b_qlora_oasst1_e3 --launcher slurm --deepspeed deepspeed_zero2

# Step 2, convert the saved PTH model (if using DeepSpeed, it will be a directory) to Hugging Face model
xtuner convert pth_to_hf ${CONFIG_NAME_OR_PATH} ${PTH} ${SAVE_PATH}

📌Лицензирование: Apache-2.0 🟡Страница проекта 🖥Github [ Stars: 3.4K | Issues: 122 | Forks: 274] @ai_machinelearning_big_data #AI #FineTuning #LLM #XTuner #ML

295 482

Стоит ли вам начинать карьеру в аналитике и Date Science? Онлайн-встреча, которая поможет понять Вокруг работы с данными много мифов: сложно начать карьеру — просто начать карьеру — нужно начинать с бизнес-аналитики — всем надо в системные аналитики. День открытых дверей «Как начать карьеру в аналитике и Data Science» поможет разобраться, что из этого правда, а что нет. Продюсеры Нетологии ответят на волнующие вопросы: — По-прежнему ли высок спрос на аналитиков? — В какие компании устраиваться на работу в сфере данных, чтобы хорошо зарабатывать? — С чего стартовать в аналитике и Data Science и сложно ли это? Участники встречи получат в подарок гайд «Как войти в сферу данных и найти своё направление». Он поможет принять взвешенное решение о старте карьеры в новой для вас профессии. Приоткройте для себя двери в аналитику: https://netolo.gy/djxH Реклама. ООО "Нетология". Erid: 2VSb5xrRBLU

295 482

🌟 VGGSfM: 3D-реконструкция на основе глубокого анализа структуры в движении. VGGSfM предлагает новый подход к процессу реконструкции трехмерной структуры сцены и положения камер по набору фотографий. Вместо цепочки отдельных алгоритмов поиска ключевых точек, сопоставления их между кадрами, длительного восстановления положения камер относительно координат ключевых точек, была разработана модель, каждый компонент которой работает параллельным сквозным принципом. Ключевые особенности метода: 🟢Вместо поиска соответствий между парами изображений, модель сразу отслеживает точки через все кадры последовательности. 🟢Положения всех камер оцениваются одновременно, а не последовательно. 🟢Для финальной оптимизации используется дифференцируемый слой. В ходе тестирования при обучении особенно хорошие результаты были получены на сложных сценах с большими изменениями ракурса между кадрами. Там, где традиционные методы часто терпели неудачу, VGGSfM справлялся с задачей. Локальная установка:


source install.sh
Локальный запуск:

# Убедитесь, что целевые изображения находятся в ВАША_ПАПКА/images, а необходимые модели скачены

python demo.py SCENE_DIR=/path_to_images resume_ckpt=/path_to_models

# Результаты реконструкции (параметры камеры и 3D-точки) будут сохранены в формате COLMAP в директории output/seq_name
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
# Визуализация
# Установите и запустите visdom

pip install visdom

pip install git+https://github.com/fossasia/visdom

visdom

# Откройте http://localhost:8097 в браузере. Затем запустите демо с флагом "visualize=True"

python demo.py SCENE_DIR=/path_to_images resume_ckpt=/path_to_models visualize=True

▶️ VGGSfM поддерживает извлечение плотных карт глубины с помощью Depth-Anything-V2 (бета):


python 
pip install scikit-learn

git clone git@github.com:DepthAnything/Depth-Anything-V2.git dependency/depth_any_v2

# Затем запустите демо с флагом "dense_depth=True"

python demo.py SCENE_DIR=/path_to_images resume_ckpt=/path_to_models dense_depth=True

▪ Страница проекта ▪Модели на HF ▪Demo ▪Github [ Stars: 529 | Issues: 16 | Forks: 33] @ai_machinelearning_big_data #AI #3D #Depthmap #ML #Reconstruction

295 482

🌟 FoleyCrafter: Генерация звуковых эффектов для беззвучных видео. FoleyCrafter - методика, разработанная для автоматического создания звуковых эффектов, синхронизированных с целевым видеорядом Архитектура метода построена на основе предварительно обученной модели преобразования текста в аудио (Text2Audio). Система состоит из двух ключевых компонентов: 🟢Семантический адаптер - использует параллельные слои cross-attention для обусловливания генерации аудио на основе видеопризнаков. Выполняет семантическое соответствие генерируемых звуков визуальному контенту. 🟢Временной контроллер - детектор временных меток анализирует и предсказывает интервалы звука и тишины в видео. Временной адаптер синхронизирует аудио с видео на основе выставленных детектором временных меток. Оба компонента являются обучаемыми модулями, которые принимают видео в качестве входных данных для синтеза аудио. При этом модель Text2Audio остается фиксированной для сохранения ее способности к синтезу аудио постоянного качества. Разработчики FoleyCrafter провели количественные и качественные эксперименты на наборах данных VGGSound и AVSync15 по метрикам семантического соответствия MKL, CLIP Score, FID и временной синхронизации Onset ACC, Onset AP. По сравнению с существующими методами Text2Audio (SpecVQGAN, Diff-Foley и V2A-Mapper) FoleyCrafter показал лучшие результаты. ▶️ Локальный запуск с использованием GradioUI:

# Clone the Repository
git clone https://github.com/open-mmlab/foleycrafter.git

# Navigate to the Repository
cd projects/foleycrafter

# Create Virtual Environment with Conda & Install Dependencies
conda create env create -f requirements/environment.yaml
conda activate foleycrafter

# Install GiT LFS
conda install git-lfs 
git lfs install

# Download checkpoints 
git clone https://huggingface.co/auffusion/auffusion-full-no-adapter checkpoints/auffusion
git clone https://huggingface.co/ymzhang319/FoleyCrafter checkpoints/

# Run Gradio
python app.py --share

📌 Лицензирование: Apache-2.0 🟡Страница проекта 🟡Arxiv 🟡Модели на HF 🟡Demo 🖥Github [ Stars: 272 | Issues: 4 | Forks: 15] @ai_machinelearning_big_data #AI #Text2Audio #FoleyCrafter #ML

295 482

🌟 Pomegranate — библиотека Python для создания вероятностных моделей, таких как байесовские сети или марковские модели — pip install pomegranate Модели, реализованные с помощью pomegranate, могут быть настроены более гибко, чем с помощью других библиотек. Например, можно создать классификатор Байеса, который использует различные типы распределений для каждого признака (например, для связанных со временем признаков — экспоненциальное распределение, а для других признаков — распределение Пуассона). Или, скажем, можно построить единую модель из нескольких байесовских сетей или сделать классификатор Байеса со скрытой марковской моделью, который делает прогнозы по последовательностям. 🖥 GitHub 🟡 Доки 🟡 Примеры использования @data_analysis_ml

295 482

🏆 Ozon Tech запускает E-CUP — масштабное соревнование для ML-разработчиков в сфере e-com! Реши реальную бизнес-задачу и поборись за призовой фонд в 1 200 000 рублей! Смотри подробности и регистрируйся до 18 августа Приглашаем специалистов по Data Science, ML-инженеров, разработчиков. Твои суперсилы: 🔸 гуру машинного обучения и работы с ML-фреймворками; 🔸 мастер ETL-процессов, SQL, Spark и подобных систем; 🔸 ас в компьютерном зрении. Решай задачи в стиле команды Ozon Tech — минимум ручных действий, максимум автоматизации. Everything as code! Эксперты хакатона расскажут, как максимально эффективно применять этот подход в своей работе. 🚀 На выбор — одна из задач, основанных на реальных бизнес-кейсах Ozon Tech: 1️⃣ Создать ML-модель для улучшения пользовательского опыта клиентов, которая с помощью названий, атрибутов и картинок определит, одинаковые ли товары на изображении. 2️⃣ Разработать алгоритм для модерации карточек товаров с признаками нарушений правил площадки. Модель должна распознавать сигарету на любых изображениях: от фотографий до аниме-фреймов. Ключевые этапы E-CUP: 🔹 1 июля — старт регистрации 🔹 19 августа — публикация задач 🔹 8 сентября — окончание приёма решений 🔹 13 сентября — оглашение победителей Призовой фонд — 1 200 000 рублей. Зарегистрируйся и узнай первым про секретный подарок от команды Ozon Tech, который поможет лучшим участникам прокачать навыки и построить карьеру в e-com-бигтехе! Решай задачи в нашем стиле! Не пропусти грандиозное ML-соревнование — присоединяйся к E-CUP

295 482

⚡️T-lite: AI-Центр Т-Банка открывает доступ к собственной LLM в весовой категории 7—8 млрд параметров Об этом было объявлено на Turbo ML Conf — первой конференции Т-Банка по ML. Индустриальные и внутренние бенчмарки показали, что T-lite показывает лучшие результаты в решении бизнес-задач на русском языке среди открытых моделей размером 7—8 млрд параметров. После дообучения на конкретные бизнес-задачи T-lite дает качество, сопоставимое с проприетарными моделями размером от 20 миллиардов параметров, но при этом в разы дешевле в эксплуатации. На индустриальных и внутренних бенчмарках модель обогнала по показателям llama3-8b-instruct и chat-gpt 3.5. При этом T-lite создана с использованием всего 3% вычислительных ресурсов, которые обычно требуются для такого типа моделей. С помощью нее компании смогут создавать LLM-приложения для собственного использования без передачи данных третьим лицам. Например, ассистентов поддержки, инструменты для анализа и обобщения больших объемов текста, модели суммаризации текста. Модель @ai_machinelearning_big_data #opensource #LLM #ML

295 482

🌟 Athene-Llama3-70B: улучшенная чат-модель Llama-3-70B-Instruct от Nexusflow. Athene-Llama3-70B - это чат-ориентированная модель, дообученная с помощью RLHF на основе Llama-3-70B-Instruct. Значительное повышение производительности - это результат строгих оценочных показателей в процессе обучения, качественный собственный датасет и уникальный посттренинговый конвейер Nexusflow. Улучшения по сравнению с исходной Llama-3-70B-Instruct: 🟢Более точное следование инструкциям, модель лучше реагирует на сложные промпты, выдавая четкие и лаконичные ответы; 🟢Повышена способность в математике и рассуждениях, способность решать вопросы, требующие большого количества аргументов; 🟢Улучшен навык помощи написания кода в виде расширенных предложений по коду для более легкого создания и внедрения; 🟢Доработана креативность в написании текстов, писем, эссэ; 🟢Улучшена поддержка мультиязычности и повышено качество семантического перевода с одного языка на другой. Athene-70B показала результат 77,8% в Arena-Hard-Auto, что ставит ее в один ряд с GPT-4o (79,2%) laude-3.5-Sonnet (79,3%). Для сравнения, базовая Llama-3-70B-Instruct в Arena-Hard-Auto демонстрировала результат в 46,6%. ▶️Внимание, размер модели составляет ~ 140 Gb Athene-70B использует тот же шаблон системного промпта, что и Llama-3-70B-Instruct. 📌Лицензирование: CC-BY-NC-4.0 🟡Страница проекта 🟡Модель на HF 🟡Сообщество и поддержка 🖥Github Nexusflow [ Stars: 349 | Issues: 9 | Forks: 30 ] @ai_machinelearning_big_data #AI #Nexusflow #LLM #ML #Athene70B

295 482

Новостной дайджест ✔️ Groq выпустила Llama-3-Groq-70B-Tool-Use и Llama-3-Groq-8B-Tool-Use Llama-3-Groq-70B-Tool-Use достигла точности 90.76% в Berkeley Function Calling Leaderboard (BFCL), превзойдя все другие модели с открытым исходным кодом и проприетарные модели. Llama-3-Groq-8B-Tool-Use показала точность 89.06%, заняв третье место в BFCL. Модели обучались с использованием этически сгенерированных данных, без применения пользовательской информации. Они доступны на GroqCloud Developer Hub и на Hugging Face под той же лицензией, что и оригинальные модели Llama-3. wow.groq.com ✔️ Представлена Deepset-Mxbai-Embed-de-Large-v1: двуязычная модель немецкого/английского языка с открытым исходным кодом. Модель основана на intfloat/multilingual-e5-large и прошла тонкую настройку на более чем 30 миллионах пар немецких данных, специально адаптированных для задач поиска. Одной из ключевых метрик, используемых для оценки задач поиска, является NDCG@10, который измеряет точность ранжирования результатов по сравнению с идеально упорядоченным списком. mixedbread.ai ✔️ Google DeepMind представил YouTube-SL-25: Многоязычный датасет с более чем 3 000 часами видео на языке жестов, охватывающий 25+ языков. YouTube-SL-25 значительно расширяет возможности для задач сурдоперевода и идентификации. Создание датасета проходило в два этапа. Сначала автоматические классификаторы отобрали подходящие видеоролики с YouTube. За этим этапом последовал процесс сортировки, в котором исследователи расставляли приоритеты видеороликам на основе критерий качества контента и согласованности видеоряда. Таким подходом получилось собрать 81 623 видеоролика-кандидата, которые затем были просеяны до 39 197 общим объемом 3 207 часов контента. В итоге получился датасет, который включает в себя 2,16 миллиона аннотаций объемом в 104 миллионов символов. marktechpost.com ✔️ Sibyl: Система ИИ-агентов, разработанная для расширения возможностей LLM в сложных задачах рассуждения. Sibyl - агентный фреймворк на основе LLM, предназначенный для решения сложных задач рассуждения. Он состоит из четырех основных модулей: планировщика инструментов, канала сбора внешней информации, мультиагентного жюри, основанного на дебатах, и глобального рабочего пространства. Ключевая идея заключается в канале получения внешней информации, который эффективно сжимает и обрабатывает поступающие данные, используя собственный язык представления. С помощью этих методик, Sibyl может сосредоточиться на важных деталях, сохранить длину контекста и расширить шаги рассуждения. arxiv.org @ai_machinelearning_big_data #news #digest

295 482

🔥 Apple только что выпустила LLM с открытым исходным кодом 7B, весами, кодом и набором данных! 👀 TL;DR: 🧠 Базовая модель 7B, обученная на 2,5Т токенах ✅ Данные в основном на английском языке, контекстное окно 2048 ✅ Объединенные данные DCLM-BASELINE, StarCoder и ProofPile2 ✅ MMLU 0.6372 > Mistral & < Llama3 ✅ Открытая лицензия с лицензией Apple ✅ Соответствует моделям с закрытыми наборами данных, таким как Mistral ✅ Обучен с использованием Python и OpenLM framework ✅ Доступно на huggingface и в Transformers ▪Модель: https://huggingface.co/apple/DCLM-7B ▪Репозиторий: https://github.com/mlfoundations/dclm ▪Набор данных: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0 ▪Документация: https://arxiv.org/abs/2406.11794 @ai_machinelearning_big_data #LLM #ML #Apple