Machinelearning

Открыть в Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Больше

Сеть:Machinelearning Россия1 276 Технологии и приложения332...

📈 Аналитический обзор Telegram-канала Machinelearning

Канал Machinelearning (@ai_machinelearning_big_data) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 295 804 подписчиков, занимая 332 место в категории Технологии и приложения и 1 276 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 295 804 подписчиков.

Согласно последним данным от 22 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -6 276, а за последние 24 часа — -223, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.09%. В первые 24 часа после публикации контент обычно набирает 5.69% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 23 927 просмотров. В течение первых суток публикация набирает 16 831 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 193.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как openai, claude, api, gemini, контекст.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Благодаря высокой частоте обновлений (последние данные получены 23 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

295 804

Подписчики

-22324 часа

-1 4447 дней

-6 27630 день

23 927

Просмотры поста

~ 16 83124 часа

~ 18 91548 часов

8.09%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

295 732

✔️ ИИ может (в основном) превзойти человека-CEO. Исследование, проведенное Strategize Inc, стартапом выпускников Кембриджа доказывает, что ИИ способен стать ценным инструментом для руководителей. ИИ "сегодняшнего дня" может автоматизировать анализ данных, моделировать сложные сценарии и помогать в принятии более эффективных решений. Эксперимент проводился с использованием бизнес-симулятора автомобильной индустрии США, большая языковая модель GPT-4o соревновалась с 344 участниками, включая студентов и опытных руководителей. GPT-4o продемонстрировал неожиданные результаты, превзойдя человеческих конкурентов по ключевым показателям эффективности: разработке продукта, реакции на рыночные сигналы и росту прибыли. AI-CEO был уволен виртуальным советом директоров быстрее, чем студенты. GPT-4o не удалось адаптироваться к непредвиденным обстоятельствам, в то время как студенты проявили большую гибкость и дальновидность в своих стратегиях. Интересно, что опытные руководители также проявили себя хуже студентов, что указывает на общую тенденцию к чрезмерной уверенности в успехе краткосрочных стратегий. hbr.org ✔️ Рост популярности ChatGPT связан с сокращением обмена знаниями на онлайн-платформах вопросов и ответов. Исследование, опубликованное в журнале PNAS Nexus показало, что широкое распространение LLM, таких как ChatGPT, привело к значительному снижению публичного обмена знаниями на платформах, подобных Stack Overflow. Исследователи обнаружили, что после запуска ChatGPT количество публикаций на Stack Overflow сократилось на 25% за шесть месяцев. Это происходит потому, что люди предпочитают обращаться к ChatGPT за ответами на вопросы, а не публиковать их на открытых платформах, где их могли бы видеть и использовать другие люди. techxplore.com ✔️ Raspberry Pi представила модуль камеры для ИИ-приложений. Raspberry Pi AI Camera — это новый модуль камеры, который интегрирует в себя ускоритель ИИ Sony IMX500. Он умеет работает с моделями нейронных сетей, потребляя мало энергии и обеспечивая низкую задержку, освобождая процессор Raspberry Pi для выполнения других задач. Камера совместима со всеми моделями Raspberry Pi, включая Raspberry Pi Zero. Ее производительность сопоставима с Raspberry Pi AI Kit, который был выпущен ранее, но AI Camera более компактна и доступна по цене - 70 $. Она отлично интегрируется с программным обеспечением для камер Raspberry Pi, позволяя запускать модели машинного обучения с высокой скоростью. raspberrypi.com ✔️ Apple отказывается от инвестиций в OpenAI. Apple отказалась от планов по инвестированию в OpenAI. Как сообщает The Wall Street Journal, Apple вышла из переговоров об участии в раунде финансирования OpenAI, который должен был завершиться на следующей неделе и привлечь 6,5 млрд долларов. Несмотря на отказ от прямого инвестирования, Apple продолжает сотрудничество с OpenAI в рамках интеграции ChatGPT в iOS 18. ChatGPT будет обрабатывать запросы, связанные с общими знаниями, дополняя функциональность голосового помощника Siri. Примечательно, что, по данным Bloomberg, Apple не платит OpenAI за использование ChatGPT в iOS 18, и наоборот, OpenAI не платит Apple за доступ к платформе. Apple считает, что интеграция с iOS 18 обеспечит OpenAI рекламу и привлечение новых пользователей, что само по себе является ценным вкладом, сопоставимым с денежными инвестициями. wsj.com ✔️ YOLO11: новая эра в компьютерном зрении. Компания Ultralytics представила YOLO11, новейшую версию своей знаменитой модели искусственного интеллекта для компьютерного зрения. YOLO11 поддерживает широкий спектр задач CV: обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы, обнаружение ориентированных объектов (OBB) и отслеживание объектов. Модель получила улучшенное извлечение признаков. YOLO11m достигает более высокого балла средней средней точности (mAP) в наборе данных COCO, используя на 22% меньше параметров, чем YOLOv8m. YOLO11 вскоре будет доступна через Ultralytics HUB и пакет Ultralytics Python. ultralytics.com @ai_machinelearning_big_data #news #ai #ml

295 732

🌟 Пространственно-временное прогнозирование с помощью Байесовских нейронных полей. Байесовские нейронные поля (Bayes NF) - метод масштабируемого пространственно-временного прогнозирования, объединяющий архитектуру глубокой нейронной сети моделирования функций с иерархическим Байесовским моделированием для точной оценки неопределенности в сложных пространственно-временных полях. Bayes NF строятся на основе Байесовской нейронной сети, отображающей многомерные пространственно-временные координаты в действительное поле. Для получения высокой априорной вероятности для данных как с низко-, так и с высокочастотными вариациями, к исходным данным о времени и положении, подающимся в сеть, добавляются признаки Фурье, а чтобы учитывать априорные неопределенности, параметры сети получают априорное распределение. Апостериорный вывод осуществляется с помощью стохастических ансамблей оценки максимального апостериори (MAP) или вариационно обученных суррогатов. Метод Bayes NF относительно прост, он может обрабатывать пропущенные данные и обучаться по полному распределению вероятностей для произвольных пространственно-временных индексов. Bayes NF универсален и применим к различным наборам данных без необходимости разработки новой модели для каждого случая или применения специфических для набора данных аппроксимаций вывода. ⚠️ Для локального запуска BayesNF на средних и больших объемах данных требуется GPU. ▶️ Практические туториалы с возможностью запуска на Google Coolab: 🟢анализ на основе пространственно-временного набора данных из 20 временных рядов еженедельных случаев заболевания ветряной оспой в Венгрии в период с 2005 по 2015 гг. Блокнот; 🟢анализ данных из об уровне загрязнения воздуха, измеряемом датчиками по всему Лондону каждый час. Блокнот. ▶️Локальная установка:

# Install bayesnf from PIP into venv:
$ python -m venv pyenv
$ source pyenv/bin/activate
$ python -m pip install -U bayesnf

# Install dependencies for Python 3.10
$ python -m pip install -r requirements.Python3.10.14.txt

📌Лицензирование : Apache 2.0 License. 🟡Документация 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #Predictions #BAYESNF

295 732

🔥 Memory pinning для ускорения обучения моделей Если вы регулярно используете GPU для обучения моделей, то существует довольно простая техника, которая часто используется для ускорения обучения моделей.

...изменив всего две строки кода.

Рассмотрим стандартный цикл обучения модели в PyTorch (См Картинку 1) В этом коде: - Строка 5 передает данные в GPU из CPU. - Все выполняется на GPU после передачи данных, то есть в строках 7-15. 💡 Это означает, что когда работает GPU, CPU простаивает, а когда работает CPU, GPU простаивает, наглядно(См Картинку 2) ⚡️ Но вот что мы можем сделать, чтобы оптимизировать: - Когда модель обучается на 1-м батче, CPU может передать 2-й батч на GPU. - Таким образом, GPU не придется ждать следующего батча данных, как только он завершит обработку существующего батча. 👉 Иными словами, график использования ресурсов будет выглядеть примерно так (См Картинку 3) 💡 В то время, когда CPU будет простаивать, GPU (который является фактическим ускорителем для обучения модели) гарантированно будет иметь данные для работы. Формально этот процесс известен как memory pinning, и он используется для ускорения передачи данных от CPU к GPU, делая процесс обучения асинхронным. Это позволяет нам готовить следующий обучающий набор параллельно с обучением модели на текущих данных. 👉 Включить эту функцию в PyTorch довольно просто. Во-первых, при определении объекта DataLoader надо установить pin_memory=True и указать num_workers (См Картинку 4) Далее, на этапе передачи данных в шаге обучения укажите non_blocking=True (См Картинку 5) ⚡️ Готово! Вот как работает ускорение на примере набора данных MNIST в обучении простой нейронной сети (См Картинку 6) - Без memory pinning обучение модели на 5 эпохах занимает около 43 секунд: - а с использованием memory pinning та же модель обучается менее чем за 10 (!!!) секунд 🔥(См Картинку 7) 📌 Важные особенности использования memory pinning: - если несколько тензоров будут выделены в "привязанную" память, это приведет к резервированию значительной части оперативной памяти.

Поэтому, всякий раз, когда используете memory pinning - отслеживайте потребление RAM!

- когда набор данных относительно мал, memory pinning имеет незначительный эффект, поскольку передача данных от CPU к GPU все равно не занимает столько времени (См Картинку 7) 📌 Полная версия @ai_machinelearning_big_data

295 732

🌟 Local File Organizer: менеджмент локальных файлов под управлением LLM и VLM. Local File Organizer (LFO) - инструмент для управления локальными файлами и папками, который поможет навести порядок. Он использует квантованные в Q4 модели Google Gemma 2-2B и Llava v1.6 в сочетании с Nexa SDK чтобы выполнять заданные операции с локальным содержимым. Последовательность работы LFO выглядит упрощенно так: 🟢Сканирование: LFO сканирует целевой каталог поисках. 🟢Категоризация содержимого: LLM анализирует и обобщает содержимое найденных файлов и создает описания и имена файлам, VLM по такому же принципу обрабатывает графику. 🟢Организация: На основе сгенерированных метаданных, файлы упорядочиваются в новую структуру каталогов. Весь процесс происходит на 100% на локальном устройстве. Не требуется подключение к Интернет, данные не покидают локальную машину, и не требуется никаких API — файлы остаются в полной конфиденциальности и безопасности. LFO может работать на CPU и GPU в Windows, macOS и Linux, понимает графические форматы (.png, .jpg, .jpeg, .gif, .bmp), текстовые (.txt, .docx) и PDF-файлы. Системные промпты управления моделями кастомизируемы. ⚠️ Важно! 🟠Для установки с использованием GPU (CUDA, Metal, ROCm) ознакомьтесь с инструкцией по установке. 🟠Аргументы настройки инференса LLM и VLM можно найти тут. 🟠Предварительно скачайте модели Gemma 2-2B и Llava v1.6 и пропишите путь до них в конфигах. 🟠Предварительно установите Tesseract OCR; 🟠Кастомизация системных промптов - в файле data_processing.py. ▶️ Установка и запуск для CPU:

# Clone the Repository
git clone https://github.com/QiuYannnn/Local-File-Organizer.git

#Create & activate Conda env
conda create --name local_file_organizer python=3.12
conda activate local_file_organizer

# Install the CPU version of Nexa SDK
pip install nexaai --prefer-binary --index-url https://nexaai.github.io/nexa-sdk/whl/cpu --extra-index-url https://pypi.org/simple --no-cache-dir

# Install the dependencies
pip install -r requirements.txt

# Running the Script
python main.py

📌Лицензирование : MIT и Apache 2.0 License. 🟡Модель Gemma 2-2B 🟡Модель Llava v1.6 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM

295 732

🌟 Emu3: набор MMLM, основанный на методе предсказании следующего токена. Модели Emu3 разработаны для задач мультимодальной генерации и восприятия: генерации изображений и видео по текстовому описанию, понимание визуальных представлений и прогнозирования кадров в видео. Модель использует токенизатор изображений SBER-MoVQGAN для преобразования видео и изображений в дискретные токены, RMSNorm для нормализации, GQA для механизмов внимания, SwiGLU для активации и RoPE для позиционного кодирования. Процесс генерации в Emu3 начинается с обработки моделью начальной последовательности токенов (например, текстовое описание для генерации изображения). Затем Emu3 авторегрессивно предсказывает наиболее вероятный следующий токен в последовательности. Этот процесс продолжается до тех пор, пока не будет сгенерирована вся последовательность, представляющая собой конечный результат (изображение или видео). ▶️ Представлены 3 модели: 🟢Emu3-Chat – модель-чат, анализирует входные изображения и генерирует текстовые ответы; 🟢Emu3-Gen – модель для генерации изображений по текстовому описанию; 🟢Emu3-VisionTokenizer – токенизатор изображений для преобразования изображений и видео в дискретные токены. Для обучения использовались наборы данных Aquila, LAION-High-Resolution, InternVid, MSCOCO-30K, GenEval, T2I-CompBench, DPG-Bench, SEED-Bench, RealWorldQA, OCRBench и VBench. Результаты тестирования показывают превосходство Emu3 над SDXL в генерации и сопоставимость с LLaVA-1.6 в задачах интерпретаций изображений. Инференс моделей пока доступен только в СLI на Transformers, примеры для генерации или описания входного изображения можно найти в репозитории проекта. ⚠️ Информации о технических требованиях по GPU разработчиками Emu3 не предоставлено. ▶️Локальная установка:

# Clone the repository
git clone https://github.com/baaivision/Emu3
cd Emu3

# Install requirements
pip install -r requirements.txt

📌Лицензирование : Apache 2.0 License. 🟡Страница проекта 🟡Коллекция моделей на HF 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #MMLM #Text2Video #Text2Image

295 732

🌟 vGPU NVIDIA на базе драйвера Nouveau для Linux. NVIDIA представила набор патчей для ядра Linux с технологией vGPU для использования виртуальных графических процессоров в системах виртуализации. vGPU разделяет ресурсы физического графического процессора NVIDIA, привязывая каждый виртуальный GPU к виртуальной функции PCI Express. Драйвер vGPU работает с видеокартами NVIDIA на архитектуре Ada Lovelace, создавая от одного до нескольких виртуальных GPU в зависимости от модели карты. В хост-системе создание и сопряжение виртуальных GPU с гостевыми системами выполняются изменённым драйвером Nouveau. В гостевых системах используются штатные драйверы NVIDIA, как для обычного графического процессора. Каждый vGPU получает часть памяти из фреймбуфера физического GPU, различаясь типами, назначением, размером видеопамяти, количеством дисплеев и максимальным разрешением экрана. Реализация технологии vGPU включает базовый драйвер nvkm на основе Nouveau и менеджер vgpu_mgr, реализованный как модуль VFIO. Менеджер создает и удаляет виртуальные GPU, выбирает тип, управляет ресурсами и предоставляет API для управления. Он взаимодействует с базовым драйвером GPU для загрузки прошивки GSP, управления ресурсами, обработки исключений, конфигурации и системных событий. Также в Mesa Vulkan-драйвер добавлен gfxstream (Graphics Streaming Kit) для доступа к API Vulkan из гостевых систем Linux, Android и Fuchsia. Драйвер, разработанный Google, перенаправляет обращения к графическим API при виртуализации API Vulkan. Он используется в эмуляторе Android, виртуальном устройстве Cuttlefish, сервисе Google Play Games и операционной системе Fuchsia. Gfxstream включен в QEMU и crosvm и поддерживается совместно с устройствами virtio-gpu и goldish. 🟡Страница релиза 🟡Документация 🟡Host Kernel 🟡Guest driver package @ai_machinelearning_big_data #AI #ML #vGPU #Linux #NVIDIA

295 732

✔️ FTC объявила о правоприменительных мерах против нескольких компаний за обман и недобросовестное использование ИИ. Федеральная торговая комиссия (FTC) объявила о запуске операции «AI Comply» против компаний, использующих ажиотаж вокруг искусственного интеллекта для обмана потребителей. Уже возбуждено пять дел. FTC отмечает участившиеся случаи использования ИИ для мошенничества. Компании, против которых возбуждены дела: Do Not Pay, обещавшая услуги «робота-юриста», Ascend Ecom, предлагавшая создать онлайн-магазины с помощью ИИ для пассивного дохода, Ecommerce Empire Builders, продававшая тренинги и готовые интернет-магазины для получения прибыли, и Rytr, предлагавшая сервис для написания отзывов на основе ИИ. Комиссия продолжит пресекать подобные случаи мошенничества. ftc.gov ✔️ Nebius, отделившись от Яндекса, планирует инвестировать в инфраструктуру ИИ 1 млрд. долларов. Амстердамская группа Nebius, которая возникла после разделения активов российского технологического гиганта «Яндекс», планирует инвестировать более 1 млрд. долларов в инфраструктуру ИИ в Европе к середине 2025 года. Компания планирует расширить собственные мощности GPU, построив новый кластер в Париже и расширить существующий центр обработки данных в Финляндии. Инвестиции позволят Nebius достичь общей мощности в десятки тысяч GPU. kfgo.com ✔️ SoundExchange разрабатывает глобальный реестр звукозаписей для ИИ. Компания SoundExchange, занимающаяся сбором и распределением гонораров за использование музыки, объявила о разработке глобального реестра звукозаписей, предназначенного для использования в сфере ИИ. Ожидается, что реестр будет запущен в первом квартале 2025 года и станет развитием уже существующих систем SoundExchange. Этот реестр позволит создателям музыки и правообладателям указать, хотят ли они, чтобы их произведения использовались для обучения алгоритмов ИИ. База данных позволит компаниям, создающим модели ИИ, проверять наличие разрешений перед использованием записей для обучения своих алгоритмов. SoundExchange видит в этом реестре возможность упростить музыкальную индустрию, защитить ценность музыки и предоставить создателям больший контроль над использованием их произведений в сфере ИИ. Несмотря на то, что реестр будет добровольным инструментом, правообладатели сохранят за собой все юридические права на свои записи, независимо от их присутствия в базе данных. thatericalper.com ✔️ Браузер Brave добавил возможность использовать локальные LLM. Brave представил новую функцию в версии браузера 1.69 и выше, которая позволяет пользователям использовать локальные LLM вместо облачных решений. Эта функция, получившая название «Bring Your Own Model» (BYOM), призвана обеспечить большую конфиденциальность, поскольку данные пользователей не покидают устройство. Для использования локальных моделей пользователям потребуется Ollama. В настройках Brave Leo пользователи могут добавить свою модель, указав ее имя, эндпоинт сервера и, при необходимости, ключ API. Для локальных моделей ключ API не требуется. После добавления модели ее можно выбрать в качестве основной. itsfoss.com ✔️ Google расширила возможности NotebookLM, добавив поддержку YouTube и аудиофайлов. Теперь NotebookLM позволяет создавать краткие обзоры видео с YouTube и аудиофайлов. Новые функции помогают обобщать ключевые моменты видео и аудиозаписей генерировать из них подкасты и делиться ими по прямой ссылке. Например, полная версия этой новости в формате подкаста на английском языке. NotebookLM, изначально использовавшийся преподавателями и учащимися, привлекает все больше бизнес-пользователей. Райза Мартин, старший менеджер по продуктам ИИ в Google Labs, отметила, что теперь 50% пользователей - преподаватели и учащиеся, а 50% - бизнес-профессионалы. techcrunch.com @ai_machinelearning_big_data #news #ai #ml

295 732

🌟 Show-me: альтернатива ChatGPT-O1 на Сhat-Gpt-4o-mini. Show-Me — это проект, который использует LangChain для связи с gpt-4o-mini и визуализирует процесс рассуждений в виде динамического графического интерфейса. Ключевая особенность Show-Me - алгоритм «Reasoning, Refinement, and Update» (RRU), который обрабатывает запросы. Этот алгоритм работает следующим образом: сначала LLM оценивает сложность задачи и, если это необходимо, разбивает её на подзадачи. Затем она генерирует ответы для каждой подзадачи, а система автоматически проверяет их. Если ответ не проходит проверку, LLM уточняет его, основываясь на результатах. Этот процесс продолжается до тех пор, пока ответ не будет соответствовать всем критериям. Наконец, результаты подзадач объединяются для получения окончательного ответа. Весь процесс отображается в реальном времени с помощью динамического графика, что делает процесс рассуждений LLM понятным и наглядным. Show-Me имеет модульную архитектуру, состоящую из frontend на основе React и backend на базе Flask. Frontend отвечает за взаимодействие с пользователем, визуализацию графика рассуждений и отправку запросов на backend. Backend обрабатывает взаимодействие сgpt-4o-mini, выполняет алгоритм RRU, управляет разбиением задач, агрегирует ответы и отправляет обновления на frontend через SocketIO. В будущем разработчики планируют расширить возможности Show-Me, добавив поддержку большего количества языков программирования, улучшив визуализацию и позволив пользователям выбирать различные LLM. ▶️Установка и запуск:

# Clone the Repository
git clone https://github.com/marlaman/show-me.git

# Backend Setup
cd backend
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

# Create a .env file and add your OpenAI API Key: 
# OPENAI_API_KEY=[your key]

# Frontend Setup:
cd .. # poject root
npm install # or yarn install

# Run Backend
python app.py #or flask run

# Run Frontend
npm start # or yarn start

🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #Rasoning

295 732

🌟 Как связать тяжелые процессинги и инференс моделей, даже если нагрузка в процессинге превышает возможности вашего сервиса Разработчик из Яндекса рассказывает, как решали задачу генерации миллиардов рекламных объявлений на малом количестве GPU. Команда разработала сервис для инференса, причём как для моделей GPU‑intensive, так и для тех, которые считаются на ядре. Равномерное распределение нагрузки в момент обработки событий помогло утилизировать внутренние ресурсы полностью и экономить ресурсы во внешних сервисах, не получая даунтайм при наплыве новых клиентов или событий. 🟡 Habr @ai_machinelearning_big_data #ml #ai

295 732

⚡️ Molmo: семейство state-of-art MMLM. Molmo (Multimodal Open Language Model) - это семейство VLM, разработанных в Институте искусственного интеллекта Аллена, для решения задач обработки изображений и текста - создание подробных описаний изображений и выполнение комплексных визуальных операций, например: 🟢ответы на вопросы; 🟢обнаружение и сегментация по текстовому запросу; 🟢подсчет объектов или элементов; 🟢использование в сфере робототехники для изображений или видео; 🟢расширение возможностей VR. ▶️Molmo 72B - флагманская модель на базе Qwen2-72B в роли LLM и ViT-L/14 336px CLIP в роли visial-энкодера. Molmo-72B достигает наивысшего балла в бенчмарках и занимает второе место по человеческой оценке, лишь немного уступая GPT-4o. ▶️Molmo 7B-D и Molmo 7B-O - более утилитарные модели с разницей в исходных LLM (Qwen2-7B и OLMo-7B-1124 соответственно) и все тем же ViT-L/14 336px в качестве энкодера. ▶️ MolmoE 1B - компактная модель на архитектуре Mixture-of-Experts, основанная на OLMoE-1B-7B с 1.5B активных и 7.2B общих параметров, с производительностью, сравнимой с GPT-4V. Обучение семейства выполнялось в 2 этапа: предварительное обучение на наборе данных PixMo-Cap для генерации аннотаций к изображениям и этап SFT с использованием комбинации академических наборов данных и наборов данных PixMo (PixMo-AskModelAnything, PixMo-Points, PixMo-CapQA, PixMo-Docs, PixMo-Clocks). Тестирование модели проводилось на 11 бенчмарках: AI2D, ChartQA, VQA v2, DocVQA, InfographicVQA, TextVQA, RealWorldQA, MMMU, Math-Vista, CountBenchQA и Flickr Count. Результаты показали, что Molmo, особенно модель Molmo-72B, демонстрирует производительность на уровне GPT-4o, превосходя Gemini 1.5 Pro, Flash и Claude 3.5 Sonnet. ⚠️ Модели Molmo могут испытывать трудности с прозрачными изображениями. В качестве решения, разработчики рекомендуют добавлять белый или темный фон к изображениям перед передачей их в модель, например, с помощью библиотеки PIL. 📌Лицензирование : Apache 2.0 🟡Страница проекта 🟡Коллекция моделей на HF 🟡Arxiv 🟡Demo @ai_machinelearning_big_data #AI #ML #Molmo #MoE #MMLM

295 732

🖥 CUDA Programming Course – High-Performance Computing with GPUs Свежий Бесплатный курс от freeCodeCamp по программированию CUDA. Этот 12 -ти часовой бесплатный курс научит вас программировать с помощью Nvidia CUDA и использовать графические процессоры для высокопроизводительных вычислений и Deep learning. Содержание: 🔜 (0:00:00) Вступление 🔜 (0:16:52) Глава 1 (Экосистема глубокого обучения) 🔜 (0:37:43) Глава 2 (Настройка CUDA) 🔜 (0:47:03) Глава 3 (Обзор C/C++) 🔜(1:35:47) Глава 4 (Введение в графические процессоры) 🔜 (1:51:40) Глава 5 (Написание ваших первых ядер) 🔜 (3:55:26) Глава 6 (CUDA API) 🔜 (5:35:22) Глава 7 (Быстрое умножение матриц) 🔜 (8:22:36) Глава 8 (Triton) 🔜 (9:04:43) Глава 9 (Расширения PyTorch) 🔜 (9:18:10) Глава 10 (Многослойный персептрон MNIST) 🔜 (11:41:13) Глава 11 (Что изучать дальше?) 🔜 (11:54:38) Заключение ▪Video: https://www.youtube.com/watch?v=86FAWCzIe_4 ▪Code: https://github.com/Infatoshi/cuda-course ▪Github https://github.com/Infatoshi/mnist-cuda #cuda #deeplearning #cpp #c #bigdata #courses #бесплатныйкурс @ai_machinelearning_big_data

295 732

✔️ Джеймс Кэмерон присоединился к совету директоров Stability AI. Stability AI объявила о том, что легендарный режиссер Джеймс Кэмерон вошел в совет директоров компании. Это следующий шаг в реализации миссии Stability AI по трансформации визуальных медиа после назначения Hanno Basse на позицию CTO в августе этого года . "Опыт Кэмерона в сочетании с его деловыми и техническими скиллами поможет Stability AI продолжить открывать новые возможности, позволяющие создателям рассказывать истории такими способами, которые раньше были немыслимы" (с) . stability.ai ✔️ Google снизила цены на Gemini и представила обновление моделей. Google выпускает две обновленные модели Gemini: Gemini-1.5-Pro-002 и Gemini-1.5-Flash-002. Разработчики могут бесплатно получить доступ к последним моделям через Google AI Studio и API Gemini. Для крупных организаций и клиентов Google Cloud модели также доступны на Vertex AI. Обновления включают в себя снижение цены на 1.5 Pro на 50%, увеличение лимитов скорости в 2 раза для 1.5 Flash и примерно в 3 раза для 1.5 Pro, увеличение скорости вывода в 2 раза и снижение задержки в 3 раза, а также обновленные настройки фильтра по умолчанию. 1.5 Pro и Flash теперь стали лучше, быстрее и экономичнее. Google наблюдает увеличение примерно на 7% в MMLU-Pro. В бенчмарках MATH и HiddenMath обе модели добились значительного улучшения примерно на 20%. developers.googleblog.com ✔️ Warner Bros. Discovery будет использовать ИИ Google для субтитров. Warner Bros. Discovery заключила партнерство с Google Cloud, чтобы использовать инструмент на основе ИИ для создания субтитров для своих контент-платформ. Caption AI использует платформу Vertex AI от Google Cloud и будет развернут в первую очередь для несценарийных программ (спортивных и реалити-шоу), чтобы сократить время и производственные затраты на создание субтитров . WBD добавил, что реальные люди по-прежнему будут следить за использованием Caption AI для обеспечения качества на студийных каналах Max, CNN и Discovery+. hollywoodreporter.com ✔️ Intel представила новые серверные процессоры Xeon 6900P. Серия Xeon 6900P обещает обеспечить примерно вдвое большую производительность на ватт по сравнению с предыдущим поколением. Согласно Intel, серия Xeon 6900P также значительно лучше справляется с рабочими нагрузками искусственного интеллекта. Чипы в линейке могут выполнять некоторые задачи логического вывода в 2,3 раза быстрее, чем их предшественники. В процессорах Xeon 6900P используются только ядра, оптимизированные для повышения производительности. Флагманский процессор серии, Xeon 6980P, поставляется с кэшем L3 объемом 504 МБ и 128 ядрами, работающими на базовой частоте 2 ГГц. При выполнении ресурсоемких рабочих нагрузок они могут почти удваивать эту скорость до 3,9 ГГц в течение коротких периодов времени. siliconangle.com ✔️AutoToS cделает планирование LLM быстрым, точным и недорогим. Исследователи из Корнельского университета и IBM Research представили AutoToS, новую методику, которая сочетает в себе возможности LLM по планированию со скоростью и точностью алгоритмов поиска на основе правил. AutoToS устраняет необходимость вмешательства человека и значительно снижает вычислительные затраты на решение задач планирования. AutoToS работает в несколько этапов. Сначала он предоставляет LLM описание проблемы и предлагает сгенерировать код для функций-преемников и целевых функций. Затем он запускает модульные тесты целевой функции и предоставляет модели обратную связь в случае сбоя. Далее модель использует эту обратную связь для исправления своего кода. После того как целевая функция проходит тесты, алгоритм запускает ограниченный поиск в ширину, чтобы проверить, являются ли функции надежными и полными. Этот процесс повторяется до тех пор, пока сгенерированные функции не пройдут все тесты. Наконец, проверенные функции подключаются к классическому алгоритму поиска для эффективного выполнения полного поиска. venturebeat.com @ai_machinelearning_big_data #news #ai #ml

295 732

⚡️ Llama 3.2 : релиз VLM, SLM моделей и дистрибутива Llama Stack. Только что были опубликованы набор моделей семейства Lllama 3.2. Семейство Llama 3.2 разработано для решения мультимодальных задач: понимание документов с графиками и диаграммами, создание аннотаций к изображениям, локализация объектов на изображениях по текстовому описанию. Список моделей релиза: 🟢Llama-3.2-90B-Vision и версия Instruct; 🟢Llama-3.2-11B-Vision и версии Instruct и Guard-3; 🟢Llama-3.2-3B и версия Instruct; 🟢Llama-3.2-1B и версии - Instruct, INT4 и Guard-3. Малые модели (1B и 3B) созданы методом обрезки и дистилляции знаний на основе модели Llama-3.1-8B. Они оптимизированы для работы на мобильных устройствах и предназначены для обобщения текста, обработка инструкций и генерации текста. Модели были дополнительно настроены для обработки контекста длиной до 128 тыс. токенов. Эти модели протестированы на оборудовании Qualcomm и MediaTek и оптимизированы для процессоров Arm. Архитектура больших моделей (11B и 90B) основана на предобученных текстовых моделях Llama 3.1, дополненных адаптерами и энкодерами для обработки изображений. Результаты тестирования показали, что vision-модели Llama 3.2 сопоставимы с Claude 3 Haiku и GPT4o-mini, в задачах распознавания изображений и визуального понимания. Модель 3B превосходит модели Gemma 2 2.6B и Phi 3.5-mini в обработке инструкций, обобщения, генерации текста и использования инструментов. ▶️ Llama Stack - дистрибутив, который значительно упростит усилия разработчиков с моделями Llama в различных средах: одноузловые, локальные, облачные и на носимых устройствах, позволяя развертывать "под ключ" RAG и приложения с поддержкой инструментов с интегрированной системой безопасности. Развертывание на устройствах осуществляется с помощью PyTorch ExecuTorch, а распространение на одном узле - с помощью Ollama. В родительском репозитории дополнительно опубликованы клиентские SDK на NodeJS, Python, Swift, Kotlin. Все модели Llama 3.2 доступными для скачивания на llama.com и Hugging Face, а также на партнерских платформах : AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud, Snowflake и др. 📌Лицензирование : 🟢Код Llama Stack: MIT License. 🟠Модели : Lama3.2 🟡Страница проекта 🟡Коллекция моделей на HF 🟡Demo Llama-1B 🟡Demo Llama-3B 🖥GitHub Llama-Stack @ai_machinelearning_big_data #AI #ML #LLM #Llama

295 732

🌟 Параллельные стратегии с Jax: обучающий туториал. Обучение LLM требует огромных вычислительных ресурсов. Поскольку размеры моделей исчисляются миллиардами параметров, специализированные методы распараллеливания необходимы для того, чтобы сделать обучение выполнимым. В статье "Исследование параллельных стратегий с Jax" подробно рассматривается реализация некоторых стратегий масштабирования в Jax - фреймворке Python, предназначенном для высокопроизводительных численных вычислений с поддержкой ускорителей GPU и TPU. Стратегии, описанные в туториале с примерами кода и иллюстрациями: 🟢Data Parallelism - распределение данных между несколькими устройствами, которые одновременно обучают модель; 🟢Tensor Parallelism - распределение весов модели между устройствами, позволяет каждому устройству обрабатывать свою часть тензора параллельно; 🟢Pipeline Parallelism разделяет модель на этапы, которые выполняются последовательно на разных устройствах; 🟢Mixture-of-Experts использует множество специализированных экспертов для обработки различных частей входных данных, что позволяет масштабировать модель до огромных размеров. ▶️ Автор статьи - Александр Самарин, Lead ML Engineer в Huawei c 5-ти летнем опытом в глубоком обучении. @ai_machinelearning_big_data #AI #ML #LLM #JAX #Tutorial

295 732

🌟 MMSearch: бенчмарк мультимодальных моделей по способности поиска. MMSearch — это тест мультимодального поиска, созданный для оценки возможностей LMMs как систем для поиска информации. Этот тест включает тщательно отобранный датасет из 300 запросов из 14 различных областей. Чтобы обеспечить сложность бенчмарка, запросы классифицируются по двум основным категориям: новости и знания. Область новостей состоит из недавних событий на момент сбора данных (август 2024 года), это гарантирует, что ответы на запросы не будут содержаться в обучающих данных для LMM. В области знаний собраны запросы, требующие редких знаний - те, на которые не могут ответить современные LMM, такие как GPT-4o и Claude-3.5. Оценка выполняется по 4 задачам, итог выполнения сравнивается с результатом аннотаторов, в роли которых выступали люди : 🟢запрос (requery): интерпретация запроса о содержимом или об объекте на изображении; 🟢ранжирование (rerank): выбор наиболее релевантного ответа запросу; 🟢обобщение (summarization): анализ результатов задач requery и rerank и формирование ответа на запрос; 🟢сквозной запрос (End-to-End): тест полного цикла, который включает в себя все три задачи сразу (requery+rerank+summarization). ▶️ Локальное выполнение бенчмарка возможно 3 способами: 🟠в VLMEvalKit. Пакет поддерживает более 150 VLM и MMLM моделей; 🟠путем запуска скриптов оценки MMSearch; 🟠в lmms-eval. Пока поддерживается только одна модель для теста MMSearch - LLaVA-OneVision, расширение возможностей - в процессе, настройка среды - тут. ⚠️ Среднее время выполнения самого сложного теста (End-to-End) на одном GPU A100 - 3-5 часов. Лидерборд MMSearch 16 моделей, включая результат выполнения тестов человеком можно посмотреть на странице проекта. 🟡Страница проекта 🟡Arxiv 🟡Датасет 🖥GitHub @ai_machinelearning_big_data #AI #ML #MMLM #Benchmark

295 732

Учитесь в универе и давно хотите попробовать свои силы в решении реальных кейсов по машинному обучению и нейросетям? Международные олимпиады — отличный способ проверить свои знания и выйти на новый уровень! Одна из таких олимпиад — AIDAO от Яндекса и НИУ ВШЭ. Участникам предстоит решать IT-задачи в команде из 2-3 человек, а победители получат денежные призы до 600 тысяч рублей! Выполнять задания олимпиады нужно на английском, но разрешено пользоваться переводчиком. Если у вас нет команды, то вам помогут её найти во время регистрации. Чтобы принять участие, надо: - быть студентом бакалавриата или магистратуры в российском или зарубежном вузе; - разбираться в ML, алгоритмах и работе с данными; - подать заявку на сайте до 5 октября. Не упустите шанс применить свои навыки на практике и посоревноваться со студентами со всего мира!

295 732

⚡️ Llama 3.1-Nemotron-51B-Instruct: модель от NVIDIA по методу Neural Architecture Search. Llama 3.1-Nemotron-51B-Instruct основана на Llama 3.1-70B и предназначена для NLP-задач генерации текста, чата, рассуждения и обобщения. Мультиязычность наследована от родительская модель. Llama 3.1-Nemotron-51B-Instruct также умеет обрабатывать языки программирования. Архитектура модели построена с использованием методологии Neural Architecture Search (NAS) и блочной дистилляции. NAS позволяет отобрать наиболее эффективные блоки трансформера для каждого слоя модели, а блочная дистилляция обеспечивает перенос знаний от исходной модели Llama 3.1-70B к более компактной Llama 3.1-Nemotron-51B-Instruct. Полученная архитектура имеет нерегулярную структуру блоков с уменьшенным количеством операций внимания и полносвязных слоев, что существенно снижает вычислительную сложность и объем используемой памяти. В процессе обучения модели использовались бенчмаркиMT-Bench и MMLU. Тестирование проводилось на задачах генерации текста, перевода и ответов на вопросы. Результаты показали, что инференс Llama 3.1-Nemotron-51B-Instruct в 2.2 раза быстрее "родительской" модели (Llama 3.1-70B) при сохранении практически той же точности. Благодаря сниженным требованиям к памяти, модель может обрабатывать в 4 раза большие объемы данных на одном GPU. ▶️Рекомендованные аппаратные конфигурации: 🟠FP8 - H100-80GB (версии FP8 пока нет в открытом доступе); 🟢BF16 - 2x H100-80GB GPU или 2x A100-80GB GPU. ▶️Пример инференса на Transformers (версия 4.44.2 или выше):

import torch
import transformers

model_id = "nvidia/Llama-3_1-Nemotron-51B-Instruct"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
    "text-generation", 
    model=model_id, 
    tokenizer=tokenizer, 
    max_new_tokens=20, 
    **model_kwargs
)
print(pipeline([{"role": "user", "content": "Hey how are you?"}]))

📌Лицензирование : NVIDIA AI Foundation Models Community License. 🟡Страница проекта 🟡Модель 🟡Demo @ai_machinelearning_big_data #AI #ML #LLM #Nemotron

295 732

erid:2VtzqviDi7A Как устроена работа ИТ-специалистов в Т-Банке? Загляните в канал T-Crew — тут показывают будни команды и делятся полезным: — Дайджесты вакансий, регистрация на fast track и приглашения от руководителей. — Анонсы мероприятий. Например, когда пройдет следующий ИТ-каток, ИТ-пикник и другие нашумевшие ивенты. — Кейсы, статьи и лайфхаки для работы — от методов планирования до карьерного роста. Подписаться на T-Crew

295 732

✔️ Лаборатория NASA SPAR Lab представила ИИ для космических аппаратов. Инженеры NASA разработали OnAIR, который делает космические аппараты более автономными и отказоустойчивыми. OnAIR — это программный комплекс с открытым исходным кодом на платформе GitHub для разработки и развертывания алгоритмов ИИ. Прототип OnAIR был протестирован в миссии NASA NAMASTE, где дроны измеряли выбросы метана в районах вечной мерзлоты на Аляске. Он позволил дронам оптимизировать сбор данных, обрабатывая информацию с датчиков и корректируя маршрут в реальном времени. OnAIR также был протестирован на Международной космической станции (МКС) с использованием платформы SpaceCube. Инженеры NASA интегрировали его с основной системой управления SpaceCube, преодолев технические сложности - ограниченная вычислительная мощность и адаптация ПО к архитектуре процессора. spacenews.com ✔️ AI-чатбот от команды Facebook начнет говорить голосами Джуди Денч, Джона Сины и других знаменитостей. Разработчики готовится представить на этой неделе голосовой чат-бот с голосами известных актеров, включая Джуди Денч, Кристен Белл и Джона Сину. Пользователи смогут выбирать голос знаменитости для взаимодействия с цифровым помощником Meta, аналогичным ChatGPT. Запуск функции запланирован в США и других англоязычных странах и будет доступен в приложениях компании, включая Facebook, Instagram и WhatsApp. В прошлом году Meta уже экспериментировала с добавлением элементов звездности в чат-бот, запустив текстовые версии с образами Пэрис Хилтон и Снуп Дога, но они не получили большой популярности. reuters.com ✔️ ruMorpheme: реализация метода морфемного анализа для русского языка. Проект на Github представляет собой программную реализацию метода "Deep Convolutional Networks for Supervised Morpheme Segmentation of Russian Language" для проведения морфемного анализа и сегментации слов русского языка. Обученная модель проекта способна сегментировать слова на приставки, корни, соединительные гласные, дефисы, суффиксы, постфиксы и окончания. Проект, помимо инференса, укомплектован скриптами для самостоятельной тренировки и валидации модели. ruMorpheme ✔️ Customer Engagement Suite with Google AI: клиентский офис как сервис. Customer Engagement Suite (CES) с Google AI — комплексное решение, которое сочетает в себе функции ИИ (Gemini Flash 1.5) для контакт-центров. CES формирует целостный и последовательный подход к обслуживанию клиентов с широким спектром сторонних решений: телефонию, CRM и HR. Customer Engagement Suite включает в себя : Conversational Agents для создания виртуальных агентов с детерминированной (основанной на правилах) и GenAI функциональностью, Agent Assist для оказания поддержки в реальном времени, Conversational Insights для анализа данных о взаимодействии с клиентами и выявления областей для улучшения. Платформа поддерживает многоканальное взаимодействие через веб-интерфейсы, мобильные устройства, голосовые каналы, электронную почту и приложения, и работает с текстовой, голосовой и визуальной информацией. cloud.google.com @ai_machinelearning_big_data #news #ai #ml

295 732

🌟 CUTLASS Tutorial: Быстрое матричное умножение с WGMMA на GPU NVIDIA Hopper. Большой, подробный и лаконичный туториал в 2-х частях по оптимизации матричного умножения на микроархитектуре Hopper (H100) с использованием библиотеки CUTLASS. CUTLASS - это набор реализаций алгоритмов линейной алгебры (шаблонов) для использования на CUDA в задачах глубокого обучения, инженерных расчетах и научных исследованиях. ▶️Первая часть посвящена инструкции WGMMA (asynchronous warpgroup matrix-multiply and accumulate) - как она работает, какие ограничения имеет на размер и расположение данных в памяти и как использовать синхронизацию для правильного выполнения операций. В этой части подробно рассматривается концепция «ядерных матриц» и «матричных дескрипторов», которые нужны для эффективной работы с WGMMA. ✔️ Вторая часть про умножение матриц(GEMM) и методы повышения эффективности GEMM-ядра путем конвейеризации. Рассматриваются две стратегии пайплайна : многоступенчатую и warp-specialization, с подробным описанием их концепции, применением CUTLASS для их построения и сравнивается производительность стратегий. В конце туториала кратко описывается реализация конвейеризации в GEMM-ядрах для архитектуры Ampere. @ai_machinelearning_big_data #AI #ML #CUTLASS #Tutorial