Machinelearning

Открыть в Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Больше

Сеть:Machinelearning Россия1 276 Технологии и приложения332...

📈 Аналитический обзор Telegram-канала Machinelearning

Канал Machinelearning (@ai_machinelearning_big_data) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 295 915 подписчиков, занимая 332 место в категории Технологии и приложения и 1 276 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 295 915 подписчиков.

Согласно последним данным от 22 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -6 276, а за последние 24 часа — -223, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.09%. В первые 24 часа после публикации контент обычно набирает 5.69% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 23 927 просмотров. В течение первых суток публикация набирает 16 831 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 193.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как openai, claude, api, gemini, контекст.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Благодаря высокой частоте обновлений (последние данные получены 23 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

295 915

Подписчики

-22324 часа

-1 4447 дней

-6 27630 день

23 927

Просмотры поста

~ 16 83124 часа

~ 18 91548 часов

8.09%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

295 919

📌Туториал по файнтюну Qwen2-VL-7B с использованием экосистемы Hugging Face. Статья на HF из цикла Open-Source AI Cookbook c подробным пошаговым описанием и примерами кода процесса тонкой настройки VLM Qwen2-VL-7B в области ответов на вопросы по изображениям с использованием библиотеки Transformer Reinforcement Learning (TRL). В качестве целевого датасета используется ChartQA, который содержит диаграммы разных типов в паре с вопросами и ответами. Для обучения модели демонстрируется методы Supervised Fine-Tuning (SFT) с использованием библиотеки TRL, QLoRA, которая квантует веса LoRA, обеспечивая более низкие требования к памяти и повышенную эффективность обучения. Отдельным разделом выделен процесс подготовки данных к обучению с помощью функции collate_fn, которая выполняет корректное извлечение и пакетную обработку данных и их форматирование для модели. Обучение модели осуществляется с помощью класса SFTTrainer. В результате модель научилась отвечать на вопросы в соответствии с используемым датасетом. Оценить готовый файнтюн можно в демо на HF Space. Дополнительно, в качестве альтернативы тонкой настройке, рассматривается использование промтинга с добавлением системного сообщения для контекстуализации ввода для модели, чтобы улучшить точность ее ответов. ▶️ Блокнот на Google Collab для практических экспериментов. Для его запуска понадобится платный тариф с GPU А100. ▶️Структура туториала по разделам: 🟢Установка среды 🟢Загрузка датасета 🟢Загрузка модели и проверка производительности 🟢Файнтюн модели с помощью TRL 🟠Загрузка квантованной модели для обучения 🟠Настройка QLoRA и SFTConfig 🟠Обучение модели 🟢Тестирование готовой модели 🟢Сравнение обученной модели с базовой + промптинг 🟢Дополнительные ресурсы для более глубокого изучения VLM 🔜 Статья на HuggingFace @ai_machinelearning_big_data #AI #ML #VLM #HuggingFace #Tutorial

295 919

✔️ Perplexity запускает функцию покупки товаров. Perplexity представляет новую функцию "Buy with Pro", позволяющую пользователям с подпиской Pro покупать товары, не покидая сервис. Функция доступна для жителей США и предлагает бесплатную доставку на все покупки. Для товаров, не поддерживающих "Buy with Pro", пользователи будут перенаправлены на сайт продавца. Perplexity не получает комиссионные от продаж, совершенных через кнопку "Buy with Pro". В компании заявляют, что функция не преследует коммерческих целей. Помимо "Buy with Pro", Perplexity внедряет новые карточки товаров с описанием, ценой и обзорами, а также функцию "Snap to Shop", позволяющую искать товары по фотографии. theverge.com ✔️ Бигтех угрожает энергетической безопасности Ирландии. Рост энергоемких технологий ИИ ставит под угрозу энергетическую инфраструктуру Ирландии, что может негативно сказаться на ее позиции как европейского центра технологий. Дублин - третий по величине центр гипермасштабируемых ЦОДов в мире и крупнейший в Европе. По прогнозам, потребности ИИ в электроэнергии удвоятся к 2026 году и создадут дефицит в энергетических сетях страны. Национальный оператор электросетей EirGrid ввел фактический мораторий на новые ЦОДы в районе Дублина. Он предупредил о возможном «массовом оттоке» центров обработки данных из страны, если ситуация не улучшится. В 2023 году ЦОДы потребили 21% всей измеренной электроэнергии, впервые превысив потребление городских домов. politico.eu ✔️ Mistral представил новые модели и обновленные функции чат-бота. Mistral выпустила ряд обновлений своих продуктов: платформа чат-ботов Mistral, Le Chat, теперь может осуществлять поиск в Интернете с цитированием источников, подобно ChatGPT и Perplexity. Она также получила инструмент «canvas», аналогичный ChatGPT Canvas, позволяющий пользователям изменять, преобразовывать или редактировать макеты веб-страниц и визуализации данных, используя модели ИИ Mistral. Le Chat теперь может обрабатывать большие PDF-документы и изображения для анализа и обобщения, включая файлы, содержащие графики и уравнения. Некоторые из новых возможностей Le Chat стали возможны благодаря новым моделям Mistral: Pixtral Large, которая может обрабатывать текст и изображения и Mistral Large 3, новой флагманской модели генерации текста. Все новые функции Le Chat останутся бесплатными в бета-версии. mistral.ai ✔️ Новые AI-чипы Nvidia перегреваются в серверах. Blackwell от Nvidia, предназначенные для задач ИИ, столкнулись с проблемами перегрева в серверных стойках, что вызывает опасения у клиентов относительно своевременного запуска новых ЦОДов. Как сообщает The Information, перегрев возникает при подключении чипов Blackwell в серверные стойки, рассчитанные на установку до 72 чипов. По данным источников издания, Nvidia неоднократно просила поставщиков изменить конструкцию стоек для решения проблемы перегрева. Новые чипы вдвое больше по площади, чем предыдущее поколение, и обеспечивают 30-кратное увеличение скорости обработки задач, связанных с задачами ИИ. seekingalpha.com ✔️ AMD обгоняет Nvidia по вычислительной мощности в рейтинге Top500. Суперкомпьютер El Capitan, созданный HPE с использованием гибридных процессоров AMD Instinct MI300A, занял 1 место в рейтинге Top500, значительно опередив конкурентов. Тестирование El Capitan в Ливерморской национальной лаборатории показало пиковую теоретическую производительность 2746,4 петафлопс и устойчивую производительность на тесте HPL 1742 петафлопс с эффективностью 63,4%. El Capitan оснащен 43 808 устройствами AMD Instinct MI300A, содержащими 1,05 млн ядер Genoa и почти 10 млн потоковых мультипроцессоров на графических чиплетах. В рейтинге Top500 за ноябрь 2024 года AMD лидирует по приросту вычислительной мощности, обеспечив 72,1% новых петафлопс. С учетом всех 500 систем AMD обгоняет Nvidia по совокупной пиковой производительности на ускорителях, занимая 44,9% против 40,3% у Nvidia. nextplatform.com @ai_machinelearning_big_data #news #ai #ml

295 919

🌟 Aioli: фреймворк для алгоритмического смешивания данных обучения LLM. Производительность LLM напрямую зависит от правильного выбора и пропорций наборов данных для обучения, например, юридических текстов, кода, математических формул. Существующие методы выбора оптимального соотношения данных для обучения (data mixing) варьируются от подбора регрессионных моделей на основе результатов обучения до динамического обновления пропорций в процессе обучения. Эмпирические исследования показывают, что ни один из существующих методов по отдельности не превосходит простую базовую стратифицированную выборку по среднему значению перплексии. Linear Mixing Optimization (LMO) - унифицированный алгоритм, который объединяет существующие методы data mixing. В рамках LMO задача data mixing формулируется как оптимизационная задача, цель которой - минимизация средних потерь для каждой группы данных. AIOLI - прикладной фреймворк, основанный на LMO. AIOLI динамически оценивает параметры смешивания в процессе обучения, используя историю значений потерь и динамические пропорции смеси. Тесты на 6 различных наборах данных SlimPajama показали, что AIOLI превосходит стратифицированную выборку, улучшая среднюю перплексию на тестовых данных на 0.28 балла. AIOLI особенно эффективен в условиях ограниченных вычислительных ресурсов. В ситуациях, когда пропорции смеси данных определяются на основе коротких циклов обучения, AIOLI может динамически корректировать эти пропорции на протяжении всего цикла обучения. ⚠️ В репозитории AIOLI доступны примеры скриптов запуска и подробное описание ключей запуска. ▶️Установка и запуск:

# Clone repo
git clone https://github.com/HazyResearch/aioli.git
cd aioli

# Install requirements
pip install -r requirements.txt

# Run 
python main.py \ # add parameters

📌Лицензирование: Apache 2.0 License. 🟡Arxiv 🖥Github @ai_machinelearning_big_data #AI #ML #LLM #DataMixing #Aioli

295 919

🌟Начался новый сезон PROD – первой в России олимпиады по промышленной разработке для школьников. О начале второго сезона олимпиады объявил Т-Банк совместно с Центральным университетом и факультетом компьютерных наук НИУ ВШЭ. В рамках PROD школьники смогут больше узнать о работе фронтенд-, бэкенд- и мобильных разработчиков, а также изучат создание программных систем, автоматизацию бизнес-процессов и разработку приложений для оптимизации бизнеса. Участникам предложат решить реальные бизнес-кейсы ИТ-компаний. На олимпиаду приглашаются школьники с 8 по 11 класс, которые знают информатику на базовом уровне и владеют аналитическим мышлением. Маскотом олимпиады стала амфибия аксолотль. Он символизирует умение справляться со сложными задачами в молодом возрасте. Онлайн пройдут все части PROD кроме последней, на которую финалистов пригласят в Москву. ▶️Победителям PROD предоставят льготные условия для поступления в Центральный университет и НИУ ВШЭ, а также возможность пройти упрощенный процесс отбора на стажировку в Т-Банк. Регистрация на PROD продлится до 3 декабря. 🟡Страница проекта @ai_machinelearning_big_data #news #ai #ml

295 919

⚡️ BRIA Background Removal v2.0 Model. RMBG v2.0 - новая модель удаления фона, предназначенная для эффективного отделения переднего плана от фона в различных категориях и типах изображений. Точность, эффективность и универсальность RMBG v2.0 конкурирует с ведущими SOTA-моделями. RMBG-2.0 разработана на основе архитектуры BiRefNet и обучена на более чем 15 000 высококачественных, высокого разрешения, вручную маркированных (с точностью до пикселя), полностью лицензированных изображений. Модель доступна на HF в двух версиях : pytorch и safetensors. Демо можно попробовать на HF Space. ▶️Пример кода запуска на Transformers:

from PIL import Image
import matplotlib.pyplot as plt
import torch
from torchvision import transforms
from transformers import AutoModelForImageSegmentation

model = AutoModelForImageSegmentation.from_pretrained('briaai/RMBG-2.0', trust_remote_code=True)
torch.set_float32_matmul_precision(['high', 'highest'][0])
model.to('cuda')
model.eval()

# Data settings
image_size = (1024, 1024)
transform_image = transforms.Compose([
    transforms.Resize(image_size),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

image = Image.open(input_image_path)
input_images = transform_image(image).unsqueeze(0).to('cuda')

# Prediction
with torch.no_grad():
    preds = model(input_images)[-1].sigmoid().cpu()
pred = preds[0].squeeze()
pred_pil = transforms.ToPILImage()(pred)
mask = pred_pil.resize(image.size)
image.putalpha(mask)

image.save("no_bg_image.png")

📌Лицензирование: 🟢Некоммерческое использование: Creative Commons license 🟠Коммерческое использование: на основании коммерческого соглашения с BRIA 🟡Модель 🟡Demo @ai_machinelearning_big_data #AI #ML #BiRefNet #RMBG #BRIAAI

295 919

🎓Погружаемся в мир обучения с подкреплением (RL) и изучаем его применение в разработке рекомендательных систем! ⚡3 декабря в 20.00 мск приходите на открытый вебинар "Автоматизация инжениринга признаков", на котором мы разберем: - сильные и слабые стороны алгоритмов классического RL и Deep RL.; - постановку задачи о многоруком бандите для классического и Deep RL. - подходы к применению задачи о многоруком бандите для разработки рекомендательных систем 👉Регистрация. Участие бесплатно https://otus.pw/Xt1t/?erid=LjN8KQXJC Встречаемся в преддверии старта курса «Reinforcement Learning» в OTUS. Обучение на курсе позволит применять алгоритмы RL для решения разнообразных задач в реальном мире, включая игровую индустрию, робототехнику, управление энергетическими системами и управление финансовым портфелем #реклама О рекламодателе

295 919

📎 ML в медицине: дайджест за 11 - 17 ноября 2024 г. ▶️Модели, бенчмарки и датасеты 🔘EHRNoteQA: бенчмарк для оценки LLM в клинической практике. Оценки LLM в контексте ответов на вопросы врачей, основанных на выписных эпикризах пациентов. 🔘ClinicalBench: сравнение LLM и традиционных ML-моделей в клиническом прогнозировании. Бенчмарк сравнения эффективности языковых моделей с XGBoost, Logistic Regression, Decision Tree, Random Forest, AdaBoost, SVM, Naive Bayes, MLP, Transformer и RNN. 🔘Комплексная оценка RAG-систем с LLM в задачах медицинского QA. Датасет, содержащий дополнительные элементы информации, знаний для обеспечения устойчивости к ошибкам. 🔘DAHL: автоматизированная оценка на галлюцинации в медицинских текстах. Набор данных и методика для оценки галлюцинаций в длинных текстах, генерируемых LLM, с особым акцентом на медицинскую область. ▶️Фреймворки и методологии 🔘TranspNet: конвейер повышения прозрачности и достоверности LLM. Интегрирация LLM с символическим ИИ, чтобы повысить прозрачность и достоверность их работы. 🔘ClinRaGen: система понимания мультимодальных электронных медицинских карт и обоснования диагнозов. Система на основе SLM и методики ризонинга, разработанная для улучшения диагностики острых заболеваний с использованием мультимодальных электронных медицинских карт. 🔘GuidelineGuard: агентная платформа для оценки медицинских записей на соответствие рекомендациям. Платформа на основе агентов LLM, которая автоматически анализирует выписки из больницы и записи офисных визитов. 🔘Автоматическое обобщение длинных медицинских карт с помощью динамического расширения контекста. Методика автоматического реферирования, основанная на LLM open-calm-7b с использованием Native Bayes Context Extend (NBCE) и модифицированного механизма декодирования. ▶️Медицинские LLM-приложения 🔘LLAMA-2 для автоматической классификации кодов МКБ. Классификации кодов Международной классификации болезней (МКБ) на основе медицинских текстов. 🔘PortalGen: фреймворк для синтеза реалистичных сообщений пациентов. Метод контекстного обучения, который позволяет LLM лучше соответствовать стилю и тону реальных данных, используя небольшое количество деперсонализированных сообщений пациентов. 🔘Voice EHR: голосовая электронная медицинская карта. Система сбора данных, которая фиксирует медицинскую информацию с помощью голосовых записей, сделанных через мобильное приложение. ▶️Исследования и обзоры *️⃣Мультимодальные модели в диагностики болезни Альцгеймера. Генерация синтетических диагностических отчетов, чтобы решить проблему недостатка текстовых данных в нейровизуальных датасетах для диагностики болезни Альцгеймера. *️⃣Ограниченное влияние медицинской адаптации на LLM и VLM. Исследуется эффективности DAPT для создания специализированных медицинских LLM и VLM, пригодных для решения задач (визуального) вопрос-ответа в медицине. Спойлер: LLM и без DAPT неплохо разбираются в медицине. 🔜 Читать полный дайджест @ai_machinelearning_big_data

295 919

🌟 OpenCoder - модели для кодинга, cookbook обучения и датасеты. OpenCoder - это открытое и воспроизводимое семейство LLM для программирования, включающее 1,5B и 8B базовые и instruct версии, поддерживающее английский и китайский языки. Семейство моделей OpenCoder обучалось с нуля на 2,5 трлн. лексем, состоящих на 90 % из сырого кода и на 10 % из веб-данных, связанных с кодом, и прошло отладку на более чем 4,5 млн. высококачественных примеров SFT, в итоге достигнув производительности топовых LLM с похожей специализацией. В открытый доступ опубликованы не только веса моделей и код для инференса, но и датасеты, полный цикл обработки данных, результаты экспериментальной абляции и подробные протоколы обучения. OpenCoder тщательно протестирован с помощью исследований абляции на различных стратегиях очистки данных и процессах обучения, включая эксперименты по дедупликации на уровне файлов и репозиториев, что обеспечило семейству тщательную проверку производительности моделей. OpenCoder достигает высокой производительности в различных бенчмарках, что ставит их в ряд SOTA-моделей с открытым исходным кодом для задач программирования. ▶️ Семейство моделей OpenCoder : 🟢OpenCoder-1.5B-Base, 4 тыс. токенов контекста; 🟢OpenCoder-8B-Base, 8 тыс. токенов контекста; 🟠OpenCoder-1.5B-Instruct, 4 тыс. токенов контекста; 🟠OpenCoder-8B-Instruct, 8 тыс. токенов контекста; ▶️ Датасеты: 🟢OpenCoder-SFT-Stage1, 4.21 млн. строк; 🟠OpenCoder-SFT-Stage2, 375 тыс.строк. ▶️ Пример инференса на HF Transformers:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "infly/OpenCoder-8B-Instruct"
model = AutoModelForCausalLM.from_pretrained(model_name,
                                             torch_dtype=torch.bfloat16,
                                             device_map="auto",
                                             trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

messages=[
    { 'role': 'user', 'content': "write a quick sort algorithm in python."}
]

inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")

outputs = model.generate(inputs, max_new_tokens=512, do_sample=False)

result = tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True)

🟡Страница проекта 🟡Набор моделей 🟡Arxiv 🟡Набор датасетов 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #OpenCoder #Datasets

295 919

🌟 Контекстуальные эмбединги для повышения эффективности поиска. Contextual Document Embeddings (CDE) - это метод векторных эмбедингов, разработанный в Cornell University, который учитывает дополнительный контекст из "соседних" документов целевого набора данных. Метод CDE предлагает добавить к функции встраивания зависимость не только от запроса или документа, но и от всех других документов в наборе данных. Чтобы создать такую функцию с осведомленностью о своем окружении, предлагаются две взаимодополняющих техники: 🟢Контекстуальное обучение, которое основано на кластеризации документов и запросов для формирования групп тематически схожих псевдообластей данных. Обучение на этих группах позволяет эмбединг-модели различать документы в сложных контекстах. 🟠Контекстуальная архитектура. Дополняет стандартный BERT-подобный энкодер дополнительными токенами из агрегированной информации о соседних документах. Эта информация позволяет модели учитывать относительную частоту терминов в контексте, аналогично тому, как это делается в статистических моделях поиска. Тестирование CDE показало, что обе техники улучшают производительность в задачах поиска вне предметной области, а контекстуальная архитектура эффективнее традиционных эмбедингов в специализированных областях: финансах, юриспруденции и медицине. Для практических экспериментов предлагается блокнот ipynb (или его версия для Google Collab) в котором используется эмбединг-модель cde-small-v1 с 281 млн. параметров, получившая средний балл 65.00 в бенчмарке MTEB leaderboard в категории моделей до 400 млн. параметров. Этот блокнот научит создавать свои собственные эмбединги в контексте вашего набора данных или просто использовать модель как есть. 🟡Модель 🟡Arxiv 🟡Ipynb блокнот 🟡Google Collab 🖥Github @ai_machinelearning_big_data #AI #ML #Embeddings #Retrieval #CDE

295 919

⚡️ Прими участие в хакатоне Т1 2024 в Москве и поборись за призовой фонд в 1 200 000 рублей! Когда: 26-29 ноября 2024 Формат: гибридный Призовой фонд: 1 200 000 рублей 🔥 Хакатон Т1 2024 создан для тебя, если ты: – Выпускник вуза или молодой специалист; – Студент старших курсов технических вузов; – Специалист по frontend или backend-разработке, системный аналитик, AI-специалист. ❗️На хакатоне тебе будут предложены 2 кейса: 1. Хаб: объединение данных пользователя в золотую запись. Создайте методику, которая поможет найти "золотую запись" в большом наборе данных, используя признаки актуальности, частоты и полноты. 2. Окно знаний: цифровой ассистент базы знаний. Создайте платформу, которая позволит пользователям разрабатывать окна взаимодействия с ассистентом, интегрируя собственные базы знаний. ▶️ Регистрация открыта! Успей зарегистрироваться до 24 ноября, 23:59 МСК по ссылке.

295 919

🌟 Языки программирования в 50 строк кода Python. Репозиторий на Github c микрореализацией фундаментальных языков программирования, по мотивам серии статей "Tiny Great Languages" Все написано на Python, код намеренно краток, чтобы не превышать ~50 строк кода для каждого языка. Используется только стандартная библиотека Python, да и то в очень скромных пределах (sys, иногда re, редко itertool и т.д.). ▶️ Реализованы языки: asm.py - ассемблер. Компилирует "Python-ассемблер" в байткод и выполняет его; basic.py - бейсик. Подмножество TinyBASIC, но с настоящим редактором строк BASIC! lisp.py - Lisp 1.5. Классика, автор - Джон Маккарти, достаточен, чтобы интерпретировать самого себя (мета-циклический интерпретатор); apl.py - интерпретатор k/simple, написанный Артуром Уитни, представляет собой диалект языка программирования K (array processing language), который является вариантом APL. mouse.py - язык конкатенативного программирования MOUSE, опубликованный в журнале BYTE в 1979 году. pl0.py - переводчик с языка PL/0, автор Никлаус Вирт. tcl.py - крошечный интерпретатор командного языка (TCL). 📌Лицензирование: MIT License. 🖥Github #Python #TinyLanguage

295 919

✔️ The New York Times обвиняет OpenAI в попытке заработать на судебном разбирательстве. NYT утверждает, что OpenAI предложила протокол проверки, ограничивающий количество запросов, которые их эксперт может сделать через API, суммой в 15 000 долларов. По словам NYT, для получения необходимых доказательств нарушения авторских прав, им потребуется кредитов на сумму 800 тыс. долларов, что, как утверждается, значительно превышает фактические затраты OpenAI. OpenAI защищает установленный лимит, утверждая, что он необходим для снижения нагрузки на компанию. Исход этого судебного спора может иметь последствия для будущих дел, связанных с проверкой моделей ИИ. arstechnica.com ✔️ Фильм, сценарий которого написан ИИ, открывает фестиваль IDFA. Фильм "О герое" режиссера Петра Виневича, сценарий которого написан искусственным интеллектом, обученным на работах Вернера Херцога, открывает Международный фестиваль документального кино в Амстердаме (IDFA). В фильме снимаются Вики Крипс и Стивен Фрай, а Вернер Херцог выступает в роли рассказчика. Фильм исследует роль технологий в кинопроизводстве и ставит вопросы об оригинальности, аутентичности и душе в эпоху ИИ. Виневич создал фильм, используя программное обеспечение Kaspar, которое обучалось на обширной фильмографии и текстах Херцога. Процесс написания сценария был долгим и сложным: сначала ИИ генерировал поток текста, который затем редактировался Виневичем и сценаристкой Анной Джул. hollywoodreporter.com ✔️ Hyundai разрабатывает электромобиль с ИИ, чтобы не отставать от конкурентов в Китае. В следующем году Hyundai выпустит свой первый электромобиль с ИИ, разработанный специально для китайского рынка. Новая модель будет оснащена системой DriveGPT от китайского стартапа Haomo, которая вдохновлена ChatGPT от OpenAI. Система способна к самообучению в режиме реального времени, оптимизируя процесс принятия решений на основе анализа данных о дорожном движении. Уровень автономного вождения новой модели будет находиться между 2 и 2.5, что сравнимо с автопилотом Tesla. Hyundai надеется, что новый электромобиль поможет увеличить продажи на китайском рынке электромобилей, где BYD лидирует с долей рынка 32,9%. electrek.co ✔️ Apple M4 Max транскрибирует аудио в 2 раза быстрее, чем RTX A5000, потребляя при этом в 8 раз меньше энергии. В пользовательском тесте, проведенном Toms hardware M4 Max транскрибировал 3-х часовой аудиофайл с помощью Whisper V3 Turbo всего за 2 минуты 29 секунд, потребляя 25 Вт, в то время как RTX A5000 затратил на ту же задачу 4 минуты 33 секунды, потребляя 190 Вт. Преимущество M4 Max объясняется наличием четырех аппаратных кодеров, включая два специализированных для ProRes, что позволяет ему эффективно обрабатывать видео и аудио. В тесте использовалась сбалансированная настройка M4 Max, а при увеличении скорости вентиляторов время транскрипции сократилось еще на 10 секунд. tomshardware.com ✔️ Новая модель Gemini от Google возглавляет рейтинг LLM в СhatbotArena. Последняя версия Gemini попала на вершину рейтинга Chatbot Arena, обогнав последнюю версию GPT-4o от OpenAI. Новая модель от Google DeepMind называется Gemini-Exp-1114. она сравнялась с последней версией GPT-4o, превзойдя возможности модели o1-preview reasoning от OpenAI. Gemini-Exp-1114 пока недоступна в приложении или на веб-сайте Gemini. Получить к ней доступ можно только зарегистрировав бесплатную учетную запись Google AI Studio. tomsguide.com @ai_machinelearning_big_data #news #ai #ml

295 919

🌟 LLaMA-Mesh: метод генерации 3D-мешей с помощью LLM. LLaMA-Mesh - метод, разработанный NVIDIA Labs, позволяющий генерировать 3D-модели с помощью текстовых инструкций, используя LLM. В отличие от других методов, LLaMA-Mesh представляет координаты вершин и определения граней 3D-сеток в виде простого текста, что позволяет напрямую интегрировать их с LLM без расширения словаря, минимизируя дополнительные затраты на обучение и позволяя использовать знания, которые уже имеют LLM. Метод основан на файнтюне LLaMA-3.1-8B-Instruct на специальном наборе данных., который состоит из пар "текст-3D" и интерактивных диалогов, содержащих текст и 3D-модели. В результате этого обучения, LLaMA-Mesh получает способность генерировать высококачественные 3D-сетки с различной топологией, сопоставимые по качеству с моделями, обученными с нуля, при этом сохраняя языковые способности, обеспечивая понимание сложных инструкций и ведения контекстуально-зависимых диалогов. Оценка LLaMA-Mesh проводилась на качественных и количественных экспериментах. Результаты качественных тестов демонстрируют высокую точность, качество и разнообразие сгенерированных 3D-моделей, а также сохраненные языковые возможности модели. Количественные тесты в бенчмарках MMLU, PIQA, HellaSwag и GSM8K подтвердили сохранение языковых способностей, сравнимые с фундаментальными моделями LLaMA. ⚠️ Код и предварительно обученные веса обещают опубликовать в ближайшее время. 🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #3DGen #LlamaMesh #NVIDIA

295 919

🌟 Athene-V2: диалоговая и агентная модели от Nexusflow с 72 млрд. параметров. Nexusflow представила семейство Athene-V2 из двух специализированных моделей: Athene-V2-Chat-72B, оптимизированную для чат-диалогов, и Athene-V2-Agent-72B, предназначенную для работы в качестве агента. Обе модели построены на базе Qwen 2.5-72B-Instruct. Ключевая особенность Athene-V2 - концепция "границы Парето" в постобработке LLM. По мере обучения модели с помощью RLHF на качественных данных достигается оптимальный баланс между метриками производительности, формируя "границу Парето". Дальнейшее улучшение отдельных характеристик становится возможным только за счет снижения других показателей. Athene-V2-Chat-72B демонстрирует конкурентоспособные результаты по сравнению с GPT-4o в бенчмарках, превосходя его в задачах чата (Arena-Hard), завершения кода (bigcode-bench-hard) и математических задачах (MATH). Athene-V2-Agent-72B превосходит GPT-4o в бенчмарках Nexus-V2, ориентированных на сложные сценарии вызова функций в корпоративной среде. Athene-V2-Chat-72B использует шаблон чата Qwen2.5-72B-Instruct. Пример инференса с помощью библиотеки Transformers. Athene-V2-Agent-72B можно использовать в любой совместимой с OpenAI API среде с помощью docker-образа VLLM. Примеры запуска погодного и RAG-агента. ⚠️ Athene-V2-Agent использует уникальный стиль промптов, который включен в docker-образ, поскольку исполняемые вызовы извлекаются из сгенерированного планирования модели. Использование шаблона чата HuggingFace приведет к неоптимальным результатам в случае использования Athene-V2-Agent . ▶️На HF доступны неофициальные квантованные версии в формате GGUF c диапазоном разрядности от 3 до 8 bit: 🟠Athene-V2-Chat-72B 🟠Athene-V2-Agent-72B 📌Лицензирование: Nexusflow Research License 🟡Страница проекта 🟡Набор моделей 🟡Сообщество в Discord @ai_machinelearning_big_data #AI #ML #LLM #AtheneV2 #Nexusflow

295 919

✔️ Nous Research запустил бета-версию Forge Reasoning API. Forge Reasoning API позволяет улучшить возможности популярных LLM, добавив интерпретатор кода и расширенные возможности рассуждений. API использует три архитектуры: поиск по древу Монте-Карло (MCTS), цепочка кода (CoC) и смесь агентов (MoA). Forge совместим с Hermes 3, Claude Sonnet 3.5, Gemini и GPT 4 и может комбинировать несколько языковых моделей для повышения разнообразия выходных данных. Beta-тестирование API будет сосредоточено на тестировании архитектуры системы рассуждений. nousresearch.com ✔️ Google устраняет уязвимости в Vertex AI, которые могли привести к утечке моделей ИИ. Уязвимости, обнаруженные Palo Alto Networks Unit 42, позволяли злоумышленникам получать несанкционированный доступ к данным и извлекать корпоративные модели из системы. Первая уязвимость, связанная с функцией "пользовательские задания", позволяла повышать привилегии и получать доступ ко всем сервисам данных в проекте. Вторая уязвимость, связанная с функцией "вредоносные модели", позволяла развертывать вредоносные модели и получать доступ ко всем другим настроенным моделям, что создавало серьезный риск утечки конфиденциальных данных. Google уже установила исправления для устранения этих уязвимостей. darkreading.com ✔️ JetBrains выпустила обновление 2024.3 для AI Assistant и IDEs. AI Assistant 2024.3 теперь поддерживает модели Gemini, предоставляя пользователям возможность выбирать между моделями Gemini, OpenAI или локальными моделями. Ассистент также предлагает улучшенное автозавершение кода, расширенное управление контекстом и встроенную генерацию подсказок. Обновления коснулись IDE JetBrains: PyCharm (добавлена функция AI-внутристроковых подсказок) , WebStorm (реализована улучшенная навигация по компонентам), GoLand (добавлены многострочное завершение, новая функция встроенной подсказки и новые языковые возможности из последних релизов Go), PhpStorm( новые проверки и быстрые исправления для обновления до PHP 8.4) и RubyMine(поддержка Rail 8, более быстрое завершение кода с учетом контекста и улучшенная интеграция модульных тестов). sdtimes.com ✔️ Red Hat приобретает технологию для снижения стоимости машинного обучения. Red Hat объявила о намерении приобрести Neural Magic, разработчика проекта vLLM с открытым исходным кодом. Цель приобретения в том, чтобы Red Hat и ее материнская компания IBM могли снизить барьер для входа организаций, желающих запускать рабочие нагрузки машинного обучения без необходимости развертывания серверов, оснащенных GPU. Neural Magic разработала способ запуска алгоритмов машинного обучения без GPU. Вместо этого компания методы обрезки и квантования для оптимизации моделей, позволяя им работать на доступных процессорах без ущерба для производительности. computerweekly.com ✔️ Франсуа Шолле покидает Google. Французский разработчик Франсуа Шолле, создатель Keras, покидает Google после почти 10 лет работы. Keras лежит в основе ряда технологических продуктов: беспилотные автомобили Waymo, рекомендательные системы на YouTube, Netflix и Spotify. В 2019 году Шолле опубликовал тест Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI), который измеряет способность систем ИИ решать новые задачи на рассуждение. Шолле неоднократно утверждал, что подход, принятый многими крупными лабораториями, разрабатывающими ИИ (внедрение все большего количества данных и вычислительных ресурсов в модели), не позволит достичь ИИ, который будет таким же «умным», как люди. 34-летний Франсуа сообщил в посте X, что он создает новую компанию вместе с «другом», но отказался раскрывать подробности. techcrunch.com @ai_machinelearning_big_data #news #ai #ml

295 919

⚡️ JanusFlow: унифицированная MMLM понимания и генерации изображений от DeepSeekAI. JanusFlow - уникальная комбинация LLM с Rectified Flow и SDXL-VAE для задач понимания и генерации изображений. Архитектура JanusFlow построена на улучшенной версии DeepSeek-LLM-1.3B, дополненной двумя специализированными энкодерами изображений: SigLIP для задач понимания и ConvNeXt для задач генерации. Разделение энкодеров предотвращает интерференцию задач и повышает эффективность модели. JanusFlow обучалась в 3 этапа. На первом этапе адаптировались линейные слои, энкодер и декодер генерации. На втором этапе - унифицированное предварительное обучение всей модели, за исключением визуального энкодера. На третьем этапе - SFT с использованием инструкций, диалогов и примеров генерации изображений. В тестах генерации изображений MJHQ FID-30k, GenEval и DPG-Bench, JanusFlow превосходит SD1.5 и SDXL. В тестах понимания MMBench, SeedBench и GQA, JanusFlow превосходит LLaVA-v1.5 и Qwen-VL-Chat. Локальный запуск возможен в CLI на Transformers и с webUI на Gradio. Примеры CLI-инференса для задач понимания и генерации можно найти в репозитории проекта. ▶️Установка и запуск с GradioUI:

# install the necessary dependencies
pip install -e .
pip install diffusers[torch]

# run local gradio demo
pip install -e .[gradio]

python demo/app_janusflow.py

📌Лицензирование кода : MIT License. 📌Лицензирование модели: DeepSeek Model License. 🟡Модель 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #MMLM #Deepseek #JanusFlow

295 919

✔️ FrontierMath: набор тестов по математике, который ставит в тупик модели ИИ и кандидатов наук. Epoch AI представила FrontierMath, математический тест, который содержит сотни задач экспертного уровня. Claude 3.5 Sonnet, GPT-4o, o1-preview и Gemini 1.5 Pro показали крайне низкие результаты - менее 2%, а для решения задач теста математикам-специалистам обычно требуются часы или дни. Набор задач в FrontierMath остается закрытым и неопубликованным, чтобы предотвратить загрязнение данных. Задачи охватывают несколько математических дисциплин, от вычислительной теории чисел до абстрактной алгебраической геометрии. Epoch AI планирует проводить регулярную оценку моделей ИИ с помощью теста, одновременно расширяя набор задач. epoch.ai ✔️ Лаборатория искусственного интеллекта на защите людей искусства от генеративного ИИ. Ученые из SAND Lab Чикагского университета разработали два инструмента, Glaze и Nightshade, которые защищают цифровое искусство от несанкционированного использования в обучении моделей. Glaze изменяет изображения таким образом, чтобы алгоритмы ИИ не могли распознать стиль художника, а Nightshade добавляет в изображения «яд», нарушающий работу моделей ИИ. Оба инструмента были загружены миллионы раз и используются художниками для защиты своих работ от копирования и использования без их согласия. Nightshade может нанести серьезный ущерб моделям ИИ, заставив их интерпретировать изображения неправильно, например, принимать собак за кошек. Разработчики инструментов надеются, что они заставят компании, занимающиеся ИИ, вести переговоры с художниками о лицензировании и справедливой компенсации. technologyreview.com ✔️ OpenAI представит план развития инфраструктуры ИИ в США для конкуренции с Китаем. OpenAI разработала план развития инфраструктуры ИИ в США, который включает создание специальных экономических зон для ИИ, использование опыта ВМС США в области ядерной энергетики и финансирование государственных проектов частными инвесторами. План также предусматривает создание североамериканского альянса по ИИ для конкуренции с китайскими инициативами. Компания считает, что инвестиции в ИИ в США приведут к созданию десятков тысяч рабочих мест, росту ВВП, модернизации энергосистемы, появлению новых заводов по производству чипов и привлечению миллиардов долларов инвестиций из глобальных фондов. В плане также прогнозируется принятие закона о национальной транспортной магистрали, который позволит расширить строительство линий электропередач, волоконно-оптических сетей и газопроводов. cnbc.com ✔️ YouTube тестирует функцию ремиксов песен с помощью ИИ. YouTube тестирует новую функцию в наборе инструментов Dream Track, которая позволяет авторам ремиксовать треки с помощью опции «Restyle a track» и описать текстом, как они хотят изменить стиль песни. Restyle a track сгенерирует 30-секундный фрагмент, который авторы смогут использовать в Shorts. Ремикшированные фрагменты будут содержать информацию об оригинальной песне на странице Shorts audio pivot. Ремиксы также будут иметь соответствующую метку, указывающую на то, что трек был изменен с помощью ИИ. techcrunch.com ✔️ Сверхчеловеческое зрение для роботов благодаря ИИ и радиоволнам. Исследователи из Университета Пенсильвании разработали систему PanoRadar, которая использует радиоволны и ИИ, чтобы обеспечить роботов трехмерным зрением, подобным LiDAR, но по более низкой цене. PanoRadar работает как маяк, вращаясь и излучая радиоволны, отражения которых обрабатываются ИИ для создания точного 3D-изображения окружающей среды. Эта технология позволяет роботам видеть сквозь препятствия, дым и туман. PanoRadar использует алгоритмы машинного обучения для интерпретации сложных сигналов радиоволн и достижения высокого разрешения, сравнимого с LiDAR. interestingengineering.com @ai_machinelearning_big_data #news #ai #ml

295 919

🌟 Moirai-MoE: фундаментальная модель временных рядов на основе разреженной смеси экспертов. Фундаментальные модели временных рядов продемонстрировали впечатляющие результаты в задачах прогнозирования без предварительной настройки. Однако эффективное унифицированное обучение на временных рядах остается открытой проблемой. Существующие методы используют определенный уровень специализации модели, чтобы учесть высокую гетерогенность данных временных рядов. Moirai-MoE - модель для прогнозирования временных рядов от Salesforce AI Research, использующая один входной/выходной проекционный слой, при этом задача моделирования различных паттернов временных рядов делегируется разреженной смеси экспертов (MoE) в трансформерах. Moirai-MoE достигает специализации, управляемой данными, и работает на уровне токенов. Для повышения эффективности обучения Moirai-MoE использует целевую функцию только декодера, что позволяет параллельно обучать модель на различных контекстных длинах. Moirai-MoE была оценена на 39 наборах данных в сценариях прогнозирования внутри и вне распределения. Результаты подтверждают превосходство Moirai-MoE над существующими фундаментальными моделями, включая TimesFM, Chronos и Moirai. В частности, Moirai-MoE превосходит свою аналогичную модель Moirai на 17% при том же размере модели и превосходит другие фундаментальные модели временных рядов с до 65 раз меньшим количеством активных параметров. В открытый доступ на HF опубликованы 2 модели: 🟢Moirai-MoE-1.0-R-Small, 11 млн. активных параметров, 117 млн. общих; 🟢Moirai-MoE-1.0-R-Base, 86 млн. активных параметров, 935 млн. общих. ▶️Пример использования Moirai-MoE для составления прогнозов:

import matplotlib.pyplot as plt
from gluonts.dataset.repository import dataset_recipes

from uni2ts.eval_util.data import get_gluonts_test_dataset
from uni2ts.eval_util.plot import plot_next_multi
from uni2ts.model.moirai import MoiraiForecast, MoiraiMoEModule

SIZE = "small"  # model size: choose from {'small', 'base'}
CTX = 1000  # context length: any positive integer
BSZ = 32  # batch size: any positive integer

# Load dataset
test_data, metadata = get_gluonts_test_dataset(
    "electricity", prediction_length=None, regenerate=False
)
# Uncomment the below line to find other datasets
# print(sorted(dataset_recipes.keys()))

# Prepare model
model = MoiraiForecast(
    module=MoiraiMoEModule.from_pretrained(
        f"Salesforce/moirai-moe-1.0-R-{SIZE}",
    ),
    mode="autoregressive",
    prediction_length=metadata.prediction_length,
    context_length=CTX,
    patch_size=16,
    num_samples=100,
    target_dim=metadata.target_dim,
    feat_dynamic_real_dim=metadata.feat_dynamic_real_dim,
    past_feat_dynamic_real_dim=metadata.past_feat_dynamic_real_dim,
)

predictor = model.create_predictor(batch_size=BSZ)
forecasts = predictor.predict(test_data.input)

input_it = iter(test_data.input)
label_it = iter(test_data.label)
forecast_it = iter(forecasts)

# Visualize forecasts
fig, axes = plt.subplots(nrows=2, ncols=3, figsize=(25, 10))
plot_next_multi(
    axes,
    input_it,
    label_it,
    forecast_it,
    context_length=200,
    intervals=(0.5, 0.9),
    dim=None,
    name="pred",
    show_label=True,
)

🟡Страница проекта 🟡Коллекция на HF 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #Forecast #MoiraiMoE #SalesforceAI

295 919

Яндекс проведет «Ночь опенсорс библиотек» — ивент для тех, кто интересуется открытым кодом На мероприятии вы понетворкаете с разработчиками крупных опенсорс проектов и узнаете, как коммитить так, чтобы ваш код всегда принимали мейнтейнеры. А еще познакомитесь с реальными кейсами оптимизации обучения с помощью CatBoost и YaFSD, поучаствуете в воркшопах, мини-хакатонах и лекциях. Ночь опенсорса пройдет 14 декабря в московской Библиотеке иностранной литературы. Заявки на участие принимаются до 4 декабря.

295 919

📌Исследование различных типов связей между датасетами для улучшения их поиска. В исследовании, опубликованном к International Semantic Web Conference, Google Research проанализировал связи между датасетами, доступными в Интернет. Целью исследования заявлена стремление улучшить возможности поиска и использования данных, учитывая их сложные взаимоотношения. Исследователи выделили 4 ключевые задачи, с которыми сталкиваются пользователи при работе с датасетами: 🟢Поиск. Огромное количество данных в сети затрудняет поиск нужных датасетов. 🟢Оценка достоверности. В отличие от научных публикаций, датасеты редко проходят рецензирование, поэтому пользователям приходится полагаться на метаданные для оценки их надежности. 🟢Цитирование. Корректное цитирование требует наличия постоянных идентификаторов, метаданных и точного описания происхождения данных. 🟢Курирование: Курирование включает сбор, организацию и поддержку датасетов из разных источников, а для этого кураторам необходимо понимать связи между ними. Чтобы классифицировать отношения между датасетами были использованы 2 основных типа связей: основанные на происхождении (например, версии и подмножества) и не связанные с происхождением (например, тематически похожие). Для автоматического определения отношений между датасетами применяли 4 метода: 🟠Извлечение отношений из schema.org. Schema.org - это семантическая разметка метаданных для поисковых ботов на веб-страницах. 🟠Эвристический подход. Набор правил, разработанных для каждого типа отношений. 🟠Градиентный бустинг деревьев решений (GBDT). Метод машинного обучения, основанный на классификации. 🟠Модель T5. Генеративная модель, также используемая для классификации. Результаты исследования показали, что методы машинного обучения, GBDT и T5, превзошли эвристический подход в точности определения отношений. GBDT продемонстрировал наилучшие показатели F1 в различных категориях, T5 тоже молодец показал схожие результаты. Однако, даже самые эффективные методы столкнулись с ограничениями из-за недостаточной полноты метаданных. Вывод - необходимость улучшения стандартов метаданных и более широкого использования schema.org для описания связей между датасетами. 🟡Статья в блоге 🟡Arxiv 🟡Поиск по датасетам @ai_machinelearning_big_data #AI #ML #Google #Datasets #Search