Machinelearning

Open in Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Network:Machinelearning Russia1 276 Technologies & Applications332...

📈 Analytical overview of Telegram channel Machinelearning

Channel Machinelearning (@ai_machinelearning_big_data) in the Russian language segment is an active participant. Currently, the community unites 295 804 subscribers, ranking 332 in the Technologies & Applications category and 1 276 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 295 804 subscribers.

According to the latest data from 22 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -6 276 over the last 30 days and by -223 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.09%. Within the first 24 hours after publication, content typically collects 5.69% reactions from the total number of subscribers.
Post reach: On average, each post receives 23 927 views. Within the first day, a publication typically gains 16 831 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 193.
Thematic interests: Content is focused on key topics such as openai, claude, api, gemini, контекст.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Thanks to the high frequency of updates (latest data received on 23 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

295 804

Subscribers

-22324 hours

-1 4447 days

-6 27630 days

23 927

Post views

~ 16 83124 hours

~ 18 91548 hours

8.09%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

295 827

⚡️ Labor Statistics прогнозирует рост занятости дата-сайентистов на 36% до 2033 года Средние зарплаты специалистов достигают 200 тыс. ₽ в России и 10 тыс. $ за рубежом. Станьте дата-сайентистом, пока сфера активно растет, на курсе "Data scientist с нуля до Pro" от Skillfactory. 🟡Учитесь с нуля: от основ математики до продвинутого ML. 🟡Знания от профи: автор курса — профессор МГУ и лауреат премии Юнеско в области. цифровых технологий и ПО для ИИ и суперкомпьютеров, Алексей Семенов. 🟡Много практики: решайте реальные задачи и собирайте проекты в портфолио. 🟡Карьера: пройдите стажировку в айти-компании "Моторика" еще во время курса. 🟡Помощь в трудоустройстве: получите помощь от Карьерного центра школы. Записывайтесь на курс с 45% скидкой по промокоду MACHINE: https://go.skillfactory.ru/N2kaLw Реклама. ООО "Скилфэктори", ИНН 9702009530, erid: LjN8Jz5QF

295 827

✔️ Adobe запустила генератор видео Firefly. Adobe представила Firefly, обновленную генеративную платформу, которая позволяет создавать видеоролики длительностью до 5 секунд с помощью текстовых или графических подсказок. Firefly может создавать анимационный и фотореалистичный контент, а веб-приложение Firefly включает в себя настройки для управления движением камеры, углом обзора и размером кадра. В бета-версии Premiere Pro доступна функция Generative Extend от Firefly, которая продлевает видеоклипы до двух секунд, генерируя дополнительный кадр в сцене, продолжая движение камеры и объекта, а также расширяя фоновый звук. techcrunch.com ✔️ Китай выдал первую лицензию на производство кухонных роботов с ИИ. В Пекине выдали первую коммерческую лицензию роботу со встроенным искусственным интеллектом для работы в сфере общественного питания. Новый тип робота, в отличие от традиционных роботов, выполняющих одну задачу, может готовить различные блюда, адаптироваться к рабочей среде и создавать новые меню благодаря своей способности к непрерывному обучению. Ожидается, что к концу года использование роботов расширится до сетей ресторанов, где они будут готовить все - от мороженого до салатов. fanabc.com ✔️ Уимблдонский турнир внедрит ИИ для замены судей. С 2025 года на Уимблдонском турнире, старейшем теннисном турнире Большого шлема, будет использоваться технология ИИ для определения попадания мяча в корт, заменяя 300 судей на линии. Английский клуб лаун-тенниса и крокета, организатор турнира, заявил, что эта технология прошла испытания в 2024 году и позволит минимизировать ошибки судейства, обеспечивая максимальную точность. Французский турнир Большого шлема остается единственным, где до сих пор не используются электронные системы определения аута. timesnownews.com ✔️ IBM выпустила Qiskit Code Assistant. IBM представила Qiskit Code Assistant, инструмент для упрощения и оптимизации процесса написания кода. Qiskit предлагает функции генерации кода на основе запросов на естественном языке, очистки чернового кода и практического обучения. Инструмент интегрируется Visual Studio Code и JupyterLab, и его производительность оценивается с помощью бенчмарка Qiskit HumanEval. IBM планирует сделать ключевые компоненты Qiskit Code Assistant, включая модель Qiskit Granite и набор данных HumanEval, общедоступными. thequantuminsider.com ✔️ Ученые из ОАЭ разработали модели машинного обучения для прогнозирования разрушения железобетона. Модели учитывают факторы: как возраст конструкции, осадки, температура и интенсивность движения. Исследователи выявили, что эти факторы являются основными причинами разрушения непрерывно армированных бетонных покрытий. Результаты исследования показывают, что модели машинного обучения могут эффективно прогнозировать разрушение бетона, предоставляя инженерам время для принятия мер по предотвращению разрушения. techxplore.com @ai_machinelearning_big_data #news #ai #ml

295 827

🌟 Arcee-SuperNova-Medius: модель с 14 млрд. параметрами на архитектуре Qwen2.5. Модель построена на архитектуре Qwen2.5-14B-Instruct и использует 14 млрд. параметров. В процессе создания использовалась дистилляция с перекрестной архитектурой, объединяющая знания моделей Qwen2.5-72B-Instruct и Llama-3.1-405B-Instruct. Для этого применялась дистилляция логитов из Llama 3.1 405B с использованием автономного подхода, адаптация к перекрестной архитектуре с использованием mergekit-tokensurgeon для создания версии Qwen2.5-14B, использующей словарь Llama 3.1 405B, а также дистилляция в архитектуру Qwen с использованием сохраненных логитов 405B в качестве цели. На заключительном этапе, словарь модели Qwen, дистиллированной из Llama, был возвращен к словарю Qwen, а затем был проведен заключительный этап слияния и тонкой настройки. В процессе обучения использовался набор данных EvolKit. Arcee-SuperNova-Medius обладает навыками для решения бизнес-задач: поддержка клиентов, техническая поддержка и генерация текстового контента. Тестирование в показало, что SuperNova-Medius превосходит Qwen2.5-14B и SuperNova-Lite по показателям, связанным с выполнением инструкций (IFEval) и сложным рассуждением (BBH). ▶️ Официальные квантованные версии Arcee-SuperNova-Medius в формате GGUF в разрядностях от 2-bit (5 Gb) до 16-bit (29.5 Gb) 📌Лицензирование : Apache 2.0 License. 🟡Страница проекта 🟡Набор GGUF 🟡Модель @ai_machinelearning_big_data #AI #ML #LLM #ArceeAI #SuperNova

295 827

Вечерний митап для ML-инженеров в Белграде и онлайн 📅 17 октября в 18:00 собираемся в хабе «Сербская Роза», чтобы обсудить тренды, новые подходы, решения и вызовы индустрии в неформальной обстановке. Спикеры и темы докладов: 🔸 Илья Ирхин, руководитель подразделения аналитики в Яндекс Еде. Подробно рассмотрит рекламу ресторанов в сервисе: аукцион, ранжирование, ценообразование 🔸 Дмитрий Солодуха, руководитель группы в Алисе и Умных устройствах Яндекса. Покажет, как мы учим Алису откликаться без имени 🔸 Антон Клочков, руководитель подгруппы распознавания текста в VLM в Яндекс Поиске. Расскажет о развитии навыков распознавания текста в VLM 🔸 Пётр Вытовтов, руководитель группы в Яндекс Погоде. Рассмотрит трансформеры сервиса и расскажет, как начать прогнозировать до миллиметра осадков После докладов офлайн-участников ждёт нетворкинг с экспертами из разных компаний! 📎 Регистрация и подробности тут. Ждём вас на ML Party в Белграде! Реклама. ООО "Яндекс", ИНН 7736207543.

295 827

🌟 MaskLLM: Обучаемая полуструктурированная разреженность для LLM. MaskLLM - метод обучения полуструктурированной разреженности для LLM, с которым можно сократить количество используемых параметров без ущерба для качества. Суть - в моделировании паттернов N:M (где N - количество ненулевых значений в группе из M параметров) в виде обучаемого распределения. Для дифференцируемой выборки маски используется дискретизация Gumbel Softmax, которая дает возможность проводить сквозное обучение на больших датасетах и получать более точные маски по сравнению с традиционными методами, основанными на эвристических критериях важности параметров. Главное преимущество MaskLLM - метод может переносить паттерны разреженности между разными задачами и доменами. Это достигается путем обучения общего распределения масок, которое затем можно использовать для настройки на конкретные задачи без необходимости обучения с нуля. Эффективность MaskLLM оценивали сравнением с другими методами на моделях LLaMA-2, Nemotron-4 и GPT-3. Результаты показали, что MaskLLM достигает более низкой перплексии на наборе данных Wikitext при использовании 2:4 разреженности. Например, для LLaMA-2 7B MaskLLM достиг перплексии 6.72, в то время как SparseGPT показал результат 10.42. ▶️ Для использования MaskLLM на практике, NVlabs рекомендует использовать Docker. После установки, следуя инструкциям в репозитории, нужно скачать и сконвертировать целевую модель в формат Megatron-LM, подготовить данные для обучения и сгенерировать начальные маски. После этого можно приступать к обрезке целевой модели, и, по завершению, сделать экспорт обученных разреженных моделей в формат Huggingface для дальнейшего использования. ⚠️ Скрипты и инструкции репозитория ориентированы на запуск MaskLLM-LLaMA-2/3 на одном узле с 8 GPU с тензорным параллелизмом и потребует ~40 ГБ на GPU для сквозного обучения. 📌Лицензирование : NVIDIA Source Code License for MaskLLM (только некоммерческое использование, бесплатно) 🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #MaskLLM

295 827

NLP Researchers, отметьте в календаре 26 октября🌟 Всего за один день вы сможете пройти все этапы отбора, познакомиться с командой GigaCode и получить оффер. Мы создаем AI ассистента разработчика – GigaCode. Наши модели помогают писать 80к строк кода ежедневно! Решаем задачи по различным подходам в NLP и PLP, проводим ресёрч-эксперименты и обучаем новые SOTA LLM. В работе используем: NLP, DL, ML, Python, Pytorch, Transformers, FSDP, Deepspeed. Чем предстоит заниматься? ✅ реализовывать дизайн экспериментов, формулировать гипотезы для улучшения NLP/PLP моделей и алгоритмов, планировать исследовательские эксперименты с выводами. ✅ проводить эксперименты, писать код, подготавливать датасеты и бенчмарки, проводить замеры и анализ результатов. ✅ обучать модели на кластере, включая обучение моделей с нуля и дообучение опенсорс моделей. Если вы амбициозны и готовы к новым вызовам в PLP и/или NLP направлениях, регистрируйтесь на One Day Offer! Будем делать важнейшие исследования вместе!💚

295 827

📎 ML: Медицинский дайджест за период 07.10 - 13.10 2024 г. ▶️ Модели машинного обучения и бенчмарки 🔘ONCOPILOT: Интерактивная модель для сегментации опухолей на основе КТ и измерения по RECIST 1.1. Цель модели - сгенерировать 3D-предсказание объема конкретной анатомической структуры на основе входного изображения и визуальной маркировки. 🔘RespLLM: MLLM для прогнозирования состояния дыхательной системы. RespLLM использует знания LLM и кросс-модальное внимание для объединения звука и текста чтобы оценить состояние дыхательной системы по аудио. 🔘GlucoBench: набор данных для прогнозирования уровня глюкозы. GlucoBench - комплексныq ресурс для исследований в области прогнозирования уровня глюкозы на основе данных непрерывного мониторинга глюкозы (CGM). 🔘DiffAbXL: Модель диффузии для оценки аффинности связывания антител. DiffAbXL - это масштабируемая модель диффузии, разработанная для прогнозирования и ранжирования аффинности связывания антител. ▶️ Фреймворки и методологии 🔘DALL-M: Система дополнения клинических данных с учетом контекста с помощью LLM. DALL-M - платформа, которая использует LLM для создания новых клинически значимых признаков, дополняя наборы данных рентгеновских снимков с учетом контекста. 🔘ClinicalLab: Платформа для оценки и разработки медицинских агентов, имитирующая реальный клинический диагностический процесс. ClinicalLab - набор инструментов и методологий, предназначенных для оценки и разработки медицинских агентов на основе LLM, которые могут эффективно имитировать процесс клинической диагностики. 🔘Синтез хирургических наборов данных с помощью диффузионных моделей. Метод, основанный на диффузионных моделях, который позволяет генерировать реалистичные хирургические изображения с полными аннотациями. ▶️Медицинские LLM-приложения 🔘MMedAgent: Мультимодальный медицинский агент. MMedAgent предназначен для обработки медицинских изображений разных модальностей и решения задач: grounding, сегментация, классификация, генерация медицинских отчетов (MRG), генерация с извлечением информации (RAG) и визуальные вопросы и ответы (VQA). 🔘Гибридная система для выявления редких заболеваний из неструктурированных клинических отчетов. Cистема предназначена для решения проблемы идентификации редких заболеваний, используя преимущества как NLP-инструментов, так и LLM. 🔘LLM-AMT: конвейер для повышения точности LLM в задачах QA. Конвейер, который улучшает работу LLM в медицинской области, добавляя к ним информацию из медицинских учебников. ▶️Исследования и обзоры 🔘Реконструкция изображений компьютерной томографии с малым числом ракурсов. Исследование, посвященное поиску эффективных методов реконструкции КТ-изображений с ограниченным числом проекций. 🔜 Читать полный дайджест @ai_machinelearning_big_data

295 827

⚡️ INTELLECT-1: первая коллективная децентрализованная тренировка модели с 10 млрд. параметров. Prime Intellect объявила о запуске INTELLECT-1 — первого децентрализованного процесса обучения модели с 10 млрд. параметров, приглашая всех желающих внести свой вклад в вычисления. Процесс построен на опубликованном ранее OpenDiLoCo — реализации с открытым исходным кодом метода распределенного обучения с низкой коммуникацией (DiLoCo) от DeepMind. OpenDiLoCo уже успешно применили в обучении модели в 1 млрд. параметров. Теперь Prime Intellect масштабирует этот подход в 10 раз. Это третий шаг в генеральном плане Prime Intellect по коллективному обучению открытых базовых моделей: от языковых и агентных до научных. Цель Prime Intellect — поэтапно решить проблему децентрализованного обучения, чтобы AGI был открытым, прозрачным и доступным, предотвращая контроль со стороны централизованных организаций. ▶️Детали проекта INTELLECT-1 INTELLECT-1 — модель с 10 млрд. параметров, основанная на архитектуре Llama-3 и обучающаяся на курируемом наборе данных, который состоит из: 55% Fineweb-edu, 20% DLCM, 20% Stackv2 и 5% OpenWebMath. Общее количество токенов датасета — более 6 трлн. В обучении используется планировщик скорости обучения WSD , поддерживающий постоянную скорость после начальной фазы warm-up. Ближе к концу обучения, планируется запустить фазу «остывания» для повышения производительности и оптимизации после обучения. Синхронизация сети занимает менее 1 минуты, сводя связь между узлами до 1-2% от общего времени обучения. ▶️Prime: фреймворк для децентрализованного обучения. Prime — фреймворк для отказоустойчивого обучения и динамического подключения ресурсов. Его основные возможности: 🟢ElasticDeviceMesh: распределенная абстракция для отказоустойчивой связи; 🟢Асинхронное распределенное создание чекпоинтов с минимизацией времени блокировки; 🟢Восстановление чекпоинтов в реальном времени; 🟢Пользовательское ядро Int8 All-Reduce: квантование псевдоградиентов; 🟢Максимальное использование пропускной способности: шардинг псевдоградиентов, технология VPN. 🟢Реализация PyTorch FSDP2 / DTensor ZeRO-3: шардинг весов модели. 🟢Выгрузка тензоров в CPU. Дорожная карта Prime: 🟠Масштабирование до более крупных и мощных моделей в научных, рассуждающих областях и в понимании программного кода; 🟠Разработка системы безопасного и проверяемого вклада в децентрализованное обучение; 🟠Создание фреймворка для инициации децентрализованного цикла обучения. Присоединиться к проекту можно арендовав на любое время серверные мощности в личном кабинете Prime Intellect или подключив в нем сторонние облачные сервисы GPU. Поддержка подключения локальных GPU через фреймворк Prime ожидается в будущем, открыт прием заявок через форму. Посмотреть статус обучения INTELLECT-1 можно по ссылке. ▶️Локальная установка и запуск фреймворка Prime:

# Install uv
curl -LsSf https://astral.sh/uv/install.sh | sh
source $HOME/.cargo/env

# Set up the env
uv venv
source .venv/bin/activate
uv sync --extra all
uv pip install flash-attn --no-build-isolation
git submodule update --init --recursive

# Running DiLoCo:
# !! Single GPU setups are currently not supported !!
# Using 2 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 1 src/zeroband/train.py @configs/debug/diloco.toml

# Using 4 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 2 src/zeroband/train.py @configs/debug/diloco.toml

📌Лицензирование кода : Apache 2.0 License. 🟡Страница проекта 🟡Документация 🟡Arxiv 🟡Датасет 🟡Сообщество в Discord 🟡Дашборд прогресса 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #Decentralized #Training

295 827

⚡️ OpenAI Swarm: Экспериментальный фреймворк для оркестрации мультиагентных систем. Swarm - это экспериментальный фреймворк, разработанный командой OpenAI Solutions, для создания, оркестрации и развертывания многоагентных систем. Фреймворк фокусируется на упрощении координации, запуска, контроля и тестирования агентов. Основная цель Swarm - продемонстрировать паттерны, описанные в Orchestrating Agents: Handoffs & Routines cookbook. Фреймворк построен на двух основных абстракциях: агентах (Agent) и передачах управления (handoffs): Агент - это набор инструкций и функций, который может передавать выполнение другим агентам. Его можно использовать для описания конкретного рабочего процесса или шага (например, последовательность шагов, сложный поиск, одноэтапное преобразование данных и так далее). Передача управления — это процесс, при котором агент может передать запрос другому агенту, возвращая его в функцию. В процессе передачи управления также происходит обновление переменных контекста, что позволяет вернуть более полный объект Result. ▶️В репозитории собраны функциональные примеры Swarm: 🟢basic - простые примеры настройки, вызова функций, передача данных и контекстные переменные; 🟢traige agent - пример роя с агентом сортировки, который принимает пользовательские данные и решает, ответить ли на запрос напрямую или передать его агенту по продажам или возврату денег; 🟢weather agent - погодный агент с вызовом функций (запрос по городу и отправка на e-mail); 🟢airlines - мультиагентный пример обработки клиентских запросов в контексте авиакомпании (сортировка запросов, изменения рейсов, отмены бронирований и случаи потери багажа); 🟢support_bot - клиентский бот центра поддержки с несколькими инструментами; 🟢personal shopper - пример роя агентов персонального торгового агента, который может помогать совершать покупки и возвращать заказы; ⚠️ Swarm не использует API Assistants и полностью работает на API Chat Completions. ⚠️ Swarm не предназначен для промышленного использования и не имеет официальной поддержки. ▶️ Локальная установка и запуск:

# Install from PIP
pip install git+https://github.com/openai/swarm.git

# Usage
from swarm import Swarm, Agent
client = Swarm()

def transfer_to_agent_b():
    return agent_b

agent_a = Agent(
    name="Agent A",
    instructions="You are a helpful agent.",
    functions=[transfer_to_agent_b],
)

agent_b = Agent(
    name="Agent B",
    instructions="Only speak in Haikus.",
)

response = client.run(
    agent=agent_a,
    messages=[{"role": "user", "content": "I want to talk to agent B."}],
)

print(response.messages[-1]["content"])

📌Лицензирование : MIT License. 🖥GitHub 🟡Orchestrating Agents Cookbook @ai_machinelearning_big_data #AI #ML #Agents #OpenAI #Swarm

295 827

Привет! Это команда МТС. Мы запустили набор на 3 поток Школы аналитиков данных МТС! Обучение проходит в онлайн-формате и длится 10 месяцев. Преподаватели — эксперты нашего центра Big Data. Вы научитесь писать на Python, прокачаетесь в математике, основах машинного обучения, ML Ops, Spark и прочих вещах, без которых не выйдет работать в Data Science. Также у студентов будет возможность попасть на стажировку в МТС. Ждем тех, кто любит учиться, хочет попасть в комьюнити единомышленников, и, конечно, развиваться в анализе данных и ML. Обучение бесплатное, но места ограничены - чтобы попасть, необходимо подать заявку до 20 октября и выполнить вступительное задание. Старт обучения - 7 ноября! Подробности по ссылке, ждём тебя! Реклама. Информация о рекламодателе.

295 827

✔️ Microsoft запустила новые возможности ИИ для здравоохранения. Microsoft представила ряд инноваций в облачной платформе Microsoft Cloud for Healthcare, которые направлены на улучшение взаимодействия между пациентами и врачами, повышение эффективности работы медицинских бригад и расширение возможностей анализа данных. Новые модели ИИ для здравоохранения в Azure AI Studio, решения для обработки медицинских данных в Microsoft Fabric, сервис медицинских агентов в Copilot Studio и решение для автоматизации рабочих процессов медсестер на основе ИИ. Microsoft Cloud for Healthcare предлагает передовые модели медицинской визуализации, разработанные в сотрудничестве с Providence и PaigeAi. news.microsoft.com ✔️ AMD представила процессор MI325X для ЦОД, конкурента Blackwell от Nvidia. Производство MI325X начнется до конца 2024 года, а его выпуск ускорит график разработки новых процессоров AMD до одного в год. MI325X получит до 288 GB HBM3E памяти, будет построен на новой CDNA4 архитектуре по 3-нм процессу. MI325X бросит вызов грядущим чипам Blackwell от Nvidia, поставки которых в значительных объемах начнутся в начале 2025. AMD планирует улучшать свое программное обеспечение ROCm, чтобы разработчики ИИ могли легко переносить свои модели ИИ на процессоры AMD. cnbc.com ✔️ TikTok сокращает сотни рабочих мест, переходя на модерацию контента с помощью ИИ. TikTok увольняет сотрудников по всему миру, в том числе большое количество сотрудников в Малайзии, поскольку компания переключает внимание на более широкое использование ИИ в модерации контента. Два источника сообщили Reuters, что в Малайзии было сокращено более 700 рабочих мест. TikTok позже уточнил, что увольнения коснулись менее 500 сотрудников в стране. TikTok подтвердил увольнения и заявил, что в рамках более широкого плана по совершенствованию операций по модерации, по всему миру, как ожидается, будет затронуто несколько сотен сотрудников. reuters.com ✔️ Редакторы "Википедии" борются с некачественным контентом, созданным ИИ. Редакторы "Википедии" объединились в группу "WikiProject AI Cleanup" для борьбы с контентом, созданным ИИ, который содержит ошибки, галлюцинации и плохое оформление. Цель группы — не запретить использование ИИ, а убедиться в качестве информации и исправить или удалить неприемлемый контент. Редакторы отмечают, что некоторые случаи использования ИИ очевидны, например, когда в статьях остаются типичные фразы чат-ботов. Однако, некоторые ошибки, особенно в сложных темах, трудно обнаружить. Редакторы "Википедии" уже понизили рейтинг некоторых новостных сайтов, использующих ИИ для создания контента. 404media.co ✔️ Google выпустила генератор изображений Imagen 3 для всех пользователей Gemini, но только подписчики Advanced могут генерировать изображения людей. Imagen 3 считается самой качественной моделью Google для генерации изображений, способной лучше понимать инструкции и создавать изображения с меньшим количеством визуальных артефактов. Однако есть одно ограничение: для создания изображений людей требуется подписка Gemini Advanced, которая стоит 19,99 долларов в месяц и входит в план Google One AI Premium, включающий 2 ТБ хранилища и доступ к Gemini в Google Docs. В отличие от других генераторов, Imagen 3 создает одно изображение на каждый запрос, но позволяет уточнять изображение, запрашивая изменения. Скачать можно любое количество изображений в разрешении 2048 x 2048 в формате JPEG.. Google особо гордится возможностями Imagen 3 в области рендеринга текста, однако, по результатам тестирования, в этой области все еще есть над чем работать. techradar.com @ai_machinelearning_big_data #news #ai #ml

295 827

⚡️ Aria: открытая мультимодальная модель на основе MoE Rhymes AI опубликовала Aria — первую в мире открытую MMLM, основанную на Mixture-of-Experts. Aria способна обрабатывать текст, изображения, видео и код одновременно, не требуя отдельных настроек для каждого типа данных. Модель отличается высокой производительностью при обработке мультимодальных и языковых данных, включая изображения различных размеров и соотношений сторон. Aria использует 3,9 млрд. активных параметров из 25 млрд. общих и обладает длинным контекстным окном в 64 тыс. токенов, что позволяет ей эффективно обрабатывать большие объемы данных, например, создавать аннотации к видео из 256 кадров за 10 секунд. MoE-архитектура Aria состоит из 66 экспертов. Каждый эксперт структурно идентичен FFN в трансформере. Входной токен направляется только к подмножеству экспертов в каждом слое, это позволяет эффективно распределить вычислительные потребности модели. ARIA отличается от предыдущих мультимодальных моделей MoE тем, что она обучается с нуля с использованием универсальных экспертов, а не специализированных для каждой модальности. Обучение ARIA проходило на 6.4 трлн. языковых и 400 млрд. токенах в 4 этапа: 🟢На первых двух обучаются декодеры MoE и ViT на наборах текстовых данных и наборах смеси тект-инображение-видео; 🟢На третьем этапе модель проходит обучение на длинных мультимодальных последовательностях для расширения контекстного окна; 🟢На последнем этапе выполняется дообучение на наборе данных вопрос-ответ для улучшения способности VQA и выполнению инструкций. ARIA протестирована бенчмарках MMMU, MathVista, DocVQA, ChartQA, TextVQA, MMBench-1.1, EgoSchema, LongVideoBench, VideoMME, MMLU, MATH, ARC Challenge и HumanEval (задачи понимания кода). Результаты тестирования показывают, что ARIA превосходит открытые модели Pixtral-12B и Llama3.2-11B и демонстрирует конкурентоспособные результаты по сравнению с проприетарными моделями GPT-4o и Gemini-1.5. ⚠️ Так как Aria имеет 25.3 млрд. общих параметров, они могут быть загружены в один A100 (80GB) с точностью bfloat16. ▶️ Разработчики в репозитории на Github подготовили инструкции инференса в Transformers, альтернативный вариант в среде vLLM, ноутбуки различных режимов (с одним и несколькими изображениями, многостраничным PDF и видео) в разных средах, туториалы по подготовке кастомного датасета для обучения, файнтюну с LoRA и Full parameter. 📌Лицензирование : Apache 2.0 License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #MMLM #MoE #Aria #RhymesAI

295 827

🖥 Федеративное обучение: новый метод тренировки ML-моделей 💡 Современная индустрия машинного обучения сталкивается с рядом вызовов, связанных с конфиденциальностью данных, особенно в таких сферах, как здравоохранение и финансы. Эти данные могут содержать чувствительную информацию, поэтому стандартные подходы, предполагающие централизацию и передачу информации на сервер, не всегда применимы. Центр технологий для общества Yandex Cloud совместно с Сеченовским Университетом и ИСП РАН предложили метод, который позволяет разрабатывать мощные модели, не раскрывая исходные данные — федеративное обучение (Federated Learning, FL). ❓ Что такое федеративное обучение? Федеративное обучение — это подход к обучению нейронных сетей, при котором данные остаются локально у каждого участника процесса, будь то больницы, финансовые организации или промышленные предприятия. Вместо передачи исходных данных на централизованный сервер для обработки, обучающие узлы обмениваются только обновленными параметрами модели. 🌟 Технологически, это означает, что модель передвигается по распределенной сети, а данные никогда не покидают защищенные контуры. Например, при обучении диагностической модели на основе данных ЭКГ пациенты могут не беспокоиться о безопасности своей личной информации, так как никаких реальных медицинских данных не передается на внешний сервер. 🔍 Архитектура и принципы федеративного обучения: 🌟 Федеративное обучение использует клиент-серверную архитектуру. Центральный сервер инициирует начальную модель и отправляет её копии на все узлы, участвующие в обучении. Каждый узел обучает модель локально, используя свои данные, а затем отправляет обратно обновленные параметры на центральный сервер, который агрегирует результаты и формирует новую глобальную модель. Эта модель повторно распространяется по узлам, и процесс повторяется до тех пор, пока не будет достигнута требуемая точность. 🔥 Реализация в медицинских проектах 💡 В рамках совместного проекта между Яндексом, Сеченовским Университетом и Институтом системного программирования РАН федеративное обучение было впервые применено в российской медицине на практике. В проекте использовался набор данных, содержащий более 47 тысяч двенадцатиканальных ЭКГ: 30 тысяч от ИСП РАН и 17 тысяч от Сеченовского Университета. Целью эксперимента было создание модели для диагностики фибрилляции предсердий — патологии, которую важно выявлять на ранних этапах. 🌟 Проблема заключалась в том, что передача медицинских данных между организациями часто блокируется из-за юридических и этических ограничений. Федеративный подход позволил обойти этот барьер: каждая организация обучала локальную модель на своих данных, а затем передавала серверу только изменения весов. Эти изменения использовались для создания объединенной модели с высокой точностью и чувствительностью. @ai_machinelearning_big_data

295 827

🌟 CogVideoX Factory: оптимизация файнтюна моделей генерации видео семейства CogVideoX. CogVideoX Factory - репозиторий с набором скриптов для эффективного файнтюна моделей семейства CogVideoX (CogVideoX-2B и CogVideoX-5B) с фокусом на оптимизацию VRAM. CogVideoX Factory позволяет выполнять обучение на GPU с 24 GB. Проект предоставляет гибкость в выборе между LoRA и файнтюном всей модели для задач "text-to-video" и "IMG-to-video". Чтобы сделать возможным файнтюн на ограниченных ресурсах, CogVideoX использует методы оптимизации: 🟢CPUOffloadOptimizer - перемещает обучаемые параметры и градиенты модели в CPU, освобождая память GPU для других операций; 🟢DeepSpeed Zero2 - распределяет параметры модели по нескольким GPU, что позволяет обучать большие модели, которые иначе не поместились бы в память одного GPU; 🟢LoRA - метод тонкой настройки, который изменяет только небольшое подмножество параметров модели, сохраняя при этом основную часть весов неизменной. CogVideoX Factory предлагает сценарии обучения: 🟠LoRA для "text-to-video": cкрипт train_text_to_video_lora.sh; 🟠LoRA для "IMG-to-video": cкрипт train_image_to_video_lora.sh; 🟠SFT всей модели для "text-to-video": скрипт train_text_to_video_sft.sh. ⚠️ Предварительная подготовка данных - один из важнейших условий CogVideoX Factory. Скрипт prepare_dataset.py играет ключевую роль в этом процессе, преобразуя видео и аннотации в латенты и эмбединги. Использование предварительно вычисленных латентов и эмбедингов позволяет не загружать VAE и T5 во время обучения. CogVideoX Factory предлагает подробную документацию, в которой объясняются шаги по подготовке датасетов, настройке параметров обучения, запуску инференса, информацию о требованиях к памяти для каждой модели и конфигурации, помогая принять корректные решения о выборе стратегии обучения. 📌Лицензирование : Apache 2.0 License. 🖥Github @ai_machinelearning_big_data #AI #ML #LoRA #T2V #IMG2V #Finetune

295 827

🌟 Гайдбук по оценке больших языковых моделей от Hugging Face Hugging Face выложила на Github руководство по оценке LLM. В нем собраны различные способы оценки модели, руководства по разработке собственных оценок, а также советы и рекомендации из практического опыта. В руководстве рассказывается о разных способах оценки: с помощью автоматических тестов, людей или других моделей. Особое внимание уделяется тому, как избежать проблем с инференсом модели и сделать результаты одинаковыми. В руководстве есть советы о том, как сделать данные чистыми, как использовать шаблоны для общения с LLM и как анализировать неожиданные плохие результаты. Если вы ничего не знаете об оценке и бенчмарках, вам следует начать с разделов Basics в каждой главе, прежде чем погружаться глубже. В разделе базовые знания вы также найдете пояснения, которые помогут вам разобраться в важных темах LLM: например, как работает инференс модели и что такое токенизация. Более прикладными разделы: советы и рекомендации, устранение неполадок и разделы, посвященные дизайну. ▶️Оглавление: 🟢Автоматические бенчмарки 🟢Оценка человеком 🟢LLM-судья 🟢Устранение неполадок 🟢Базовые знания 📌 Планы на будущие гайды: 🟠Описание автоматических метрик; 🟠Какие основные моменты вы всегда должны учитывать при построении задачи; 🟠Зачем нужна оценка LLM; 🟠Почему сравнивать модели между собой - это сложно. 🖥Github @ai_machinelearning_big_data #AI #ML #LLM #Huggingface #Guide

295 827

Полезная информация для всех, кто интересуется машинным обучением: выложили доклады с конференции Practical ML Conference 2024. Рекомендуем посмотреть доклад Саввы Степурина, старшего специалиста по машинному обучению в Яндекс Музыке. Он рассказал, как рекомендовать незнакомый контент пользователям. Крупные компании сталкиваются с этой проблемой, и Савва объяснил, как можно перейти от простых фильтров к отдельным моделям отбора кандидатов и ранжирования. Приятный бонус после доклада — ценные рекомендации "Как улучшить вашу рекомендательную систему". Например, Савва отметил, что пользователи ценят серендипность, поэтому важно увеличивать вес незнакомого контента. Были еще интересные доклады про бенчмаркинг, синтетические данные, оптимизацию RAG-систем, VLM и, конечно же, рекомендательные системы. Обязательно найдите время, чтобы их изучить!

295 827

✔️ "Электронный язык" с ИИ распознает вкусовые характеристики. Ученые из Penn State разработали электронный язык, способный различать жидкости - молоко с разным содержанием воды, различные виды соды и кофе, а также определять свежесть соков и потенциальные проблемы с безопасностью пищевых продуктов. Язык использует графеновый ионно-чувствительный транзистор, подключенный к нейронной сети. ИИ сначала оценивал жидкости по 20 заданным параметрам, достигнув точности более 80%. Однако, когда ИИ самостоятельно определял параметры оценки, точность возросла до 95%. Исследователи использовали метод Shapley Additive Explanations, чтобы понять, как ИИ принимает решения, и обнаружили, что он учитывает более тонкие характеристики данных. По словам исследователей, возможности языка ограничены только данными, на которых он был обучен. psu.edu ✔️ Google представляет Tx-LLM: Модель ИИ для ускорения разработки лекарств. Google представила новую большую языковую модель Tx-LLM, разработанную для прогнозирования свойств биологических объектов на всех этапах разработки лекарств. Tx-LLM обучена на 66 наборах данных, охватывающих задачи от ранней идентификации целевых генов до утверждения клинических испытаний на поздних стадиях. Модель Tx-LLM, построенная на базе PaLM-2, достигла конкурентоспособных результатов по сравнению с современными моделями, превзойдя их в 22 из 66 задач. Tx-LLM продемонстрировала способность эффективно объединять молекулярную информацию с текстовой и переносить знания между задачами с различными типами терапии. Google планирует предоставить доступ к Tx-LLM внешним исследователям для ускорения процесса разработки лекарств. research.google ✔️ Tesla готовится к презентации роботакси. Tesla проводит мероприятие под названием «Мы, роботы», 10 октября в 19.00 EPT (2:00 11 октября GMT) на котором, как ожидается, будет представлен дизайн роботакси - автомобиля Tesla, предназначенного исключительно для перевозки пассажиров без водителя. На мероприятии также может быть представлен гуманоидный робот Optimus. npr.org ✔️ Liftoff запускает Cortex, модель машинного обучения для улучшения мобильной рекламы. Liftoff, занимающаяся консалтингом мобильных приложений, запустила новую платформу машинного обучения под названием Cortex. Эта платформа использует специализированные модели нейронных сетей для повышения эффективности мобильных рекламных кампаний. Cortex позволяет достичь более высокой рентабельности инвестиций в рекламу, определяя наилучшие каналы и аудитории для рекламных кампаний. По данным Liftoff, Cortex уже показал положительные результаты: снижение стоимости установки (CPI) на 23%, стоимости привлечения клиента (CPA) на 21% и увеличение рентабельности рекламных расходов (ROAS) на 16%. venturebeat.com ✔️ Выпущен релиз Gradio 5. Gradio выпустила стабильную версию Gradio 5, он получил ряд улучшений, направленных на решение проблем, с которыми сталкивались разработчики ранее. Среди ключевых обновлений: улучшенная производительность за счет рендеринга на стороне сервера (SSR), обновленный дизайн основных компонентов и новые темы, поддержка потоковой передачи с низкой задержкой, включая WebRTC, экспериментальная AI-площадка для генерации и модификации приложений с помощью ИИ. В ближайшее время планируется добавить поддержку многостраничных приложений, мобильных устройств и новые компоненты для работы с изображениями и видео. huggingface.co ✔️ NVIDIA поставила долгожданные чипы Blackwell AI в OpenAI и Microsoft. OpenAI объявила, что получила первые инженерные образцы DGX B200 от Nvidia. Они обещают трехкратное увеличение скорости обучения и 15-кратное увеличение производительности инференса по сравнению с предыдущими моделями. Microsoft также сообщила, что ее платформа Azure первой использует систему Blackwell от Nvidia с AI-серверами на базе GB200. analyticsindiamag.com @ai_machinelearning_big_data #news #ai #ml

295 827

🌟 Numpy QuadDType: Четырехкратная точность в Python. NumPy-QuadDType (numpy_quaddtype) — это реализация пользовательского типа данных (dtype) для NumPy, которая обеспечивает настоящую арифметику с плавающей точкой четверной точности на разных платформах. Проект направлен на решение давних проблем с np.longdouble, предлагая согласованный, высокоточный тип с плавающей точкой независимо от базовой архитектуры системы, а также обеспечивая обратную совместимость long double. Ядро numpy_quaddtype построено вокруг на двух ключевых компонентов: 🟢скалярный тип QuadPrecision, представляющий отдельные скаляры четверной точности; 🟢тип данных NumPy QuadPrecDType, позволяющий использовать эти скаляры четверной точности в массивах и операциях NumPy. Отличительная черта numpy_quaddtype - его подход с двойным бэкэндом: 🟠SLEEF (библиотека SIMD для оценки элементарных функций): этот бэкэнд использует тип Sleef_quad из библиотеки SLEEF, предоставляя настоящую 128-битную учетверенную точность. 🟠Long Double: этот бэкэнд использует собственный тип long double, который может обеспечивать точность до 80 бит в некоторых системах, обеспечивая совместимость с np.longdouble. Гибкость архитектуры numpy_quaddtype наследуется от компонентов ее ядра: QuadPrecisionObject, хамелеоноподобная структура, которая может переключаться между формами:

typedef union {  
Sleef_quad sleef_value;  
long double longdouble_value;  
} quad_value;  

typedef struct {  
PyObject_HEAD  
quad_value value;  
QuadBackendType backend;  
} QuadPrecisionObject;

QuadPrecDTypeObject, который действует как мост, позволяя высокоточным числам гармонично работать в массивах и операциях NumPy:

typedef struct {  
PyArray_Descr base;  
QuadBackendType backend;  
} QuadPrecDTypeObject;

Он позволяет переключаться между бекэндами Sleef_quad (для SLEEF) и long double во время выполнения:

>>> import numpy as np  
>>> import numpy_quaddtype as npq  

# Using SLEEF backend (default)  
>>> x = npq.QuadPrecision(3.5)  
>>> x = npq.QuadPrecision(3.5, backend='sleef')  
>>> repr(x)  
QuadPrecision('3.5e+000', backend='sleef')  

# Using longdouble backend  
>>> y = npq.QuadPrecision(2.5, backend='longdouble')  
>>> repr(y)  
QuadPrecision('2.5e+000', backend='longdouble')  

# Creating a NumPy array with QuadPrecision dtype  
>>> z = np.array([x, x], dtype=npq.QuadPrecDType()) # SLEEF  
>>> print(z)  
[QuadPrecision('3.5e+000', backend='sleef')  
QuadPrecision('3.5e+000', backend='sleef')]  

>>> z = np.array([y, y], dtype=npq.QuadPrecDType("longdouble")) # longdouble  
>>> print(z)  
[QuadPrecision('2.5e+000', backend='longdouble')  
QuadPrecision('2.5e+000', backend='longdouble')]

В тестах numpy_quaddtype с бэкендом SLEEF показал точность в 34 десятичных знаков. ULP (единица в младшем разряде) для основных арифметических операций ≤ 0,5000000001, а для трансцендентных функций ≤ 1,0. C бэкендом Long Double показал точность, зависящую от платформы: 18-19 десятичных знаков в Linux и 15-17 в Windows. В настоящее время ведётся подготовка к выпуску numpy_quaddtype в виде пакета Python, доступного через PyPI и conda. Также планируется направить предложение NEP для интеграции numpy_quaddtype в экосистему NumPy и рассмотреть TLFloat как потенциальную замену SLEEF в будущих версиях. ▶️Читать полную статью с демо возможностей numpy_quaddtype на примере визуализации множества Мандельброта при экстремальном увеличении и моделирование квантового гармонического осциллятора для двухатомных молекул. @ai_machinelearning_big_data #AI #ML #DS #Python #NumPy

295 827

⁉️ Открытый урок «Методы сегментации в рекомендациях» 🗓 17 октября в 20:00 МСК 🆓 Бесплатно. Урок в рамках старта курса «Рекомендательные системы» от Otus. На вебинаре разберем: ✔️ как использовать RFM-анализ, методы кластеризации и look-a-like моделирование; ✔️ как применять аналитические и машинные методы для сегментации клиентов; ✔️ примеры практического применения этих методов в реальных задачах. 🔗 Ссылка для регистрации на урок: https://otus.pw/tLP9/ #реклама О рекламодателе

295 827

🌟 OpenMathInstruct-2: математический датасет и набор моделей от NVIDIA. OpenMathInstruct-2 состоит из 14 млн. пар "вопрос-решение" (примерно 600 тысяч уникальных вопросов) и является одним из крупнейших общедоступных наборов данных для обучения LLM в математике. Набор данных создан на основе Llama-3.1-405B-Instruct путем синтеза решений для существующих вопросов из наборов данных MATH и GSM8K и генерации новых задач и решений. Результаты абляционных экспериментов, которые проводились для поиска оптимальных параметров синтеза, показали, что: 🟢формат решения имеет значение, причем чрезмерно подробные решения негативно сказываются на производительности модели; 🟢данные, сгенерированные сильной моделью-учителем, превосходят по качеству данные, полученные от более слабой модели; 🟢процесс обучения устойчив к наличию до 20% решений низкого качества; 🟢разнообразие вопросов имеет решающее значение для масштабирования данных. Итоговые данные, включенные в датасет прошли тщательную деконтаминацию с использованием конвейера lm-sys и ручной проверки на поиск дубликатов с тестовыми наборами данных. OpenMathInstruct-2 показал высокую эффективность при обучении LLM. Модель Llama3.1-8B-Base, обученная на OpenMathInstruct-2, превзошла Llama3.1-8B-Instruct на 15,9% по точности на наборе данных MATH, а OpenMath2-Llama3.1-70B обошла Llama3.1-70B-Instruct на 3,9%. Датасет выпущен в 3-х размерностях: полный набор (примерно 7.5 GB) и уменьшенные версии train_1M (640 Mb), train_2M (1.3 Gb) и train_5M (3.1 Gb). ▶️ Модели, дообученные на этом датасете: 🟠OpenMath2-Llama3.1-70B, в формате Nemo, квантованные версии GGUF (от 3-bit до 8-bit); 🟠OpenMath2-Llama3.1-8B, в формате Nemo, квантованные версии GGUF (от 2-bit до 8-bit). 📌Лицензирование датасета : CC-BY-4.0 License. 📌Лицензирование моделей: Llama 3.1 Community License. 🟡Набор моделей 🟡Arxiv 🟡Датасет @ai_machinelearning_big_data #AI #ML #LLM #MATH #NVIDIA #Dataset