Machinelearning

Ir al canal en Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Red:Machinelearning Rusia1 276 Tecnologías y Aplicaciones332...

📈 Análisis del canal de Telegram Machinelearning

El canal Machinelearning (@ai_machinelearning_big_data) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 295 915 suscriptores, ocupando la posición 332 en la categoría Tecnologías y Aplicaciones y el puesto 1 276 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 295 915 suscriptores.

Según los últimos datos del 22 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -6 276, y en las últimas 24 horas de -223, conservando un alto alcance.

Estado de verificación: No verificado
Tasa de interacción (ER): El promedio de interacción de la audiencia es 8.09%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 5.69% de reacciones respecto al total de suscriptores.
Alcance de las publicaciones: Cada publicación recibe en promedio 23 927 visualizaciones. En el primer día suele acumular 16 831 visualizaciones.
Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 193.
Intereses temáticos: El contenido se centra en temas clave como openai, claude, api, gemini, контекст.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 23 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

295 915

Suscriptores

-22324 horas

-1 4447 días

-6 27630 días

23 927

Visitas de la publicación

~ 16 83124 horas

~ 18 91548 horas

8.09%

Tasa de compromiso

~ 5

Mensajes por día

Ads index

beta

Archivo de publicaciones

295 872

✔️ Планы Microsoft в области ИИ: доклад Сатьи Наделлы на саммите по ИИ в Лондоне. Стратегия Microsoft в области ИИ включает Copilot, пользовательский интерфейс, который поддерживает новые рабочие процессы и совместную работу, и Copilot Studio, который позволяет создавать ИИ-агентов с помощью инструментов low-code/no-code. Конфиденциальность данных и безопасность ИИ занимают центральное место в видении Microsoft, направленном на создание надежного ИИ, при этом компания разрабатывает возможности для обеспечения доверия к ИИ и развития безопасной экосистемы. geeky-gadgets.com ✔️ Gemini: голосовой помощник от Google сможет звонить и отправлять сообщения с заблокированного телефона. Новая функция расширит возможности Gemini Live, который уже сейчас может отвечать на вопросы с заблокированного телефона. Для активации функции пользователю нужно будет включить соответствующую настройку в меню Gemini на Android. Просмотр ответов с личной информацией будет доступен только после разблокировки устройства.. techradar.com ✔️ Китайский стартап в области ИИ утверждает, что превзошел GPT-4o. 01AI, основанный специалистом по информатике Кай-Фу Ли, запустил новую модель Yi-Lightning, которая, как утверждается, превосходит GPT-4o-2024-05-13 от OpenAI и Claude 3.5 Sonnet от Anthropic в рейтинге LMSYS. Несмотря на успех Yi-Lightning, 01AI переориентируется на корпоративные решения для китайских компаний из-за трудностей с монетизацией потребительских продуктов. 01AI по-прежнему будет поддерживать свои глобальные приложения - PopAI, Monoland и приложение для поиска на основе ИИ BeaGo. Китайские технологические компании получают поддержку от правительства в продолжающейся битве за лидерство в области ИИ с США. Китайское правительство сделало ИИ национальным приоритетом, стремясь стать мировым лидером в этой области к 2030 году. analyticsindiamag.com ✔️ Asana анонсирует AI Studio: no-code конструктор для разработки и развертывания ИИ-агентов рабочих процессов. В отличие от других инструментов ИИ, которые просто синтезируют информацию и генерируют контент, ИИ-агенты Asana работают как участник команды. Они берут на себя рутинную работу, координируют проекты и организуют работу по критическим рабочим процессам - от приема до планирования, выполнения и отчетности. Рабочие процессs на основе ИИ основаны на Asana Work Graph, который фиксирует критический контекст и исторические связи между всей работой внутри организации - кто, какую работу выполняет, к какому сроку, как и почему. Ранний доступ был запущен 22 октября для уровней Enterprise и Enterprise+, а вскоре появятся годовые подписки для Advanced. aithority.com ✔️ Keras Hub: универсальная библиотека для предобученных моделей. Keras Hub – это новая унифицированная библиотека для предобученных моделей, которая объединяет архитектуры NLP и CV, предоставляя разработчикам доступ к набору моделей в рамках единой платформы Keras. Keras Hub упрощает поиск, использование и публикацию моделей, а также поддерживает функции LoRA, квантования и многоузловое обучение для работы с большими наборами данных. Для начала работы с Keras Hub достаточно установить библиотеку с помощью команды pip install --upgrade keras-hub. Keras Hub предоставляет доступ к моделям: Gemma, PaliGemma и Stable Diffusion 3. Также доступны новые функции для разработчиков KerasCV: встроенная предварительная обработка и функции потерь, доступные через keras.losses.<loss_function>. developers.googleblog.com @ai_machinelearning_big_data #news #ai #ml

295 872

🌟 Open-Sora-Plan v1.3.0: воссоздание сервиса генерации text-to-video Sora средствами opensource. Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний. ▶️ Ключевые особенности версии 1.3.0: 🟢Улучшенный вариационный автоэнкодер WF-VAE Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях. 🟢Skiparse (Skip-Sparse) Attention Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой. 🟢Новая стратегия очистки данных Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров. Стратегия позволила сократить датасет Panda70m до 27% от исходного. 🟢Динамическое разрешение и длительность. Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения. ⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM. ▶️ Подробные инструкции по установке, обучению и инференсу в режимах CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта. 📌Лицензирование: MIT License. 🟡Модель 🟡Сообщество в Discord 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI #ML #OpenSora #Text2Video #Image2Video

295 872

📌Исчерпывающий гайд по методам тонкой настройки больших языковых моделей. Подробное руководство от Ирландского центра искусственного интеллекта CeADAR по практическому применению и оптимизации процесса тонкой настройки LLM. В руководстве представлен анализ подходов обучения: контролируемые, неконтролируемые и инструктивные подходы. Гайд подробно рассматривает подготовку наборов данных, выбор подходящей модели, настройку параметров и оценку производительности. Это руководство подходит как для начинающих, так и для опытных специалистов, которые хотят эффективно настраивать и использовать LLM для решения различных задач в области обработки естественного языка. Несмотря на техническую сложность темы, авторы сделали материал доступным для широкой аудитории, используя понятный язык и наглядные примеры. ▶️Содержание: 🟢Введение 🟢Семиэтапный конвейер тонкой настройки LLM 🟢Этап 1: Подготовка данных 🟢Этап 2: Инициализация модели 🟢Этап 3: Настройка обучения 🟢Этап 4: Выбор методов тонкой настройки и соответствующих конфигураций модели 🟢Этап 5: Оценка и валидация 🟢Этап 6: Развертывание 🟢Этап 6: Мониторинг и обслуживание 🟢Платформы и фреймворки для тонкой настройки LLM 🟢Мультимодальные LLM и их тонкая настройка 🟢Частые проблемы, этика и ответственность 🟡Arxiv @ai_machinelearning_big_data #AI #ML #LLM #Guide #Finetune

295 872

✔️ Anthropic выпускает обновленные модели Claude 3.5 Sonnet и Claude 3.5 Haiku и представляет функцию "использование компьютера". Обновленная Claude 3.5 Sonnet улучшена по сравнению с предыдущей версией, особенно в области программирования. Модель превосходит все публично доступные LLM по показателям SWE-bench Verified, с значением в 49.0%. Claude 3.5 Sonnet показала улучшения в агентных задачах на TAU-bench, достигнув 69.2% в задачах розничной торговле и 46.0% в области авиаперевозок. Обновление уже доступно для всех пользователей через Anthropic API, Amazon Bedrock и Vertex AI от Google Cloud. Claude 3.5 Haiku по производительности на многих тестах соответствует Claude 3 Opus, при той же стоимости и аналогичной скорости, что и у предыдущего поколения Haiku. Claude 3.5 Haiku будет выпущена позже в этом месяце. Claude 3.5 Sonnet - первая модель ИИ, предлагающая использование компьютера в публичной бета-версии. Эта функция позволяет разработчикам давать Claude инструкции по использованию компьютеров так же, как это делают люди: смотреть на экран, перемещать курсор, нажимать кнопки и вводить текст. anthropic.com ✔️ Wall Street Journal и New York Post подали в суд на Perplexity. News Corp. подал в суд на Perplexity, обвиняя в копировании защищенного авторским правом новостного контента. Издатели утверждают, что Perplexity использует их контент для генерации ответов на запросы пользователей, перехватывая трафик, который в противном случае шел бы на сайты издателей. Издатели требуют от суда обязать Perplexity прекратить использование и копирование их контента без разрешения, уничтожить любые базы данных, содержащие их материалы, и присудить им компенсацию в размере до 150 000 долларов за каждый случай нарушения авторских прав. wsj.com ✔️ Bambu Lab запускает новый генератор 3D-моделей на основе ИИ. Bambu Lab, производитель 3D-принтеров, выпустила PrintMon Maker, новый генератор 3D-моделей на базе ИИ. Инструмент доступен через MakerWorld и позволяет пользователям создавать 3D-печатные модели, используя текстовые или графические промпты. Платформа генеративного ИИ создает модели, оптимизированные для многоцветной 3D-печати. Созданные проекты можно импортировать непосредственно в ПО для 3D-печати и изготавливать на 3D-принтерах Bambu Lab без дополнительных настроек. 3dprintingindustry.com ✔️ Mitsubishi Electric представила промышленный робот RV-12CRL с увеличенным радиусом действия. Вертикально-шарнирный робот RV-12CRL имеет радиус действия 1504 мм и грузоподъемность 12 кг, что делает его идеальным для обслуживания станков, упаковки и задач "pick-and-place". Встроенные функции обеспечивают повышенную безопасность, упрощенное внедрение и общее сокращение времени простоя. RV-12CRL оснащен внутренними кабелями и воздушными шлангами для инструментов на конце манипулятора и 30-контактную сигнальную кабельную систему. Использование серводвигателей MELSERVO-J5 с бесконтактными энкодерами исключает необходимость в батареях, что снижает затраты на эксплуатацию. roboticstomorrow.com ✔️ Google DeepMind и MIT создали модель для генерации изображений "Fluid", превосходящую диффузионные модели. Fluid — авторегрессионная модель text-to-image c возможностью масштабирования до 10.5 млрд. параметров. Опубликованное исследование показывает, что этот класс моделей может иметь потенциал масштабирования, аналогичный большим языковым моделям. Ключевыми факторами Fluid являются использование непрерывных, а не дискретных токенов, и случайный, а не фиксированный порядок генерации, улучшающий понимание глобальной структуры изображения. Fluid превосходит как диффузионные модели (Stable Diffusion 3), так и предыдущие авторегрессионные модели (Parti от Google). Базовая Fluid с 369 млн. параметров достигает того же показателя FID, что и Parti с 20 млрд параметров. Веса и код Fluid пока не анонсированы. arxiv.org @ai_machinelearning_big_data #news #ai #ml

295 872

🌟 MMSearch: бенчмарк мультимодальных моделей по способности поиска. MMSearch — это тест мультимодального поиска, созданный для оценки возможностей LMMs как систем для поиска информации. Этот тест включает тщательно отобранный датасет из 300 запросов из 14 различных областей. Чтобы обеспечить сложность бенчмарка, запросы классифицируются по двум основным категориям: новости и знания. Область новостей состоит из недавних событий на момент сбора данных (август 2024 года), это гарантирует, что ответы на запросы не будут содержаться в обучающих данных для LMM. В области знаний собраны запросы, требующие редких знаний - те, на которые не могут ответить современные LMM, такие как GPT-4o и Claude-3.5. Оценка выполняется по 4 задачам, итог выполнения сравнивается с результатом аннотаторов, в роли которых выступали люди : 🟢запрос (requery): интерпретация запроса о содержимом или об объекте на изображении; 🟢ранжирование (rerank): выбор наиболее релевантного ответа запросу; 🟢обобщение (summarization): анализ результатов задач requery и rerank и формирование ответа на запрос; 🟢сквозной запрос (End-to-End): тест полного цикла, который включает в себя все три задачи сразу (requery+rerank+summarization). ▶️ Локальное выполнение бенчмарка возможно 3 способами: 🟠в VLMEvalKit. Пакет поддерживает более 150 VLM и MMLM моделей; 🟠путем запуска скриптов оценки MMSearch; 🟠в lmms-eval. Пока поддерживается только одна модель для теста MMSearch - LLaVA-OneVision, расширение возможностей - в процессе, настройка среды - тут. ⚠️ Среднее время выполнения самого сложного теста (End-to-End) на одном GPU A100 - 3-5 часов. Лидерборд MMSearch 16 моделей, включая результат выполнения тестов человеком можно посмотреть на странице проекта. 🟡Страница проекта 🟡Arxiv 🟡Датасет 🖥GitHub @ai_machinelearning_big_data #AI #ML #MMLM #Benchmark

295 872

Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней. Ближайшее мероприятие: • 9-11 ноября — для продуктовых и аналитиков данных, офер за 3 дня в команды Финтеха и Яндекс Практикума. Зарегистрироваться

295 872

⚡️ Stable Diffusion 3.5 Large. Stability AI опубликовала Stable Diffusion 3.5 Large - модель text-to-image с 8 млрд. параметров. В основе SD 3.5 Large - архитектура Multimodal Diffusion Transformer (MMDiT). Модель использует три предобученных текстовых энкодера: 🟢OpenCLIP-ViT/G; 🟢CLIP-ViT/L; 🟢T5-xxl. OpenCLIP-ViT/G и CLIP-ViT/L имеют контекстную длину 77 токенов, а T5-xxl - 77/256 токенов. Модель доступна по API в сервисах - Stability AI, Replicate и Deepinfra. Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или Diffusers. ⚠️ Инференс квантованной NF4-версии на ограниченных VRAM ⚠️ Подробные инструкции по файнтюну и тренировке LoRA для Stable Diffusion 3.5 Large. ▶️Локальный запуск инференса на Diffusers:

# install Diffusers
pip install -U diffusers


# Inference
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
    "A happy woman laying on a grass",
    num_inference_steps=28,
    guidance_scale=3.5,
).images[0]
image.save("woman.png")

📌 Лицензирование: 🟢Модель доступна под лицензией Stability Community License, которая разрешает бесплатное использование для исследовательских, некоммерческих и коммерческих целей организациями или частными лицами с годовым доходом менее 1 млн. долл. США. 🟠Для получения коммерческой лицензии для организаций с годовым доходом более 1 млн. долл. США необходимо связаться со Stability AI. 🟡Страница проекта 🟡Arxiv 🟡Модель @ai_machinelearning_big_data #AI #ML #Diffusion #SDL #StabilityAI

295 872

🌟 LayerSkip: метод ускорения инференса в LLM. LayerSkip - это способ ускорить LLM, уменьшая количество вычислений, необходимых для обработки каждого слова (токена) текста. Основная идея LayerSkip - научить модель "угадывать" результат раньше, не проходя все слои. Для этого во время обучения модели некоторые слои "исключаются" (layer dropout) случайным образом. Помимо исключения слоев, LayerSkip использует специальную функцию потерь, которая помогает модели "понимать" результаты вычислений на более ранних слоях. В отличие от других методов, LayerSkip использует одну и ту же LM head для всех слоев модели. Это упрощает обучение и уменьшает потребление памяти при инференсе. Во время инференса LayerSkip обрабатывает текст только первыми "E" слоями, а затем сразу переходит к LM head, чтобы получить результат. Это называется "ранний выход" (early exit). Чтобы повысить точность при раннем выходе, LayerSkip использует метод "самоспекулятивного декодирования". Модель сначала "угадывает" несколько следующих токенов, используя ранний выход. Затем она проверяет эти токены, используя оставшиеся слои, и исправляет ошибки. LayerSkip был протестирован на различных наборах данных: Llama, CodeLlama и TOPv2. Результаты показали, что LayerSkip может ускорить работу LLM до 2 раз без значительного снижения точности. Чтобы попробовать LayerSkip локально, разработчики предлагают использовать любую из 6 предобученных моделей: 🟢Llama2 - 7B и 13B; 🟢Codellama-7B или 34В; 🟢Llama3-8B: 🟢Llama3.2-1B. ⚠️ Для локального запуска будет нужен Huggingface API KEY. ▶️Локальный запуск:

# Clone repo
git clone git@github.com:facebookresearch/LayerSkip.git
cd LayerSkip

# Create env
conda create --name layer_skip python=3.10
conda activate layer_skip

# Install requirements
$ pip install -r requirements.txt

#Inference with self speculative 
$ torchrun generate.py --model facebook/layerskip-llama2-7B \
    --sample True \
    --max_steps 512 \
    --generation_strategy self_speculative \
    --exit_layer 8 \
    --num_speculations 6

▶️Ключи запуска: --model: имя модели на HuggingFace; --sample: включение/выключение семплирования (по умолчанию: True); --max_steps: максимальное количество генерируемых токенов; --generation_strategy: стратегия генерации (по умолчанию: 'greedy', для LayerSkip: 'self_speculative'); --exit_layer: номер слоя для раннего выхода; --num_speculations: количество спекулятивных токенов; 🟡Коллекция моделей на HF 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #MetaAI #LayerSkip

295 872

🌟 LongAlign: Улучшение согласованности text-2-image генерации в длинных промптах на диффузионных моделях. LongAlign - метод тонкой настройки диффузионных text-2-image моделей, который улучшает понимание длинных промптов. Вместо того, чтобы подавать весь длинный текст в CLIP, LongAlign разбивает его на сегменты (например, предложения) и кодирует каждый сегмент по отдельности. Это позволяет использовать CLIP, несмотря на его ограничения. После кодирования отдельных сегментов LongAlign объединяет полученные эмбединги в единый вектор. Для этого используется конкатенация с удалением повторяющихся специальных токенов ( <sot>, <eot>, <pad>) и добавлением нового токена <pad*>. Чтобы достичь точности согласования, в LongAlign используется 3 техники: 🟢классификация предпочтений на основе текстовой зависимости, оценивается не только следованию промпту, но и визуальные аспекты (фотореализм, эстетика); 🟢перевзвешивание градиентов, уменьшает влияние текстово-независимого компонента и улучшает согласованность между текстом и изображением; 🟢сегментной модели предпочтений, детально согласовывает отдельные части текста с изображением. По проведенным оценкам, LongAlign значительно превосходит базовые модели Stable Diffusion, PixArt-α и Kandinsky v2.2 по показателям FID и Denscore. Отдельно выполненная оценка в GPT-4o подтвердила преимущества LongAlign в согласовании text-2-image. ▶️ Подготовка к файнтюну с помощью LongAlign: 🟠Тестовый датасет на 2 млн. пар фомата "длинный промпт-изображение" 🟠Stable Diffusion v1.5 (загрузится автоматически) 🟠T5-адаптер (положить в ./model/LaVi-Bridge) 🟠Denscore (загрузится автоматически) 🟠longSD (положить в ./model/longSD) ▶️ Установка и запуск на примере трейна Stable Diffusion и LCM-версии Stable Diffusion

# Prepare environment
pip install -r requirements.txt

# Train original Stable Diffusion
# support long-text inputs
bash run_unet.sh align ct5f

# preference optimization for long-text alignment
bash run_unet.sh reward test

# Train LCM-version Stable Diffusion
# support LCM sampling
bash run_unet.sh lcm ct5f

# preference optimization for long-text alignment
bash run_unet.sh reward_lcm test

📌Лицензирование : Apache 2.0 License. 🟡Arxiv 🖥Github #AI #ML #Diffusion #Text2Image #LongAlign

295 872

🔴 Как защитить данные, где бы они ни находились? 29 октября в 11:00 Positive Technologies проведет вебинар, посвященный защите данных. Эксперты расскажут, с какими проблемами сегодня сталкиваются компании в этой сфере и рассмотрят возможные пути решения. На вебинаре спикеры: ➡️ представят PT Data Security — новый продукт, который защищает данные независимо от их типа и места хранения; ➡️ покажут демо основных сценариев его использования; ➡️ расскажут важное о продуктовой фиче — автоматической классификации данных; ➡️ подскажут, как повлиять на развитие продукта. Хотите первыми увидеть PT Data Security — новый продукт Positive Technologies для защиты данных? Тогда скорее регистрируйтесь.

295 872

✔️ Microsoft запустит автономных AI-агентов. Microsoft готовится к выпуску в ноябре автономных агентов ИИ, которые должны стать «софтом для мира, управляемого ИИ». Эти агенты будут отличаться от чат-ботов тем, что требуют минимального вмешательства человека. Компания позиционирует их как инструменты, способные автоматизировать рутинные задачи, например, отвечать на запросы клиентов, находить потенциальных покупателей и управлять запасами. Microsoft использует для своих агентов как собственные модели ИИ, так и модели OpenAI. Создавать собственных агентов можно будет в Copilot Studio. С началом доступа будут представлены 10 готовых к использованию агентов для решения различных бизнес-задач. reuters.com ✔️ PROM-микросхема повысит эффективность обучения моделей ИИ. Xilinx XCF04SVOG20C, микросхема PROM обеспечит эффективное решение для хранения конфигураций FPGA, позволяя им быстро загружать и выполнять различные конфигурации моделей во время обучения ИИ, тем самым повышая общую вычислительную производительность и эффективность. XCF04SVOG20C, емкостью 4 Мбит, может хранить данные конфигурации, необходимые для сложных моделей ИИ. Эта емкость даст возможность FPGA гибко обрабатывать потребности в обучении различных моделей ИИ. Сотрудничество между FPGA и PROM не ограничивается крупномасштабными задачами обучения в ЦОДах и может применяться к периферийным вычислениям ИИ. Небольшой размер и высокая температурная устойчивость XCF04SVOG20C (диапазон рабочих температур от -40°C до 85°C) делают его идеальным для использования в ограниченных пространствах и изменчивых средах. electropages.com ✔️ Midjourney на следующей неделе планирует добавить новые инструменты обработки изображений. Обновление добавит две новые функции: редактирование загруженного изображения и возможность изменения текстуры объектов на изображениях. Пользователи смогут изменять цвета и детали объектов на основе текстовых описаний, сохраняя при этом исходную форму. Компания проводит опрос своего сообщества в Discord, чтобы определить, кто должен получить ранний доступ. Для предотвращения злоупотреблений компания планирует увеличить количество модераторов-людей и внедрить модераторов на основе ИИ. gagadget.com ✔️ ComfyUI выпустит первую версию своего приложения. ComfyUI V1 анонсирован в закрытой бета-версии с новым пользовательским интерфейсом, реестром пользовательских нод (CNR) и автономной версией для настольных компьютеров для Windows, MacOS и Linux. Версия для настольных ПК включает в себя функции безопасности, автоматические обновления, облегченную установку и рекомендуемую среду Python. Она поставляется с менеджером ComfyUI, который позволяет устанавливать ноды из реестра ComfyUI. Среди других особенностей - вкладки для рабочих процессов, настраиваемые сочетания клавиш, автоматический импорт из существующих установок ComfyUI, просмотрщик журналов. ComfyUI анонсировала новый пользовательский интерфейс с верхней строкой меню, библиотекой моделей, браузером рабочих процессов и функцией автоматической загрузки моделей, которая позволяет использовать URL-адрес/идентификатор модели в рабочих процессах. blog.comfy.org @ai_machinelearning_big_data #news #ai #ml

295 872

🌟 ColPali: комбайн для построения многовекторных эмбедингов из документов с помощью VLM. ColPali - это набор моделей, фреймворк и коллекция преднастроенных методов тонкой настройки для обработки документов разной модальности с учетом текстового и визуального содержания. ColPali позиционирует себя как замену сложных и хрупких конвейеров OCR. ▶️ Модель ColPali - файнтюн PaliGemma-3B с улучшенной архитектурой и уникальной стратегии обучения, которая генерирует многовекторные преставления текста и изображений в ColBERT-стиле. ▶️ Фреймворк ColPali - набор кода для инференса и обучения моделей ColPali. Поддерживаются версии 1.1, 1.2 и модель Сolqwen2-v0.1 (ретривер на базе Qwen2-VL-2B-Instruct, построенный по аналогии с ColPali). ▶️ColPali Cookbooks - репозиторий с набором блокнотов для изучения, файнтюна и адаптации ColPali к RAG-системам в задачах: 🟢Создание собственных карт сходства для интерпретации выборки ColPali; 🟢Генерации карт сходства для интерпретации ColQwen2; 🟢Файнтюн ColPali с помощью LoRA и опционального квантования 4-bit/8-bit. Для локального запуска ColPali Cookbooks понадобится поддержка Jupyter Notebook в IDE или их можно попробовать в Google Collab. 📌Лицензирование кода : MIT License. 📌Лицензирование моделей: MIT License. 🟡Набор моделей 🟡Arxiv 🟡Demo 🖥GitHub ColPali 🖥Github ColPali Cookbooks @ai_machinelearning_big_data #AI #ML #VLM #Vidore #Colpali #Cookbooks

295 872

Что такое эксперименты в ML и чем они отличаются от «фичей» в обычной разработке? 🔹Расскажем на открытом уроке «MLFlow и переобучение ML-моделей» почему важно переобучать (retrain) свои модели, чтобы держать их «в тонусе». Разберем какую роль инструменты, такие как MLFlow, играют в процессах регулярного переобучения ✅ Практика: Изучим как выбирать лучшие варианты для отправки в Prod / Staging среду и всегда знать, что у вас «на проде» Урок приурочен курсу «MLOps» от Otus. 👉 Регистрация и подробности: https://otus.pw/N5yE/?erid=LjN8KD84d #реклама О рекламодателе

295 872

📎 ML: Медицинский дайджест за 14 - 20 октября 2024 г. ▶️Модели машинного обучения и бенчмарки 🔘OLAPH: Повышение достоверности ответов на медицинские вопросы. Метод, который фокусируется на повышении достоверности ответов в формате лонгрида, используя итеративный процесс обучения с SFT и DPO. 🔘LLMD: LLM для интерпретации медицинских карт пациентов. Модель, разработанная для анализа истории болезни пациента на основе его медицинских карт. 🔘LifeGPT: агностическая генеративная модель клеточных автоматов. Первая модель, способная предсказывать переходы состояний в двумерной системе Cellular Automata. 🔘MedCare: Раздельное согласование в обучении медицинских LLM. Модель для решения проблемы снижения производительности LLM при адаптации к специализированным медицинским задачам. 🔘Y-Mol: LLM для разработки лекарственных средств. Инструктивная модель, основанная на LLaMA2 для решения задач разработки лекарственных средств. 🔘WorldMedQA-V: многоязычный мультимодальный корпус данных для оценки медицинских моделей. Мультимодальный датасет на разных языках для оценки моделей разной модальности в задачах здравоохранения. ▶️Фреймворки и методологии 🔘MedINST: набор медицинских инструкций для обучения LLM. Многозадачный мета-набор данных медицинских инструкций из 133 задач. 🔘MCQG-SRefine: автоматическая генерация медицинских вопросов. Система для автоматической генерации высококачественных вопросов множественного выбора в стиле экзамена USMLE. 🔘AgentClinic: повышение диагностической точности LLM в симулированной медицинской среде. Система, которая дает возможность агенту-врачу, основанному на LLM, итеративно совершенствовать свои рассуждения и действия после постановки неверного диагноза. 🔘MeNTi: использование инструментов в LLM для решения медицинских задач. Архитектура агента для LLM, разработанная специально для решения задач, связанных с медицинскими расчетами. ▶️Медицинские LLM-приложения 🔘AGENTiGraph: Интерактивная чатбот-платформа под управлением LLM. Платформа, которая объединяет LLM с графами знаний для решения задач в специфических медицинских областях. 🔘MMed-RAG: Мультимодальная медицинская RAG-система. Система повышения фактической точности, разработанная для борьбы с галлюцинациями, возникающими в медицинских VLM. 🔘Medical Graph RAG: Безопасная медицинская LLM c поиском по графу знаний. Метод использования LLM в медицине, основанный на RAG, дополненной поиском по графу знаний. 🔘MedAide: Многоагентная система для комплексных медицинских задач. Платформа для решения сложных медицинских задач, основанная на LLM и мульти-агентной архитектуре, где каждый агент специализируется на определенном аспекте здравоохранения. 🔘Генерация синтетических клинических испытаний на LLMs. Методика использования LLM для создания синтетических клинических испытаний. ▶️Исследования и обзоры *️⃣UniStruct: новая архитектура для представления структурированных медицинских данных. Метод адаптации техник субсловной токенизации для представления групп медицинских кодов как единые токены. *️⃣Адаптация медицинских LLM для 50 языков: подход с использованием MoE по языковым семьям. Исследовании проблемы адаптации медицинских LLM к локальным языкам, чтобы улучшить доступ к медицинским услугам. *️⃣ Можно ли добиться успеха в обучении медицинской VLM на чисто синтетических данных? В статье изучается возможность использования исключительно синтетических данных для обучения моделей MedVLM. Спойлер - да, можно 🔜 Читать полный дайджест @ai_machinelearning_big_data

295 872

🌟 Zamba2-Instruct: две гибридные SLM на 2.7 и 1.2 млрд. параметров. Zamba2-Instruct - семейство инструктивных моделей на архитектуре Mamba2+Transformers для NLP-задач. В семействе 2 модели: 🟢Zamba2-1.2B-instruct; 🟠Zamba2-2.7B-instruct. Высокая производительность семейства по сравнению с релевантными Transformers-only моделями достигается за счет конкатенации эмбедингов модели с входными данными для блока внимания и использование LoRA projection matrices к общему MLP-слою. Модели файнтюнились (SFT+DPO) на instruct-ориентированных наборах данных (ultrachat_200k, Infinity-Instruct, ultrafeedback_binarized, orca_dpo_pairs и OpenHermesPreferences). Тесты Zamba2-Instruct продемонстрировали внушительную скорость генерации текста и эффективное использование памяти, обходя MT-bench более крупные по количеству параметров модели/ (Zamba2-Instruct-2.7B превзошла Mistral-7B-Instruct-v0.1, а Zamba2-Instruct-1.2B - Gemma2-2B-Instruct) ⚠️ Для запуска на СPU укажите use_mamba_kernels=False при загрузке модели с помощью AutoModelForCausalLM.from_pretrained. ▶️Локальная установка и инференс Zamba2-2.7B-Instruct:

# Clone repo
git clone https://github.com/Zyphra/transformers_zamba2.git
cd transformers_zamba2

# Install the repository & accelerate:
pip install -e .
pip install accelerate

# Inference:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B-instruct")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-2.7B-instruct", device_map="cuda", torch_dtype=torch.bfloat16)

user_turn_1 = "user_prompt1."
assistant_turn_1 = "assistant_prompt."
user_turn_2 = "user_prompt2."
sample = [{'role': 'user', 'content': user_turn_1}, {'role': 'assistant', 'content': assistant_turn_1}, {'role': 'user', 'content': user_turn_2}]
chat_sample = tokenizer.apply_chat_template(sample, tokenize=False)

input_ids = tokenizer(chat_sample, return_tensors='pt', add_special_tokens=False).to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=150, return_dict_in_generate=False, output_scores=False, use_cache=True, num_beams=1, do_sample=False)
print((tokenizer.decode(outputs[0])))

📌Лицензирование : Apache 2.0 License. 🟡Набор моделей на HF 🖥GitHub @ai_machinelearning_big_data #AI #ML #SLM #Zamba2 #Instruct

295 872

✔️ Google запускает NotebookLM Business для корпоративных задач. Google запускает платную версию NotebookLM, ориентированную на бизнес. Доступ к NotebookLM Business будет через пилотную программу раннего доступа. Участники пилотной программы NotebookLM Business получат более высокие лимиты использования и новые функции: кастомизация и совместное использование записных книжек. В NotebookLM Business также запланирована функция Audio Overview, которая позволяет пользователям создавать озвученное учебное пособие. Google объявит о всеобщей доступности и ценах на NotebookLM Business позднее в этом году. venturebeat.com ✔️ Anthropic выпустила обновление Claude: новые функции и приложение для iPad. Новые функции — возможность поиска по прошлым чатам и добавления контекста в проекты с помощью пользовательских инструкций. Например, можно попросить Claude AI создать список дел для детей, а затем указать, что у 7-летнего ребенка СДВГ, чтобы ИИ скорректировал ответ с учетом этой информации. Обновленный интерфейс мобильных приложений и дополнительная поддержка проектов упрощают переключение между устройствами, сохраняя при этом непрерывность рабочих процессов. Теперь и на нативном приложении для iPad. tomsguide.com ✔️ Google реструктуризирует команду руководителей продуктов и два подразделения разработки ИИ. Google назначил Прабакара Рагхавана, главу подразделения поиска и рекламы, на должность СTO. Ник Фокс, опытный руководитель Google, возглавит подразделение поиска и рекламы. Команды, работающие над Google Assistant и чат-ботом Gemini, будут переведены в другие бизнес-подразделения. Команды, сосредоточенные на "устройствах и домашнем опыте", перейдут в подразделение Platforms & Devices, отвечающее за разработку устройств для умного дома и смартфонов Pixel. Команда, ответственная за чат-бота Gemini, станет частью исследовательской лаборатории ИИ Google DeepMind под руководством Демиса Хассабиса, лауреата Нобелевской премии по химии за разработку системы прогнозирования структуры белка AlphaFold2. siliconangle.com ✔️ Microsoft разрабатывает ИИ-инструменты для анализа рабочих процессов. Microsoft подала заявки на два патента, описывающие ИИ-системы, способные анализировать деятельность пользователей и предлагать рекомендации по совместной работе. Первая система отслеживает документы, с которыми взаимодействует пользователь, а также вклад каждого автора, создавая ранжированный "рекорд авторства". Эти данные анализируются с помощью машинного обучения для формирования рекомендаций по совместным проектам. Вторая система использует нейронную сеть для обработки естественного языка, чтобы лучше понимать взаимосвязь между фразами в разных документах. Эта технология позволит ИИ выполнять анализ и отвечать на запросы, основываясь на более глубоком понимании контекста. thedailyupside.com ✔️ Samsung разрабатывает GDDR7 для центров обработки данных и ИИ. Samsung анонсировала разработку 24-гигабайтного чипа динамической памяти GDDR7 (DRAM) со скоростью 40 Гбит/с и выше. Новая память предназначена для использования в центрах обработки данных и приложениях искусственного интеллекта, и в ближайшее время не будет доступна для потребительских ПК. Samsung утверждает, что новый чип GDDR7 потребляет на 30% меньше энергии по сравнению с предыдущим поколением GDDR6. Это достигается за счет использования технологий управления тактовой частотой и двойного напряжения питания (VDD). Компания планирует начать производство 24-гигабайтной DRAM в начале 2025 года. uk.pcmag.com @ai_machinelearning_big_data #news #ai #ml

295 872

🌟 Janus: унифицированная MMLM от DeepSeek Janus - уникальная мультимодальная модель, которая способна выполнять как задачи понимания, так и генерации изображений. В отличие от других GenAI моделей, Janus использует раздельные пути кодирования визуальной информации, оптимизированные под каждую задачу, находясь в единой архитектуре на основе трансформера. Это разделение позволяет Janus точно извлекать семантическую информацию из изображений для задач понимания, одновременно сохраняя детализацию и целостность для задач генерации. Janus имеет 1.3 млрд. параметров с длиной последовательности в 4096. ▶️ Архитектура Janus состоит из 3 компонентов: 🟢Энкодер понимания: извлекает семантические характеристики из изображений, используя SigLIP; 🟢Энкодер генерации: преобразует изображения в последовательность дискретных идентификаторов с помощью VQ-токенизатора; 🟢Унифицированный авторегрессионный трансформер: обрабатывает текстовые и визуальные характеристики. Процесс обучения Janus проходил в несколько этапов: сначала тренировались адаптеры и Image Heads для связывания визуальных и лингвистических эмбедингов. Затем - предварительное обучение задачам понимания и генерации и, в конце - инструктивная специализация модели при помощи SFT. ▶️ Оценка производительности Janus выполнялась на бенчмарках: 🟠Понимание: MMBench, SEED-Bench, POPE, MME, VQAv2, GQA, MMMU, MM-Vet. 🟠Генерация: MSCOCO-30K, MJHQ-30K, GenEval Результаты оценки показали, что Janus превосходит предыдущие унифицированные MMLM и демонстрирует конкурентоспособность с некоторыми моделями большего размера. На MMBench, SEED-Bench и POPE, Janus (1.3B) превзошла LLaVA-v1.5 (7B)12 и Qwen-VL-Chat (7B)13. На MSCOCO-30K и GenEval Janus превзошла DALL-E 214 и SDXL Инференс модели пока поддерживается только в CLI на Transformers. Примеры запуска в режимах Multimodal Understanding и Text-to-Image Generation приведены в репозитории проекта. Способ запуска в GradioUI в коммитах. По отзывам - модель запускается на T4 (16 Gb) в free-tier Google Collab. 📌Лицензирование кода : MIT License. 📌Лицензирование модели: DeepSeek Model License. 🟡Модель 🟡Arxiv 🟡Demo 🖥Github @ai_machinelearning_big_data #AI #ML #MMLM #GenAI #Janus #DeepSeek

295 872

🌟 Arch-Function: коллекция моделей для вызова функций. Модели Arch-Function понимают сложные сигнатуры функций, идентифицируют необходимые параметры и генерируют точные вызовы функций на основе промптов. Семейство основано на Qwen 2.5, его модели оптимизированы для низкой задержки инференса и высокой пропускной способности. Они отлично подходят для работы в режиме реального времени в производственной среде. ▶️Функциональные возможности моделей: 🟢Single Function Calling. Вызов одной функции для каждого запроса; 🟢Parallel Function Calling. Вызов одной и той же функции несколько раз, но с разным набором параметров; 🟢Multiple Function Calling. Вызов различных функций для каждого запроса; 🟢Parallel & Multiple. Выполнение параллельного и множественного вызова функций. ▶️Семейство Arch-Function: 🟢Arch-Function-7B; 🟢Arch-Function-3B; 🟢Arch-Function-1.5B. В репозитории на HF доступны квантованные версии всех моделей в формате GGUF: 🟠Arch-Function-7B в 4-bit разрядности; 🟠Arch-Function-3B в разрядностях от 2-bit до 6-bit; 🟠Arch-Function-1.5B в разрядностях от 2-bit до 6-bit. Модели семейства прошли оценку на Berkeley Function-Calling Leaderboard (BFCL). Результаты показывают, что Arch-Function-7B и Arch-Function-3B демонстрируют производительность, сопоставимую с GPT-4-turbo-2024-04-09 и xLAM-8x22b-r. Arch-Function можно запустить с помощью библиотеки Transformers или в промпт-шлюзе Arch. ⚠️ Для достижения наилучших результатов рекомендуется использовать конфигурацию промптов, указанных в примерах одиночного или многошагового вызова функций. 📌Лицензирование : Katanemo license. 🟡Коллекция моделей 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #Katanemo #Arch-Function

295 872

Приглашаем вас посетить Очный семинар про эффективность ML моделей в бизнесе Поговорим о том, как машинное обучение позволяет трансформировать бизнес Присоединяйтесь, чтобы услышать реальные кейсы и узнать о стратегиях внедрения ML для повышения эффективности и роста прибыли ▫️ 23 октября (среда), 17:00 МСК ▫️ Место встречи: г. Москва, точный адрес отправим после заполнения формы регистрации Тема: Эффективность ML-моделей для бизнеса Приглашенные эксперты: ▫️Александр Ефимов (GlowByte) Эволюция целей и задач для ML команд ▫️ Виктор Кантор (МТС, ML Inside), ML Inside: топ-4 способа монетизации ML в B2C компании ▫️Роман Мизюрин (Альфа Банк), Опыт оценки финансовых эффектов для задач машинного обучения Модератор дискуссии: ▫️ Глеб Шуклин, директор Ассоциации больших данных Организаторы: Ассоциация Больших Данных, GlowByte Участие бесплатное, но необходима регистрация. Ждём вас! Erid: 2Vtzqv44pFm Рекламодатель: Ассоциация больших данных

295 872

✔️ Релиз PyTorch 2.5. Выпуск PyTorch® 2.5 представляет новый бэкэнд CuDNN для SDPA, обеспечивающий ускорение до 75% на GPU NVIDIA H100 и новее. Оно активировано по умолчанию. Сокращено время холодного запуска torch.compile благодаря региональной компиляции, которая позволяет собирать nn.Module без перекомпиляции. Бэкэнд TorchInductor CPP получил поддержку FP16, обертку CPP, режим AOT-Inductor и режим максимальной автонастройки. В режиме максимальной автонастройки для GEMM-операций используется шаблон C++ в качестве альтернативы ATen с библиотеками oneDNN и MKL. Поддержка Intel GPU расширена и теперь включает Intel® Data Center GPU Max Series и Intel® Client GPU. Релиз включает 4095 коммитов от 504 участников. pytorch.org ✔️ Anthropic обновила политику ответственного масштабирования ИИ, чтобы обеспечить безопасность по мере его развития. Обновленная политика включает Стандарты уровня безопасности ИИ - набор мер безопасности, строгость которых возрастает по мере роста возможностей модели. Пороговые значения возможностей - это конкретные способности ИИ, достижение которых требует усиленных мер безопасности. В новой версии определены два ключевых порога: автономные исследования в области ИИ и разработка оружия массового поражения. Для эффективного внедрения политики Anthropic разработала оценку возможностей, оценку мер безопасности, процессы документирования и принятия решений и меры для внутреннего управления и получения внешних заключений. anthropic.com ✔️ Perplexity запускает поиск по внутренней базе знаний и рабочие пространства. Perplexity запускает поиск по внутренней базе знаний и рабочие пространства. Perplexity представляет две новые функции: поиск по внутренней базе знаний, который позволяет пользователям Pro и Enterprise Pro искать как в Интернет-контенте, так и в своих собственных внутренних базах знаний, и Perplexity Spaces - хабы для совместной работы на базе ИИ, которые можно настраивать под конкретные задачи. Perplexity Spaces позволяют приглашать коллег, подключать внутренние файлы и настраивать ИИ-помощника. Функция поиска по внутренней базе знаний уже доступна клиентам Enterprise Pro. perplexity.ai ✔️ OpenAI выпустила бета-версию приложение ChatGPT для Windows. OpenAI представила предварительную версию приложения ChatGPT для Windows, предназначенного для пользователей ChatGPT Plus, Team, Enterprise и Edu. Это ранняя версия "полноценного приложения", которое выйдет позже в этом году. Пользователи могут загружать файлы и фотографии, резюмировать документы и создавать изображения с помощью DALL-E 3. Есть ограничения: отсутствие поддержки голоса, включая расширенный голосовой режим, и некоторые интеграции с GPT Store. Приложение предоставляет доступ ко всем моделям OpenAI, включая o1-preview. techcrunch.com ✔️ Boston Dynamics и Toyota Research Institute объявили о партнерстве для исследований в робототехнике. Boston Dynamics и Toyota Research Institute (TRI) объединят усилия, чтобы ускорить разработку роботов-гуманоидов общего назначения. Исследовательское партнерство будет использовать большие поведенческие модели TRI и робота Atlas от Boston Dynamics. TRI - мировой лидер в быстром развитии больших поведенческих моделей (LBM) для робототехники. Партнерство, базирующееся в Бостоне, будет совместно возглавляться Скоттом Кейндерсмой, старшим директором по исследованиям в области робототехники в Boston Dynamics, и Рассом Тедрейком, вице-президентом по исследованиям в области робототехники в TRI. pressroom.toyota.com ✔️ AMD сделает GPU NVIDIA "Эпичными". AMD и NVIDIA, два главных производителя чипов, объединили свои усилия в сфере ИИ. Несмотря на конкуренцию, они пришли к совместному заключению, что их технологии дополняют друг друга. Процессоры AMD EPYC отлично работают в паре с NVIDIA GPU, увеличивая производительность при работе с большими моделями машинного обучения. В результате сотрудничества, процессоры AMD EPYC будут интегрированы в системы NVIDIA HGX и MGX, чтобы оптимизировать производительность ИИ и ЦОДов. analyticsindiamag.com @ai_machinelearning_big_data #news #ai #ml