es
Feedback
Machinelearning

Machinelearning

Ir al canal en Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Mostrar más

📈 Análisis del canal de Telegram Machinelearning

El canal Machinelearning (@ai_machinelearning_big_data) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 295 915 suscriptores, ocupando la posición 332 en la categoría Tecnologías y Aplicaciones y el puesto 1 276 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 295 915 suscriptores.

Según los últimos datos del 22 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -6 276, y en las últimas 24 horas de -223, conservando un alto alcance.

  • Estado de verificación: No verificado
  • Tasa de interacción (ER): El promedio de interacción de la audiencia es 8.09%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 5.69% de reacciones respecto al total de suscriptores.
  • Alcance de las publicaciones: Cada publicación recibe en promedio 23 927 visualizaciones. En el primer día suele acumular 16 831 visualizaciones.
  • Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 193.
  • Intereses temáticos: El contenido se centra en temas clave como openai, claude, api, gemini, контекст.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 23 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

295 915
Suscriptores
-22324 horas
-1 4447 días
-6 27630 días
Archivo de publicaciones
✔️ Nvidia обогнала Apple и стала самой дорогой компанией в мире. Акции Nvidia достигли отметки в $139,93, что привело к рыноч
✔️ Nvidia обогнала Apple и стала самой дорогой компанией в мире. Акции Nvidia достигли отметки в $139,93, что привело к рыночной капитализации в $3,43 трлн, превысив показатель Apple в $3,38 трлн. Microsoft Corp., которую Nvidia обогнала в прошлом месяце, имеет рыночную капитализацию в $3,06 трлн. С конца 2022 года акции Nvidia выросли более чем на 850%. Рост компании обусловлен ее доминирующим положением на рынке чипов, используемых для ИИ. Nvidia обеспечивает около четверти роста индекса S&P 500 в этом году, составляя 7% от его веса. Аналитики прогнозируют, что выручка Nvidia более чем удвоится в текущем финансовом году и вырастет еще на 44% в следующем. bloomberg.com ✔️ ML помогает найти перспективные составы для натрий-ионных аккумуляторов. Команда из Токийского университета науки (TUS) разработала ML-модель, которая проанализировала базу данных из 100 образцов катодов на основе оксидов переходных металлов (NaMeO2) с 68 различными составами. Модель выявила Na [Mn0.36Ni0.44Ti0.15Fe0.05] O2 как оптимальный состав для достижения максимальной плотности энергии. Для проверки точности прогнозов модели были синтезированы образцы с этим составом, и тесты показали соответствие экспериментальных данных прогнозам. Этот метод может значительно ускорить разработку Na-ion аккумуляторов, перспективной альтернативой Li-ion благодаря доступности натрия и более низкой стоимости. techexplorist.com ✔️ Китай выбыл из гонки за литографией с высокой числовой апертурой для производства чипов 1 нм. Китай больше не может конкурировать в производстве высокотехнологичных микрочипов из-за санкций США, которые запрещают ему приобретать системы EUV-литографии, необходимые для создания чипов с технологическим процессом 5 нм и меньше. TSMC (Тайвань) и Intel (США) устанавливают новейшие системы EUV-литографии с высокой числовой апертурой (High-NA EUV) от ASML для запуска производства чипов 1 нм к 2030 году, Китай ограничен системами ArF (Deep Ultra-Violet) предыдущего поколения, которые позволяют создавать чипы только до 5 нм. Системы High-NA EUV, увеличивающие плотность транзисторов на кристалле в 2,9 раза, стоят не менее 350 млн. долл. за штуку. Хотя Китай пытается разработать собственное оборудование для литографии, этот процесс идет медленнее, чем планировалось. asiatimes.com ✔️ Microsoft представила систему Magnetic-One для управления несколькими ИИ-агентами. Magnetic-One - система с открытым исходным кодом, доступная разработчикам, в том числе для коммерческих целей, по специальной лицензии Microsoft. Система основана на агенте-оркестраторе, который управляет 4 другими агентами: Websurfer, FileSurfer, Coder и ComputerTerminal. Websurfer может управлять веб-браузерами на основе Chromium, FileSurfer читает локальные файлы, Coder пишет код, а ComputerTerminal предоставляет консоль для выполнения программ Coder. Оркестратор распределяет задачи между агентами, отслеживает их прогресс и может корректировать план действий при возникновении ошибок. Хотя Magnetic-One был разработан для использования с GPT-4o, он не зависит от конкретной языковой модели. microsoft.com ✔️ NVIDIA представляет новые инструменты ИИ и среду для разработки роботов. NVIDIA представила на конференции Conference for Robot Learning (CoRL) в Мюнхене ряд новинок, которые позволят разработчикам значительно ускорить свою работу над роботами с поддержкой ИИ. Среди новинок - общедоступная среда обучения роботов NVIDIA Isaac Lab; 6 новых рабочих процессов обучения роботов-гуманоидов для Project GR00T, инициативы по ускорению разработки роботов-гуманоидов; а также новые инструменты для разработки моделей мира для обработки и курирования видеоданных - токенизатор NVIDIA Cosmos и NVIDIA NeMo Curator для обработки видео. Токенизатор Cosmos обеспечивает визуальную токенизацию, разбивая изображения и видео на токены с высокой степенью сжатия. Cosmos работает до 12 раз быстрее, чем современные токенизаторы, а NeMo Curator обеспечивает обработку видео до 7 раз быстрее, чем неоптимизированные конвейеры. blogs.nvidia.com @ai_machinelearning_big_data #news #ai #ml

🌟 Hunyuan3D-1.0: генерации 3D-моделей по тексту и изображению. Hunyuan3D-1.0 - двухэтапная система для быстрой генерации 3D-
+3
🌟 Hunyuan3D-1.0: генерации 3D-моделей по тексту и изображению. Hunyuan3D-1.0 - двухэтапная система для быстрой генерации 3D-моделей по текстовым запросам или изображениям. Модель представлена в трех версиях: 🟢Hunyuan3D-1 Lite - облегченная версия многовидовой генерации; 🟢Hunyuan3D-1 Standard - стандартная версия многовидовой генерации; 🟢Hunyuan3D-1 Sparse view reconstruction - модель реконструкции с ограниченным набором видов. ▶️ Ключевые особенности Hunyuan3D-1.0: 🟠Генерация 3D-модели занимает всего 10 секунд для облегченной версии и 25 секунд для стандартной версии; 🟠Высокая детализация текстур и геометрии; 🟠Динамическая регулировка CFG в процессе генерации; 🟠Модуль суперразрешения повышает разрешение трехплоскостных карт для создания детализированных аспектов 3D-формы; 🟠Использование функции знаковых расстояний (SDF) позволяет преобразовать неявную репрезентацию 3D-формы в явную сетку с помощью алгоритма Marching Cubes. ▶️ Пайплайн Hunyuan3D-1.0: Первый этап Hunyuan3D-1.0 основан на многовидовой диффузионной модели, которая генерирует набор RGB-изображений с разных ракурсов. Эти изображения, фиксирующие детали 3D-объекта с различных точек зрения, поступают на вход во второй этап - модель реконструкции. Модель реконструкции преобразует многовидовые изображения в готовую 3D-модель. Она обучена обрабатывать шумы и несоответствия, присущие многовидовой диффузии, и использовать информацию из входного изображения или текста для восстановления 3D-структуры. ▶️ Как обучалась Hunyuan3D-1.0: Обучение многовидовой диффузионной модели и модели реконструкции осуществляется раздельно. Lite-версия многовидовой модели использует SD-2.1 в качестве основы, a standard-версия основана на SDXL. Модель реконструкции сначала обучалась на многовидовых изображениях разрешением 256x256, а затем донастраивалась на изображениях разрешением 512x512. Весь процесс обучения проводился на 64 графических процессорах A100. ▶️ Оценка Hunyuan3D-1.0: Для оценки Hunyuan3D-1.0 использовались датасеты GSO и OmniObject3D с выборкой около 70 объектов. В качестве метрик использовались расстояние Чамфера (CD) и F-мера, которые являются стандартными показателями точности реконструкции 3D-форм. Standard-версия модели показала лучшие результаты по метрикам CD и F-score на обоих датасетах. Hunyuan3D-1.0 достигла оптимального баланса между качеством и скоростью по результаты сравнения с другими моделями. Инференс Hunyuan3D-1.0 доступен в CLI и с Gradio UI. Описание ключей запуска для CLI и список преднастроенных скриптов для запуска можно найти в репозитории проекта на Github. ⚠️ Позиции камеры на инференсе зафиксированы на азимуте (относительно позиции камеры на входе) +0, +60, +120, +180, +240, +300. ⚠️ Рекомендованная VRAM - 40GB, но по неподтвержденным данным из issue - запускается c 20 GB на 3090. ▶️Локальный запуск с GradioUI:
# Cloning the repository
git clone https://github.com/tencent/Hunyuan3D-1
cd Hunyuan3D-1

# Create conda env
conda create -n hunyuan3d-1 python=3.9
conda activate hunyuan3d-1
bash env_install.sh

# Run Gradio UI with Hunyuan3D-1.0 Lite
python app.py --use_lite 

# Open in browser link http://127.0.0.1:8080/
📌Лицензирование: Tencent Hunyuan Non-Commercial License. 🟡Модель 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI #ML #TextTo3D #ImgTo3D #Hunyuan3D #Tencent

Как оценить навыки и выбрать область развития для ML специалиста? 🔹Разберем на открытом уроке «Карьерные пути для ML специал
Как оценить навыки и выбрать область развития для ML специалиста? 🔹Разберем на открытом уроке «Карьерные пути для ML специалистов», приуроченному к новому курсу «ML Team Lead» от Otus. Обсудим подходы Microsoft, Google, Netflix к карьерному росту Познакомимся с методами определения областей для роста специалистов, техниками оценки сильных сторон команды и выявлением областей для развития навыков. 👉 Регистрация и подробности: https://otus.pw/qCE6/?erid=LjN8K36WV #реклама О рекламодателе

⚡️ Как использование нескольких пользовательских представлений (MUR) улучшает персонализацию в рекомендательных системах В Go
+3
⚡️ Как использование нескольких пользовательских представлений (MUR) улучшает персонализацию в рекомендательных системах В Google рассказали про схему итеративного взвешивания плотности (iterative density weighting scheme, IDW), которая помогает равномерно распределять интересы пользователя. Она уменьшает влияние дисбалансированных данных и улучшает кластеризацию элементов, анализируя плотность предметов в пространстве представлений. В подробном разборе статьи от ml-спецов Яндекса рассказали про устройство IDW и кратко привели результаты эксперимента. 🟡Разбор 🟡Arxiv @ai_machinelearning_big_data #AI #ML #tech

✔️ Microsoft запускает бета-тестирование чат-бота с ИИ для Xbox. Чат-бот "Xbox Support Virtual Agent" разработан, чтобы помоч
✔️ Microsoft запускает бета-тестирование чат-бота с ИИ для Xbox. Чат-бот "Xbox Support Virtual Agent" разработан, чтобы помочь игрокам Xbox решать проблемы, связанные с поддержкой игр. Участники программы Xbox Insiders в США могут начать тестирование нового чат-бота с искусственным интеллектом на сайте support.xbox.com. Xbox Support Virtual Agent будет отвечать на вопросы, касающиеся поддержки консолей Xbox и игр. Чат-бот будет отображаться в виде анимированного персонажа с искусственным интеллектом, который реагирует на вопросы, или в виде красочного шара Xbox. theverge.com ✔️ Broadcom представила VeloRAIN - первую в отрасли архитектуру для надежных ИИ-сетей за пределами ЦОДов. VeloRAIN (Robust AI Networking) — новая архитектура, использующая ИИ и ML для повышения производительности и безопасности распределенных рабочих нагрузок ИИ. VeloRAIN будет обладать возможностями: обнаружение ИИ-приложений с помощью машинного обучения, повышение эффективности сети и оптимизация трафика, а также динамическая, управляемая через ИИ, структура политик для приложений. Новые функции упростят идентификацию и приоритизацию периферийных ИИ-приложений, обеспечат повышенное качество обслуживания и улучшат пользовательский опыт для современных приложений. broadcom.com ✔️ Siemens приобретает компанию Altair Engineering, разработчика ПО для моделирования и анализа. Это приобретение укрепит позиции Siemens как ведущей технологической компании и лидера в области промышленного ПО. Объединение возможностей Altair в области моделирования, высокопроизводительных вычислений, науки о данных и ИИ с Siemens Xcelerator позволит создать самый полный в мире портфель решений для проектирования и моделирования на базе ИИ. Siemens ожидает значительный синергетический эффект от перекрестных продаж взаимодополняющих портфелей, а также от предоставления Altair полного доступа к глобальной сети Siemens и ее промышленной клиентской базе. Altair, основанная в 1985 году, вышла на биржу Nasdaq в 2017 году и имеет штаб-квартиру в городе Трой, штат Мичиган. Из более чем 3500 сотрудников компании около 1400 работают в сфере исследований и разработок. aerospacemanufacturinganddesign.com ✔️ M5Stack выпускает автономный "Module LLM" на базе AX630C для локальных приложений. M5Stack Module LLM - это новое устройство от компании, которое обеспечивает управление с помощью искусственного интеллекта без доступа к Интернету. Модуль оснащен SoC AX630C, 4 ГБ памяти LPDDR4, 32 ГБ хранилища и нейронным процессором NPU с производительностью 3,2 TOPS (INT8) или 12,8 TOPS (INT4). Модуль имеет встроенный микрофон, динамик, слот для карт microSD и порт USB OTG. M5Stack Module LLM совместим с контроллерами CoreMP135, CoreS3 и Core2. Модуль поставляется с предустановленной языковой моделью Qwen2.5-0.5B. В будущем он будет поддерживать модели Qwen2.5-1.5B, Llama3.2-1B и InternVL2-1B. M5Stack Module LLM стоит 49,90 долларов США. cnx-software.com ✔️ NVIDIA анонсировала ИИ-агентов для анализа визуальных данных. NVIDIA представила новый ИИ-шаблон AI Blueprint для поиска и обобщения видео, который позволит разработчикам создавать ИИ-агентов, способных анализировать визуальный контент и отвечать на вопросы пользователей. Шаблон, являющийся частью платформы NVIDIA Metropolis, объединяет технологии CV и GenAI. ИИ-агенты, созданные с помощью этого шаблона, могут анализировать видеоархивы, выявлять нарушения техники безопасности на складах, определять дорожно-транспортные происшествия и генерировать отчеты для экстренных служб. NVIDIA сотрудничает с Accenture, Dell Technologies и Lenovo, чтобы сделать этот шаблон доступным для предприятий и городов по всему миру. blogs.nvidia.com @ai_machinelearning_big_data #news #ai #ml

⚡️ Hunyuan-Large: MoE-модель с 389 млрд. параметров. Hunyuan-Large - самая большая на сегодняшний день открытая модель на осн
+3
⚡️ Hunyuan-Large: MoE-модель с 389 млрд. параметров. Hunyuan-Large - самая большая на сегодняшний день открытая модель на основе Transformer с архитектурой MoE. Модель мультиязычна и имеет 389 млрд. параметров, из которых 52 млрд. активных, контекстное окно в 256 тыс. токенов (128 тыс. токенов у instruct-версии). В открытый доступ опубликованы 3 версии: 🟢Hunyuan-Large; 🟢Hunyuan-Large-Instruct 🟢Hunyuan-Large-Instruct-FP8 Архитектура Hunyuan-Large основана на классическом Transformer с использованием MoE. Модель состоит из 64 слоев, 80 attention heads и 16 специализированных экспертов, из которых для каждого токена активируется только один эксперт. Для оптимизации использования памяти во время инференса в Hunyuan-Large используется сжатие KV-кэша с помощью GQA и CLA. GQA группирует attention heads, а CLA шэрит KV-кэш между соседними слоями, тем самым сокращая использование KV-кэша почти на 95% по сравнению с оригинальным MHA. Активации экспертов происходит с помощью смешанной стратегии маршрутизации: все токены обрабатываются одним общим экспертом, а специализированные эксперты выбираются с помощью top-k маршрутизации. Чтобы не терять информацию из-за перегрузки экспертов, была разработана стратегия «рециркуляционной маршрутизации», которая рероутит токены от перегруженных экспертов к свободным. Перед обучением Hunyuan-Large разработчики провели исследования законов масштабирования для моделей MoE. Оптимальное количество активных параметров (52 млрд) и объем обучающих данных (7 трлн. токенов) были определены на основе анализа isoFLOPs кривой. Hunyuan-Large превосходит по производительности LLama3.1-70B, LLama3.1-405B, Mixtral-8x22B и DeepSeek-V2 в в агрегированных бенчмарках (MMLU, MMLU-Pro), рассуждении CommonsenseQA, PIQA, WinoGrande и HellaSwag), программировании (HumanEval и MBPP), математике (GSM8K и MATH) и классических NLP-задачах (TriviaQA, NaturalQuestions, DROP и ARC-C). 🟡Набор моделей 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #MoE #HunyuanLarge #Tencent

🌟 Allegro: открытая text-to-video модель генерации видео в 720p. Allegro - модель от Rhymes AI для генерации видео по тексто
+3
🌟 Allegro: открытая text-to-video модель генерации видео в 720p. Allegro - модель от Rhymes AI для генерации видео по текстовому промпту. Allegro генерирует 6-секундные видеоролики с разрешением 720p и частотой 15 кадров в секунду. Модель отличается высокой детализацией, плавностью переходов в движении и способностью визуализировать сложные сцены. Allegro основана на трех ключевых технологиях: 🟢Обработка больших объемов видеоданных. Для обучения модели использовался массив данных из 106 млн. изображений и 48 млн. видеороликов с детальными аннотациями. 🟢Сжатие видео в визуальные токены. В Allegro используется Video Variational Autoencoder (VideoVAE) с 175 млн. параметров. Он кодирует видео в компактное скрытое пространственно-временное представление и способен работать в разрядностях точности FP32/TF32/BF16/FP16. 🟢Масштабируемая архитектура Diffusion Transformer. Ядро Allegro - масштабируемая архитектура Diffusion Transformer (DiT) с 3D-позиционным кодированием RoPE и полным 3D-вниманием размером в 2.8 млрд. параметров. DiT моделирует пространственные и временные зависимости в видеокадрах и отвечает за качество генерации и плавность движения. Поддерживаемая разрядность - BF16/FP32/TF32. Для локального запуска потребуются : Python >= 3.10, PyTorch >= 2.4, CUDA >= 12.4 ⚠️ Интерполяция до 30 FPS возможна с помощью EMA-VFI. ⚠️ С использованием параметра --enable_cpu_offload, инференс возможен на 9.3Gb VRAM, без использования выгрузки потребность Allegro около 27Gb VRAM. ⚠️ Модель не может генерировать знаменитостей, разборчивый текст, конкретные места, улицы или здания. ▶️Параметры инференса в CLI:
# Run inference
python single_inference.py 

# Keys
--user_prompt '%prompt%' 
--save_path '%full path for output file%' 
--vae '%path to VAE' 
--dit '%path to DiT%' 
--text_encoder '%path to text encoder%'
--tokenizer '%path to text tokenizer%' 
--guidance_scale 7.5 
--num_sampling_steps 100 
--seed 42
📌Лицензирование: Apache 2.0 license. 🟡Страница проекта 🟡Модель 🟡Arxiv 🟡Сообщество в Discord 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #Text-to-Video #DiT #Allegro

✔️ Уязвимости в Ollama Framework могут привести к DoS-атакам. Специалисты по кибербезопасности обнаружили 6 уязвимостей в Oll
✔️ Уязвимости в Ollama Framework могут привести к DoS-атакам. Специалисты по кибербезопасности обнаружили 6 уязвимостей в Ollama, которые могут быть использованы для выполнения атак типа "отказ в обслуживании", отравление или кражу моделей. Одна из наиболее серьезных уязвимостей - CVE-2024-39722 (CVSS score: 7.5), которая представляет собой обход пути в api/push, предоставляющий доступ к файлам, существующим на сервере и всей структуре каталогов, в которой развернута Ollama. Две другие уязвимости могут привести к отравлению модели через /api/pull из ненадежного источника или краже модели через /api/push. Исследователи обнаружили 9 831 уникальный экземпляр Ollama, доступный из Интернета, причем большинство из них расположено в Китае, США, Германии, Южной Корее, Тайване, Франции, Великобритании, Индии, Сингапуре и Гонконге. Каждый четвертый сервер, доступный из Интернета, оказался уязвим. thehackernews.com ✔️ Быстрое развитие ИИ приведет к резкому росту электронных отходов. Исследование, опубликованное в журнале Nature Computational Science, подробно описывает 4 возможных сценария внедрения генеративного ИИ: от ограниченного до агрессивного расширения, с прогнозом потенциального увеличение электронных отходов от уровня 2023 года в 2600 тонн в год. Модель агрессивного внедрения LLM в частных компаниях и на предприятиях приведет к образованию 2,5 млн. тонн электронных отходов в год к 2030 году. Ограниченное расширение использования ИИ приведет к образованию в общей сложности 1,2 млн. тонн электронных отходов с 2023 по 2030 год. spectrum.ieee.org ✔️ Поколение Z и миллениалы используют ИИ для управления личными финансами. Согласно новому отчету Experian, около 67% опрошенных представителей поколения Z и 62% опрошенных миллениалов используют искусственный интеллект для решения задач, связанных с управлением личными финансами. Большинство из них пользуются генеративным ИИ для решения финансовых вопросов не реже одного раза в неделю. В отчете говорится, что пользователи считают, что ChatGPT, помогают им в накоплениях и составлении бюджета (60%), инвестиционном планировании (48%) и повышении кредитного рейтинга (48%). 98% взрослых представителей поколения Z и 98% миллениалов положительно оценили свой опыт работы с ИИ-сервисами. cnbc.com ✔️ Apple представит новые исследования на конференции по эмпирическим методам обработки естественного языка (EMNLP). EMNLP 2024 пройдет в Майами с 12 по 16 ноября. Apple представит свои исследования и выступит спонсором конференции, на которой соберутся представители научного и корпоративного сообществ, занимающихся исследованиями в области NLP и AI. На EMNLP будут представлены доклады, посвященные обработке естественного языка, машинному обучению, глубокому обучению и компьютерной лингвистике. Среди заявленных работ - исследования, посвященные кросс-культурному машинному переводу, модели обновления для совместимой эволюции LLM и ранжированию любой степени детализации с помощью многовекторных вложений. На конференции также пройдут семинары по WiNLP и BlackboxNLP. machinelearning.apple.com ✔️ Intel готовит к выпуску новое поколение графических процессоров Battlemage. Intel готовится к выпуску нового поколения графических процессоров под кодовым названием Battlemage, которые, как ожидается, появятся на рынке в конце 2024 или начале 2025 года. Intel пока не подтвердила официальные характеристики, но, по слухам, Battlemage будет основан на новой архитектуре Xe2 и будет доступен в двух вариантах: X2 и X3. Предполагается, что X2, флагманская модель, будет иметь 32 ядра Xe2, что соответствует 4096 потоковым процессорам и 512 исполнительным блокам. X3, по слухам, будет иметь 28 ядер Xe2 (3584 потоковых процессора и 448 исполнительных блоков). Ожидается, что Intel сосредоточится на бюджетном и среднем сегментах рынка. По оценкам, цена на флагманскую модель составит от 350 до 500 долл. США. Intel заявляет, что Battlemage обеспечит 50% прирост производительности по сравнению с предыдущей архитектурой. digitaltrends.com @ai_machinelearning_big_data #news #ai #ml

🌟 SmolLM2: второе поколение компактных LLM от HuggingFace. Hugging Face представила SmolLM2, новую серию SLM, оптимизированн
+3
🌟 SmolLM2: второе поколение компактных LLM от HuggingFace. Hugging Face представила SmolLM2, новую серию SLM, оптимизированных для работы на устройствах c ограниченными ресурсами и предназначенных для выполнения задач генерации и обобщения текста на английском языке и вызова функций. Модели SmolLM2 были обучены на миксе из наборов данных FineWeb-Edu, DCLM и Stack. Тестирование после обучения показало превосходство старшей модели SmolLM2-1.7B над Meta Llama 3.2 1B и Qwen2.5-1.5B. Модели доступны в трёх конфигурациях: 135М, 360М и 1.7B параметров, каждая модель имеет свою Instruct-версию, а 1.7B и 360М еще и официальные квантованные версии GGUF: ⏩SmolLM2-1.7B🟢SmolLM2-1.7B-Instruct🟢Instruct GGUFSmolLM2-360M🟠SmolLM2-360M-Instruct 🟠Instruct GGUFSmolLM2-135M 🟠SmolLM2-135M-Instruct 🟠Instruct GGUF от комьюнити ▶️Пример запуска модели SmolLM2-1.7B в полной точности на Transformers :
from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "HuggingFaceTB/SmolLM2-1.7B"
device = "cuda" # for GPU usage or "cpu" for CPU usage
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
inputs = tokenizer.encode("Gravity is", return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))
📌Лицензирование: Apache 2.0 License. 🟡Коллекция моделей на HF 🟡Demo SmolLM2 1.7B @ai_machinelearning_big_data #AI #ML #SLM #Huggingface #SmolLM2

🌟 Run:ai Model Streamer - ускорение загрузки LLM. Run:ai Model Streamer – Python SDK, разработанный для оптимизации загрузки
+1
🌟 Run:ai Model Streamer - ускорение загрузки LLM. Run:ai Model Streamer – Python SDK, разработанный для оптимизации загрузки моделей машинного обучения. Он поддерживает загрузку моделей в различных форматах (.pt, .h5, .safetensors и др.) из сетевых файловых систем, хранилищ S3 и локальных дисков. Особенность Streamer - использование многопоточности для параллельной загрузки тензоров из файла в выделенный буфер оперативной памяти. Каждый тензор идентифицируется уникальным ключом, который впоследствии используется приложением для загрузки тензора в память GPU. Это дает возможность загружать тензоры в память GPU одновременно с чтением других тензоров из хранилища в оперативную память, минимизируя время простоя GPU. Streamer использует высокопроизводительный слой на C++, а Python API обеспечивает удобную интеграцию Streamer в существующие проекты, например, для автомасштабируемых серверов инференса, где минимизация времени простоя GPU критически важна. Тест производительности Run:ai Model Streamer выполнялся на NVIDIA A10G с моделью Llama-3-8B (15 GB) и сравнивался с загрузчиками SafeTensors от Hugging Face и Tensorizer от CoreWeave. При использовании локальных SSD, Run:ai Model Streamer достигал максимальной пропускной способности SSD (1 ГБ/с для GP3 и 2 ГБ/с для IO2), сокращая время загрузки модели в 6 раз по сравнению с SafeTensors Loader. На Amazon S3 Run:ai Model Streamer загружал модель за 4.88 секунды, значительно превосходя Tensorizer (37.36 секунд). ⚠️ Streamer поддерживает только приложения PyTorch. ⚠️ Размер буфера оперативной памяти регулируется параметром RUNAI_STREAMER_MEMORY_LIMIT ▶️ Пример запуска с локального диска:
# Install streamer from pip
pip install runai-model-streamer

# Load the tensors to the buffer and stream to the GPU
from runai_model_streamer import SafetensorsStreamer

file_path = "/path/to/file.safetensors"

with SafetensorsStreamer() as streamer:
    streamer.stream_file(file_path)
    for name, tensor in streamer.get_tensors():
        tensor.to('CUDA:0')
📌Лицензирование: Apache 2.0 License. 🟡Бенчмарки в блоге RunAI 🟡Документация 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #RunAI #ModelStramer

🔥6 ноября приглашаем на открытый урок "Введение в LangChain", где познакомимся с библиотекой LangChain, которая упрощает соз
🔥6 ноября приглашаем на открытый урок "Введение в LangChain", где познакомимся с библиотекой LangChain, которая упрощает создание приложений с использованием больших языковых моделей (LLM) 🎓Вы узнаете: - что такое LangChain и каковы его основные возможности; - как установить и настроить LangChain в вашем проекте; - основные компоненты LangChain: цепочки, промпты и другие инструменты; - практические примеры использования LangChain для решения задач обработки естественного языка. 👉Регистрация. Участие бесплатно. https://otus.pw/ZLoo/?erid=LjN8JygaC Вебинар приурочен к старту курса Natural Language Processing (NLP), обучение на котором позволяет освоить различные языковые модели и создать собственный телеграм-бот. #реклама О рекламодателе

📎 ML в медицине: дайджест за 28 октября - 3 ноября 2024 г. ▶️Модели машинного обучения и бенчмарки 🔘MassSpecGym: бенчмарк д
📎 ML в медицине: дайджест за 28 октября - 3 ноября 2024 г. ▶️Модели машинного обучения и бенчмарки 🔘MassSpecGym: бенчмарк для тандемной масс-спектрометрии. Комплексная коллекция для идентификации и исследования молекул из данных тандемной масс-спектрометрии. 🔘UltraMedical: набор специализированных биомедицинских моделей. Модели, датасет для обучения и код для инференса. 🔘EchoFM: Базовая модель для обобщенного анализа эхокардиограмм. Модель для извлечения признаков из видео эхокардиографии без необходимости ручной разметки. 🔘ImmunoHisto Benchmark: оценка базовых моделей гистопатологии к обобщению для аутоиммунных заболеваний и окрашиванию ИГХ. Бенчмарк на способность моделей гистопатологии обобщаться на данные вне распределения, полученные с помощью иммуногистохимического окрашивания тканей при аутоиммунных заболеваниях. 🔘Оценка LLM в задачах консультирования по вопросам психического здоровья. Бенчмарк, основанный на Национальном экзамене по клиническому консультированию в области психического здоровья (NCMHCE), используемом в США. ▶️Фреймворки и методологии 🔘FEDKIM: внедрение медицинских знаний в LLM с использованием федеративного обучения. Метод внедрения медицинских знаний через федеративное обучение, использующий легковесные модели и модуль M3OE 🔘ZALM3: согласованиe текста и изображений с помощью контекста в многоэтапных диалогах. Zero-shot-методика, которая решает проблему низкого качества изображений используя текстовый контекст. 🔘Flex-MoE: архитектура комбинирования данных разной модальности. Архитектура для решения проблемы обучения с пропусками в мультимодальных данных, использующая "банк отсутствующих модальностей". 🔘HaarPSIMED: адаптация метрики HaarPSI для медицинских изображений. Оптимальная конфигурация метрики HaarPSI для оценки качества медицинских изображений. 🔘MAISI: генерация синтетических 3D КТ-изображений с помощью диффузионных моделей. Метод генерации реалистичных КТ, который решает проблемы нехватки данных и конфиденциальности в медицинской визуализации. 🔘Cough-E: энергоэффективный алгоритм обнаружения кашля на периферийных устройствах. Алгоритм, который использует аудио и кинематические данные для точного обнаружения кашля на периферийных устройствах с ограниченными ресурсами. ▶️Медицинские LLM-приложения 🔘DiaMond: мультимодальная система диагностики деменции. Система на архитектуре ViT для диагностики болезни Альцгеймера и лобно-височной деменции. 🔘LLM-Forest: метод обработки пропущенных данных в медицинских таблицах с использованием LLMs. Метод использования ансамбля языковых моделей для точного заполнения пропусков в медицинских данных. 🔘PFMVG: параметрическая настройка медицинских MMLM для локализации объектов на изображениях. Эффективная настройка медицинских мультимодальных языковых моделей для точной локализации патологий на изображениях. 🔘TrialMind: синтез клинических данных с LLM. Генеративный конвейер для повышения эффективности поиска, отбора и извлечения данных из медицинской литературы. 🔘MDAgents: принятие решений с использованием LLMs. Многоагентная архитектура на основе LLM для автоматизации принятия решений. 🔘Matchmaker: самообучающаяся программа на основе LLM для сопоставления схем данных. Автоматическое и высокоточное сопоставления медицинских схем данных с LLM. ▶️Исследования и обзоры *️⃣Оценка восприятия физического мира языковыми моделями в 3D-среде Animal-AI. Авторы разработали фреймворк LLM-AAI, который позволяет LLM взаимодействовать со средой Animal-AI с помощью простого языка сценариев. *️⃣Потенциал использования LLM для генерации экзаменационных вопросов по медицине. Статья о возможности применения LLM для создания вопросов и ответов к квалификационным экзаменам по медицине. *️⃣Уменьшение галлюцинаций в QA-системах с помощью LLM и графов знаний. В статье исследуется проблема галлюцинаций LLM и предлагается решение в виде гибридного подхода - сочетание LLM с графами знаний. Спойлер - это работает. 🔜 Читать полный дайджест @ai_machinelearning_big_data

🌟 D-FINE: метод регрессии bounding box в детекторах объектов на основе DETR. D-FINE - детектор объектов в режиме реального в
+2
🌟 D-FINE: метод регрессии bounding box в детекторах объектов на основе DETR. D-FINE - детектор объектов в режиме реального времени, который предлагает улучшение регрессии bounding box в моделях DETR . D-FINE обладает высокой точностью локализации, определяя регрессию рамок как процесс итеративного уточнения распределений вероятностей. D-FINE состоит из двух компонентов: 🟠Мелкозернистое уточнение распределения (Fine-grained Distribution Refinement, FDR). FDR преобразует процесс регрессии из предсказания фиксированных координат в итеративное уточнение распределений вероятностей. Эта техника дает более детальное промежуточное представление, что повышает точность локализации. 🟠Глобальная оптимальная локализованная самодистилляция (Global Optimal Localization Self-Distillation, GO-LSD). GO-LSD - двунаправленная стратегия оптимизации, которая передает знания о локализации из уточненных распределений в более ранние слои модели через самодистилляцию. Старшие версии D-FINE-L и D-FINE-X достигают 54,0% и 55,8% AP на наборе данных COCO соответственно, работая со скоростью 124 и 78 FPS на GPU NVIDIA T4. При предварительном обучении на Objects365 D-FINE-L и D-FINE-X показывают 57,1% и 59,3% AP, что выше всех существующих детекторов реального времени. Разработчики D-FINE предлагают несколько предобученных моделей на датасетах Objects365 и COCO под разные задачи и мощности. Все модели поддерживают инференс на изображениях и видео с использованием ONNX Runtime, TensorRT и PyTorch: 🟢D-FINE-S: Самая компактная и быстрая модель (3.49 мс на T4 GPU); 🟢D-FINE-M: Модель среднего размера, баланс между точностью и скоростью (5.62 мс на T4 GPU); 🟢D-FINE-L: Модель высокой точности (8.07 мс на T4 GPU); 🟢D-FINE-X: Самая крупная и точная модель (12.89 мс на T4 GPU). D-FINE предоставляет инструменты для обучения, бенчмаркинга, визуализации с помощью FiftyOne и инструкции по организации наборов данных. ▶️Локальный инференс на примере ONNX:
# Create env via conda
conda create -n dfine python=3.11.9
conda activate dfine

# Install requirements for inference
pip install -r tools/inference/requirements.txt

# Install ONNX
pip install onnx onnxsim

# Choose a model
export model=l # s, m, x

# Inference 
python tools/inference/onnx_inf.py --onnx model.onnx --input image.jpg # video.mp4
📌Лицензирование: Apache 2.0 License. 🟡Arxiv 🖥Github @ai_machinelearning_big_data #AI #ML #DETR #DFine #Detection

🌟 Saliency-Diversified Deep Ensembles: новый метод, позволяющий распознавать неизвестные объекты на фото с помощью ИИ. Преды
🌟 Saliency-Diversified Deep Ensembles: новый метод, позволяющий распознавать неизвестные объекты на фото с помощью ИИ. Предыдущие разработки в области компьютерного зрения (CV) сопровождались проблемой однородности ансамблей, то есть схожесть их друг с другом снижала качество и разнообразие их оценок. Для решения этой проблемы ученые из T-Bank AI Research разработали самый точный в мире метод SDDE, в котором используются карты внимания, фокусирующиеся на разных аспектах данных. Таким образом схожесть моделей уменьшается, а их общая точность – повышается, что приводит к более надежной и диверсифицированной идентификации объектов. Значимость открытия заключается также в снижении рисков ошибок при обработке и анализе фото на 20%. Исследователи научили модель при работе с изображениями учитывать не только те наборы данных, которые использовались при ее обучении, но и незнакомую ей информацию. Благодаря такому подходу, модель стала успешнее обнаруживать ранее неизвестные ей объекты и точнее их идентифицировать. Эффективность метода ученые оценивали в испытаниях на популярных базах данных: CIFAR10, CIFAR100 и ImageNet-1K. Метод SDDE продемонстрировал наилучшие результаты по сравнению со схожими алгоритмами, такими как Negative Correlation Learning и Adaptive Diversity Promoting. Метод SDDE будет востребован в сферах, требующих высокой точности анализа, например, в медицинской диагностике и развитии беспилотного транспорта. Открытие ученых было признано мировым научным сообществом на Международной конференции по обработке изображений (IEEE ICIP) в Абу-Даби. 🟡Исследование @ai_machinelearning_big_data #news #ai #ml

✔️ Китайские военные используют ИИ-модель Llama для создания военного ИИ. В исследовательской статье, опубликованной в июне,
✔️ Китайские военные используют ИИ-модель Llama для создания военного ИИ. В исследовательской статье, опубликованной в июне, 6 китайских ученых из 3 учреждений, связанных с Академией военных наук (AMS) НОАК, описали процесс адаптации версии Llama для создания ChatBIT. Инструмент был разработан с использованием модели Llama-13B и дополнительных параметров для сбора и обработки разведданных, а также предоставления информации для принятия оперативных решений. ChatBIT был настроен для «диалога и ответов на вопросы в военной области» и показал производительность, превосходящую некоторые другие модели ИИ, достигая уровня 90% возможностей ChatGPT-4 от OpenAI. Официальные представители компании-разработчика Llama заявили, что любое использование ее моделей НОАК является несанкционированным и противоречит политике компании. reuters.com ✔️ ИИ создаёт виртуальный мир Minecraft в режиме реального времени. Компании Decart и Etched представили версию игры Minecraft, полностью сгенерированную ИИ, без написания кода. Модель Oasis обучалась на миллионах часов игрового процесса Minecraft, изучая физику, окружение и управление игрой. Демонстрация, созданная с использованием метода предсказания следующего кадра, позволяет пользователям взаимодействовать с виртуальным миром в режиме реального времени, но имеет ограничения: низкое разрешение, кратковременные сеансы игры и "галлюцинации", когда элементы игрового мира внезапно меняются. Компании планируют улучшить качество генерации с помощью нового чипа Sohu, который, как утверждается, увеличит производительность в 10 раз. В будущем разработчики видят потенциал технологии в создании виртуальных помощников и обучающих программ в режиме реального времени. technologyreview.com ✔️ ИИ вытесняет фэшн-моделей из индустрии рекламы. Бренд Mango, один из первых внедривших ИИ-моделей в свою рекламу, сообщил о рекордных доходах. Генеральный директор Mango Тони Руис отметил, что использование ИИ позволяет создавать контент быстрее. Компания планирует использовать виртуальных моделей для всех своих коллекций в будущем. Согласно Bloomberg, Nike, Louis Vuitton и Levi Strauss & Co. также рассматривают возможность использования ИИ-аватаров. Стоимость их использования значительно ниже, чем оплата услуг реальной модели: $29 в месяц против $35 в час. nypost.com ✔️ Компания Марка Цукерберга продолжит наполнять свои платформы сгенерированным ИИ контентом. В ходе конференции с инвесторами, Цукерберг рассказал, что компания планирует добавить "совершенно новую категорию контента", которая будет сгенерирована, обобщена или скомпилирована ИИ. Он подчеркнул, что этот подход основан на успехе рекомендательных алгоритмов, которые уже сейчас продвигают в ленты пользователей контент от незнакомых им авторов. По словам Марка, ИИ поможет создавать контент, который сделает ленты пользователей "более интересными и увлекательными". В то же время, его компания признает, что рост времени, проведенного пользователями на платформах, достигается за счет снижения качества контента и уменьшения человеческого взаимодействия. 404media.co ✔️ Использование LLM может ухудшить творческие способности человека. В Университете Торонто исследовали влияние LLM на творческие способности человека. В ходе экспериментов участники выполняли задания на дивергентное и конвергентное мышление, используя GPT-4o для получения идей или структурированного руководства. Результаты показали, что хотя LLM повышают производительность во время использования, в долгосрочной перспективе они снижают способность человека мыслить творчески самостоятельно. Участники, не использовавшие LLM, продемонстрировали лучшие результаты в тестовой фазе, выполняя задания без помощи модели. Кроме того, исследование подтвердило, что использование LLM приводит к гомогенизации идей, то есть снижению их разнообразия. techxplore.com @ai_machinelearning_big_data #news #ai #ml

🌟 InkSight: Преобразование рукописных заметок в цифровой формат с анимацией почерка. InkSight - модель, разработанная в Goog
+3
🌟 InkSight: Преобразование рукописных заметок в цифровой формат с анимацией почерка. InkSight - модель, разработанная в Google Research, для конвертации изображений рукописных заметок в цифровой формат, воспроизводящий процесс написания. Эта технология, "derendering", позволяет преобразовать физический почерк в цифровую форму, сохраняя его индивидуальность и динамику. InkSight в отличие от OCR , выполняет захват рукописного текста в виде набора штрихов, а не просто преобразует его в текст. Процесс преобразования входного изображения с рукописным текстом разбит на три этапа: OCR для извлечения слов, обработка каждого слова по отдельности и замена пиксельного представления слов штрихами. Для обучения модели используются пары изображений текста и соответствующих цифровых штрихов. Штрихи, полученные из траекторий письма в реальном времени, представляются в виде последовательности точек, а соответствующее изображение создается путем рендеринга этих штрихов. Уникальный этап в обучении модели - "ink tokenizer", преобразующий точки в формат, удобный для обработки LLM. Архитектура InkSight вдохновлена моделью Pali и состоит из кодера ViT и кодер-декодера mT5. Были обучены три варианта модели: 🟠Small-i - 340M (ViT B/16 + mT5-base), обучена на датасете JFT-300M; 🟢Small-p - 340М (ViT B/16 + mT5-base), обучена на датасете ImageNet-21k; 🟠Large-i - 1B (ViT L/16 + mT5-large), обучена на датасете JFT-300M. Все модели используют контекст длиной 1024 для инференса и 128 для ввода. Результаты качественной оценки с базовым методом GVS (General Virtual Sketching) показали, что модели InkSight более точно воспроизводят текстовое содержимое, игнорируя нерелевантный фон, и лучше справляются с окклюзиями по сравнению с GVS. Количественная оценка показала, что большинство штрихов, сгенерированных моделью Large-i, сопоставимы по качеству с результатами, полученными вручную. ⚠️ В открытый доступ опубликована модель InkSight small-p в вариантах для запуска на CPU\GPU и TPU, дополнительные материалы, упомянутые в техническом отчете и ноутбук с инфренсом модели на нескольких примерах + пример кода для выполнения инференса. ▶️Локальный запуск клонированием InkSight Demo HF :
# Clone the huggingface space
git clone https://huggingface.co/spaces/Derendering/Model-Output-Playground

# Install the dependencies (skip if you have them already)
pip install gradio gdown

# Run the Gradio Playground
python app.py
📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #InkSight #GoogleResearch

✔️ ORCA Computing представила квантовую систему PT-2. PT-2 - новейшая система фотонных квантовых систем. Она создана на основ
✔️ ORCA Computing представила квантовую систему PT-2. PT-2 - новейшая система фотонных квантовых систем. Она создана на основе PT-1, которая была успешно развёрнута в 7 локальных средах, и предназначена для коммерческих решений, интегрируемых с высокопроизводительными вычислительными инфраструктурами. PT-2 обладает улучшенными квантовыми возможностями машинного обучения, согласованными с платформой разработки NVIDIA CUDA-Q, что позволяет интегрироваться с моделями генеративного ИИ. Эта разработка поможет организациям более эффективно внедрять квантовые вычисления в свои рабочие процессы ИИ. techerati.com ✔️ Google запускает новую функцию поиска в интернете для Gemini API и Google AI Studio. Google представил функцию "Grounding with Google Search" для Gemini API и Google AI Studio, позволяющую разработчикам получать более точные и актуальные ответы от моделей Gemini, опираясь на данные поиска Google. Эта функция уменьшает вероятность галлюцинаций и обеспечивает доступ к информации в режиме реального времени, делая приложения ИИ более релевантными. "Grounding" предоставляет ссылки на источники информации и направляет пользователей к соответствующим результатам поиска. Функция доступна для платных тарифов в Google AI Studio и в API. используя платный уровень. developers.googleblog.com ✔️ Claude теперь доступен в виде десктопного приложения. Anthropic выпустила десктопное приложение Claude для Mac и Windows. Приложение практически не отличается от веб-версии и позволяет задавать вопросы, просматривать предыдущие чаты и избранные беседы. Преимуществом является более удобный доступ к Claude прямо с рабочего стола, без необходимости открывать веб-сайт. Функция “computer use”, позволяющая Claude 3.5 Sonnet управлять компьютером, пока недоступна в приложении. Anthropic также добавила поддержку диктовки в мобильные приложения Claude для Android и iOS. theverge.com ✔️ Nvidia потребуется одобрение ЕС для покупки стартапа Run:ai. Производителю чипов потребуется получить одобрение антимонопольных органов ЕС для приобретения стартапа в области ИИ Run:ai, поскольку сделка может угрожать конкуренции на рынках, где работают обе компании. Nvidia объявила о покупке израильской компании Run:ai в апреле, сумма сделки составит около 700 миллионов долларов. Хотя сделка не достигает порога оборота ЕС, требующего запроса одобрения, она была направлена в итальянское антимонопольное ведомство, которое, в свою очередь, обратилось в Еврокомиссию. Технология Run:ai позволяет разработчикам управлять и оптимизировать свою инфраструктуру ИИ. reuters.com ✔️ Международная группа ученых разрабатывает методы мониторинга безопасности аккумуляторов с помощью ML. Учёные из Технического университета Дармштадта (Германия) и MIT (США) разработали новые методы анализа безопасности литий-ионных аккумуляторов, используемых в электромобилях и системах хранения энергии. Метод, сочетающий физические техники с машинным обучением, позволяет обнаруживать зависящие от времени и эксплуатационные изменения в аккумуляторных элементах. Для исследования учёные использовали уникальный набор данных, предоставленный анонимным партнёром: данные 28 аккумуляторных систем, возвращённых производителю из-за проблем. Набор данных включает более 133 миллионов строк данных из 224 аккумуляторных элементов и является одним из первых подобных, ставших общедоступными. Результаты исследований подтверждают, что часто только одна ячейка в аккумуляторной системе демонстрирует аномальное поведение, которое может повлиять на всю систему. batteriesnews.com @ai_machinelearning_big_data #news #ai #ml

🌟 OmniParser: инструмент для распознавания UI в структурированный формат от Microsoft. OmniParser - инструмент для анализа с
+3
🌟 OmniParser: инструмент для распознавания UI в структурированный формат от Microsoft. OmniParser - инструмент для анализа скриншотов пользовательского интерфейса, разработанный для улучшения работы агентов UI на основе LLM. Он преобразует скриншоты в структурированный формат, выделяя интерактивные области и описывая функции элементов(кнопки, иконки, значки и т.д) и не требует исходного HTML или иерархии представлений. OmniParser состоит из двух моделей: 🟢Модель обнаружения интерактивных элементов, основанная на YOLOv8 и обученная на датасете из 67 тысяч скриншотов веб-страниц с аннотациями кликабельных областей. 🟢Модель описания функций элементов UI, основанная на BLIP-2, обученная на 7 тысячах пар "элемент-описание", созданных с помощью GPT-4o. OmniParser был протестирован в бенчмарках ScreenSpot, Mind2Web и AITW, где превзошел агентов на основе GPT-4V и модели, обученные на данных графических интерфейсов (SeeClick, CogAgent и Fuyu). ⚠️ OmniParser может испытывать трудности с распознаванием повторяющихся элементов, текста и с определением точных границ кликабельных областей. На сегодняшний день занимает первое место в трендах среди 1078 938 моделей. ▶️Локальная установка и запуск в Gradio UI : # Create conda env conda create -n "omni" python==3.12 conda activate omni # Install requirement pip install -r requirement.txt # Run Gradio UI python gradio_demo.py 📌Лицензирование: MIT License. 🟡Страница проекта 🟡Набор моделей 🟡Arxiv 🖥Github @ai_machinelearning_big_data #AI #ML #Microsoft #YOLO8 #BLIP #OmniParser

Яндекс объявил победителей премии Yandex ML Prize В этом году награды за выдающиеся достижения в машинном обучении получили 14 учёных. Премия поддерживает исследователей и преподавателей в области ИИ и мотивирует их продолжать научную деятельность. Среди лауреатов: 🟢 Артём Лыков, аспирант Сколтеха. Он и его команда первая в мире создала универсальную когнитивную систему для роботов и представила робота-собаку, который понимает человеческую речь. Это может стать основой для «роя умных роботов», способных автономно выполнять задачи в строительстве, геологоразведке и астрофизике. 🟢 Алексей Скрынник, старший научный сотрудник в AIRI. Он разработал алгоритмы для роботов и техники, которые смогут выполнять задачи, даже при отключении связи. Это может изменить подход к логистике и повысить эффективность автономных систем. 🟢 Александр Коротин, руководитель группы по генеративному ИИ в Центре прикладного ИИ Сколтеха. Он разрабатывает методы генеративного обучения на основе теории оптимального транспорта, что поможет в проектировании самолётов, кораблей и разработке лекарств. Помимо премии, лауреаты получат доступ к сервисам Яндекса 360 и грант на использование Yandex Cloud для выполнения объёмных вычислений и обработки данных. @ai_machinelearning_big_data #AI #ML #YandexMLPrize

⚡️ MobileLLM: набор SLM от Facebookresearch. MobileLLM — семейство авторегрессионных языковых моделей на оптимизированной арх
+5
⚡️ MobileLLM: набор SLM от Facebookresearch. MobileLLM — семейство авторегрессионных языковых моделей на оптимизированной архитектуре трансформера для использования на устройствах с ограниченными ресурсами. В создании MobileLLM были использованы: функция активации SwiGLU, шэринг эмбединга и grouped-query attention. Модели обучались на датасете в 1 трлн. токенов MobileLLM-125M/350M более точны на 2,7%/4,3% по сравнению с другими моделями SoTA 125M/350M в задачах zero-shot рассуждений. В открытый доступ опубликованы 4 модели c контекстом 2 тыс. токенов: 🟢MobileLLM-125M. 30 Layers, 9 Attention Heads, 3 KV Heads. 576 Token Dimension; 🟢MobileLLM-350M. 32 Layers, 15 Attention Heads, 5 KV Heads. 960 Token Dimension; 🟢MobileLLM-600M. 40 Layers, 18 Attention Heads, 6 KV Heads. 1152 Token Dimension; 🟢MobileLLM-1B. 54 Layers, 20 Attention Heads, 5 KV Heads. 1280 Token Dimension; ▶️ Инференс моделей возможен на HF Transformers или с использованием MobileLLM от facebookresearch. ▶️ Код для файнтюна и тренировки семейства MobileLLM доступен в репозитории MobileLLM. 📌Лицензирование: CC-BY-NC-4.0 License. 🟡Коллекция моделей на HF 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #SLM #MobileLLM