Анализ данных (Data analysis)

50 223

🔥 Google только что выпустила новые языковые модели PaliGemma 2 - 3B, 10B и 28B Vision! > 9 предварительно обученных моделей: 3B, 10B и 28B с разрешением 224x224, 448x448 и 896x896 > ВI 2 модели Image-text поддерживающие формат 3B и 10B (448x448) https://huggingface.co/collections/google/paligemma-2-release-67500e1e1dbfdd4dee27ba48

50 223

📖 Эта статья представляет новую архитектуру под названием Mixture-of-Transformers (MoT), ориентированную на работу с мультимодальными моделями! 🌟 Такие модели способны обрабатывать текст, изображения и аудио в единой системе. MoT решает проблемы масштабирования, связанные с обучением больших языковых моделей (LLM), предлагая более экономичный подход, уменьшающий вычислительные затраты на этапе предварительного обучения. 🌟 Основное новшество MoT заключается в раздельной обработке параметров для каждого типа данных (текста, изображений, звука), что позволяет сократить использование ресурсов без потери качества. Например, в задачах генерации текста и изображений MoT достигает производительности стандартных моделей при использовании лишь 55,8% их вычислительных операций. Кроме того, модель демонстрирует улучшенные показатели в задачах, где необходимо объединение нескольких модальностей, при меньших временных и вычислительных затратах 🔗 Ссылка: *клик* @data_analysis_ml

50 223

Repost from Machinelearning

+1

🌟 LLaMA-O1: модели ризонинга на базе Llama-3.1-8B-Instruct. Набор моделей ризонинга от SimpleBerry Research Lab на Hugging face, полученные с использованием методик: 🟢LlaMA-Berry - попарная оптимизация для решения математических задач олимпиадного уровня с помощью поиска Монте-Карло; 🟢Critic-V - методика подключения внешней модели-критика; 🟢MCTSr - метод интеграции LLM с алгоритмом поиска по дереву Монте-Карло для повышения точности решения математических задач. ▶️ LLaMA-O1-Base-1127 - базовая модель ризонинга, файнтюн Llama-3.1-8B-Instruct на датасете longcot_pt. Квантованные версии в формате GGUF. ▶️ LLaMA-O1-Supervised-1129 - файнтюн базовой модели LLaMA-O1-Base-1127 на датасете OpenLongCoT-SFT с использованием комбинаций методов Critic-V и MCTSr. Квантованные версии в формате GGUF. ⚠️ Тестов и бенчмарков официально не предоставлено, демо модели LLaMA-O1-Supervised-1129 можно попробовать в этом HF Space 🟡Набор моделей и датасетов 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #Resoning #LlaMA_O1

50 223

⚡️ DeepThought-8B: новая модель рассуждений построенная на LLaMA-3.1 с масштабированием вычислений. Внутри: - Структурированные в формате JSON цепочки рассуждений и управляемые пути вывода. - ~16 ГБ видеопамяти, конкурентоспособные модели объемом 70B. - Открытые веса моделей https://huggingface.co/ruliad/deepthought-8b-llama-v0.01-alpha

50 223

🗣 Fish Speech v1.5 - многоязычная модель преобразования текста в речь и клонирования голоса с низкой задержкой 🔥 > Всего 500 миллионов параметров > Обучена на 1 миллионе часов аудио > Поддерживает 13 языков > Низкая задержка (<150 мс) > Открытая модель 🤗 > Лучшая часть: занимает 2-е место на TTS Arena (предварительные результаты) https://huggingface.co/fishaudio/fish-speech-1.5

50 223

🔍 Helicone — инструмент для интеграции и управления запросами к крупным языковым моделям (LLM), таким как OpenAI API! 🌟 Он предоставляет инструменты для анализа и мониторинга использования LLM в приложениях. Helicone собирает метрики, отслеживает затраты на запросы и позволяет разработчикам оптимизировать работу с языковыми моделями. 🌟 Кроме аналитики, Helicone поддерживает такие функции, как отслеживание запросов в реальном времени, настройка логирования, а также интеграция с базами данных и инструментами визуализации данных. Это делает его полезным инструментом для разработчиков, активно использующих генеративный ИИ в своих проектах, например, в чат-ботах или системах рекомендаций. 🔐 Лицензия: Apache-2.0 🖥 Github @data_analysis_ml

50 223

EuroLLM-9B: Мощная многоязычная модель для европейских языков! 🌍🤖 Основные характеристики: 🌐 Поддержка 35 языков: охватывает все 24 официальных языка ЕС 🏆 Высочайшая производительность: конкурирует с Gemma и Mistral ✅ 4 триллиона токенов: Обучение с использованием высококачественных многоязычных данных. ✅ Открытый исходный код: Доступен на Hugging Face! https://huggingface.co/utter-project/EuroLLM-9B

50 223

Repost from Machinelearning

+4

🌟 HDR-GS: скоростной синтез HDR-изображений с помощью гауссовой spline-интерполяции. HDR-GS — это метод рендеринга, который использует гауссову сплайн-интерполяцию для создания изображений с расширенным динамическим диапазоном и изображений со стандартным динамическим диапазоном (LDR) с заданным временем экспозиции. HDR-GS превосходит NeRF на 1,91 и 3,84 дБ при рендеринге HDR- и LDR-видов, при этом обеспечивает 1000-кратное увеличение скорости инференса и требует всего 6,3% от времени обучения, которое требуется методу HDR-NeRF. Пайплайн HDR-GS состоит из модели точечного облака DDR, которая использует сферические гармоники для HDR-цвета и 3 MLP для тональной компрессии, параллельной растеризации рендеринга HDR- и LDR-цветов и алгоритма Structure-from-Motion (SfM), который инициирует гауссово облако точек. Тестирование HDR-GS проводилось на датасетах с 4 реальными сценами и 8 синтетическими, созданными в Blender. По результатам тестирования, HDR-GS значительно превзошел NeRF, NeRF-W, HDR-NeRF и 3DGS как по качеству, так и по эффективности. ⚠️ Рекомендаций по требованиям к GPU в репозитории проекта нет, тесты проводились на 1 GPU A5000. ▶️ Установка и тестовый инференс с предобученными весами сета bathroom:

# Clone repo:
git clone https://github.com/caiyuanhao1998/HDR-GS --recursive

# Windows only
SET DISTUTILS_USE_SDK=1

# install environment of 3DGS
cd HDR-GS
conda env create --file environment.yml
conda activate hdr_gs

# Synthetic scenes
python3 train_synthetic.py --config config/bathroom.yaml --eval --gpu_id 0 --syn --load_path output/mlp/bathroom/exp-time/point_cloud/interation_x  --test_only

📌Лицензирование: MIT License. 🟡Arxiv 🟡Датасет и веса 🖥GitHub @ai_machinelearning_big_data #AI #ML #HDR-GS #Gaussian

50 223

Repost from Machinelearning

+4

🌟 HDR-GS: скоростной синтез HDR-изображений с помощью гауссовой spline-интерполяции. HDR-GS — это метод рендеринга, который использует гауссову сплайн-интерполяцию для создания изображений с расширенным динамическим диапазоном и изображений со стандартным динамическим диапазоном (LDR) с заданным временем экспозиции. HDR-GS превосходит NeRF на 1,91 и 3,84 дБ при рендеринге HDR- и LDR-видов, при этом обеспечивает 1000-кратное увеличение скорости инференса и требует всего 6,3% от времени обучения, которое требуется методу HDR-NeRF. Пайплайн HDR-GS состоит из модели точечного облака DDR, которая использует сферические гармоники для HDR-цвета и 3 MLP для тональной компрессии, параллельной растеризации рендеринга HDR- и LDR-цветов и алгоритма Structure-from-Motion (SfM), который инициирует гауссово облако точек. Тестирование HDR-GS проводилось на датасетах с 4 реальными сценами и 8 синтетическими, созданными в Blender. По результатам тестирования, HDR-GS значительно превзошел NeRF, NeRF-W, HDR-NeRF и 3DGS как по качеству, так и по эффективности. ⚠️ Рекомендаций по требованиям к GPU в репозитории проекта нет, тесты проводились на 1 GPU A5000. ▶️ Установка и тестовый инференс с предобученными весами сета bathroom:

# Clone repo:
git clone https://github.com/caiyuanhao1998/HDR-GS --recursive

# Windows only
SET DISTUTILS_USE_SDK=1

# install environment of 3DGS
cd HDR-GS
conda env create --file environment.yml
conda activate hdr_gs

# Synthetic scenes
python3 train_synthetic.py --config config/bathroom.yaml --eval --gpu_id 0 --syn --load_path output/mlp/bathroom/exp-time/point_cloud/interation_x  --test_only

📌Лицензирование: MIT License. 🟡Arxiv 🟡Датасет и веса 🖥GitHub @ai_machinelearning_big_data #AI #ML #HDR-GS #Gaussian

50 223

🔥 AI Video Composer — полезный бесплатный инструмент, который позволяет создавать видео из ваших фотографий и аудиофайлов с помощью текстового запроса! 🔗 HuggingFace: *клик* @data_analysis_ml

50 223

⚡️ LLaMA-O1 🦙 Новый член семейства моделей O1 Команда выпустила: базовую и тюненную модель; наборы данных для работы и точной настройки и демонстрацию 🔥 https://huggingface.co/collections/qq8933/llama-o1-1129-datasets-models-codes-and-papers-674d4083d393cca8324d7b61 @data_analysis_ml

50 223

ConsisID может генерировать видео, используя входное изображение и текстовый промыт! 🤩 🚀 Apache 2.0 Лицензия. 🔗 Hf: https://huggingface.co/spaces/BestWishYsh/ConsisID-preview-Space 🔗 Github: github.com/PKU-YuanGroup/ConsisID 🔗 Demo: https://huggingface.co/spaces/BestWishYsh/ConsisID-preview-Space @data_analysis_ml

50 223

🗣 GaussianSpeech: Гауссовские аватары, управляемые звуком «По входному аудио GaussianSpeech может синтезировать фотореалистичные 3D-согласованные говорящие аватары человеческой головы. Метод позволяет генерировать реалистичные и высококачественные анимации, включая внутреннюю часть рта: зубы, морщины и блики в глазах» 🔗Статья: https://arxiv.org/abs/2411.18675 🔗Проект: https://shivangi-aneja.github.io/projects/gaussianspeech/ @data_analysis_ml

50 223

🔥 MagicDriveDiT — отличная модель, которая может генерировать видеоролики уличных сцен в высоком разрешении для обучения беспилотных автомобилей! 🔗 Страница проекта: *клик* 🖥 Исходный код на Github (скоро) @data_analysis_ml

50 223

🔍 Полезный инструмент, который преобразовывает ваши jpg фото в высококачественные svg изображения! 🔗 Ссылка: *клик* @machinelearning_ru

50 223

📕 Свежий интерактивный учебник по работе с Ollama с использованием Qwen 2.5 14B! 3 главы готовы и еще больше на подходе 🔥 Учение был вдохновлен урокам от Anthropic. 📌 Github @data_analysis_ml

50 223

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь: МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data C++ t.me/cpluspluc Python: t.me/pythonl Linux: t.me/linuxacademiya Хакинг: t.me/linuxkalii Devops: t.me/DevOPSitsec АНАЛИЗ Данных: t.me/data_analysis_ml Javascript: t.me/javascriptv C#: t.me/csharp_ci Java: t.me/javatg Базы данных: t.me/sqlhub Python собеседования: t.me/python_job_interview Мобильная разработка: t.me/mobdevelop Docker: t.me/DevopsDocker Golang: t.me/golang_interview React: t.me/react_tg Rust: t.me/rust_code ИИ: t.me/vistehno PHP: t.me/phpshka Android: t.me/android_its Frontend: t.me/front Big Data: t.me/bigdatai Собеседования МЛ: t.me/machinelearning_interview МАТЕМАТИКА: t.me/data_math Kubernets: t.me/kubernetc Разработка игр: https://t.me/gamedev 💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy 😆ИТ-Мемы: t.me/memes_prog 🇬🇧Английский: t.me/english_forprogrammers 🧠ИИ: t.me/vistehno 🎓954ГБ ОПЕНСОРС КУРСОВ: @courses 📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy

50 223

🔥 С помощью ComfyUI + Jupyter Notebook теперь можно копировать стиль от рисунка к рисунку 🍇runpod: https://github.com/camenduru/sdxl-line-art-style-transfer-tost 🍊запускаем jupyter с помощью http://modelslab: https://github.com/camenduru/sdxl-line-art-style-transfer-jupyter 🍊 workflow: https://github.com/camenduru/sdxl-line-art-style-transfer-tost/blob/main/sdxl-line-art-style-transfer.json @data_analysis_ml

50 223

📖 Эта статья представляет новую архитектуру под названием Mixture-of-Transformers (MoT), ориентированную на работу с мультимодальными моделями! 🌟 Такие модели способны обрабатывать текст, изображения и аудио в единой системе. MoT решает проблемы масштабирования, связанные с обучением больших языковых моделей (LLM), предлагая более экономичный подход, уменьшающий вычислительные затраты на этапе предварительного обучения. 🌟 Основное новшество MoT заключается в раздельной обработке параметров для каждого типа данных (текста, изображений, звука), что позволяет сократить использование ресурсов без потери качества. Например, в задачах генерации текста и изображений MoT достигает производительности стандартных моделей при использовании лишь 55,8% их вычислительных операций. Кроме того, модель демонстрирует улучшенные показатели в задачах, где необходимо объединение нескольких модальностей, при меньших временных и вычислительных затратах 🔗 Ссылка: *клик* @data_analysis_ml

50 223

Repost from Machinelearning

+1

🌟 Wavehax: нейросетевой вокодер без эффекта наложения частот. Wavehax - нейросетевой вокодер, который синтезирует аудиосигналы без искажений, вызванных наложением частот. Эта проблема часто возникает в моделях, работающих во временной области, где нелинейные операции и слои повышения дискретизации могут привести к наложению высокочастотных компонентов на низкочастотный диапазон. Wavehax работает в частотно-временной области, оценивая комплексные спектрограммы и преобразуя их во временные сигналы с помощью кратковременного преобразования Фурье (STFT). Использование STFT позволяет получать более высокое качество синтезированной речи, особенно при экстраполяции на высокие значения основной частоты (F0). Архитектура Wavehax построена на 2D CNN и специальном гармоническом априоре. Априор представляет собой комплексную спектрограмму, полученную из гармонического сигнала, который помогает модели генерировать высококачественные и согласованные по фазе гармонические компоненты. В экспериментах, проведённых на корпусе японской речи JVS, Wavehax продемонстрировал качество речи, сравнимое с HiFi-GAN V1, при этом значительно сократив количество операций умножения-накопления и параметров модели. Wavehax работает в 4 раза быстрее HiFi-GAN V1 на CPU и устойчив к экстраполяции на высокие значения F0, где эффект наложения частот становится особенно заметным. ▶️ Пример трейна и инференса с датасетом JVS:

# Set up the env
cd wavehax
pip install -e .

# Extract F0 and mel-spectrogram.
wavehax-extract-features audio=data/scp/jvs_all.scp

# Compute statistics of the training data
wavehax-compute-statistics feats=data/scp/train_no_dev.list stats=data/stats/train_no_dev.joblib

# Train the vocoder model
wavehax-train generator=wavehax discriminator=univnet train=wavehax train.train_max_steps=500000 data=jvs out_dir=exp/wavehax

# Inference via generate speech waveforms
wavehax-decode generator=wavehax data=jvs out_dir=exp/wavehax ckpt_steps=500000

🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #Vocoder #Wavehax

📈 نظرة تحليلية على قناة تيليجرام Анализ данных (Data analysis)

📊 مؤشرات الجمهور والحراك

📝 الوصف وسياسة المحتوى