en
Feedback
Generative Ai

Generative Ai

Open in Telegram

Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT По рекламе писать @miralinka, Created by @life2film

Show more
3 675
Subscribers
+424 hours
+827 days
+9130 days
Posts Archive
Repost from Life2film
Тизер сериала Azaliia)) Новые эксперимент. Тут намеренно использованы только open source решения на своем сервере, чтобы протестировать возможности. Картинки и история сделаны в супер-дупер. В остальном анимация через COG и генерация озвучки Stable audio. С озвучкой еще разбираюсь.

Repost from Machinelearning
🌟 Open-Sora-Plan v1.3.0: воссоздание сервиса генерации text-to-video Sora средствами opensource. Проект Open-Sora-Plan предл
+4
🌟 Open-Sora-Plan v1.3.0: воссоздание сервиса генерации text-to-video Sora средствами opensource. Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний. ▶️ Ключевые особенности версии 1.3.0: 🟢Улучшенный вариационный автоэнкодер WF-VAE Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях. 🟢Skiparse (Skip-Sparse) Attention Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой. 🟢Новая стратегия очистки данных Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров. Стратегия позволила сократить датасет Panda70m до 27% от исходного. 🟢Динамическое разрешение и длительность. Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения. ⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM. ▶️ Подробные инструкции по установке, обучению и инференсу в режимах CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта. 📌Лицензирование: MIT License. 🟡Модель 🟡Сообщество в Discord 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI #ML #OpenSora #Text2Video #Image2Video

Repost from Denis Sexy IT 🤖
Вышел мини-апп agent.exe, который все еще не просто ставится, но который позволяет управлять агенту не виртуальной машиной, а обычной — своей Вышло забавно, я его запустил и ввел на русском «Найди дешевые билеты в Париж» — модель, видимо, из-за тренировки и языка на котором пришел запрос — сама пошла в Авиасейлс и ввела там место отправки Москва (опять же, модель додумала из-за языка) Наглядный байас модели на ровном месте и в очередной раз респект СММ-щикам Авиасейлс, которые себя не только в интернете завирусили, но и датасеты Anthropic забили ассоциацией слова «авиабилеты» на русском = Авиасейлс Редко кто так громко интернет засоряет 😮 P.S. Не ускоряю, чтобы вы скорость видели P.P.S. Если пропустили, вот тут про то что это такое: https://t.me/denissexy/8867

Stable Diffusion 3.5 поддерживается уже в ComfyUI ! Модели: * Stable Diffusion 3.5 Large: 8 миллиардов параметров, высокое качество изображений, точное следование prompts, 1 мегапиксель. * Stable Diffusion 3.5 Large Turbo: Ускоренная версия, генерирует изображения за 4 шага. * Stable Diffusion 3.5 Medium (выпуск 29 октября): 2.6 миллиарда параметров, оптимизирована для потребительского железа, разрешение 0.25–2 мегапикселя. https://blog.comfy.org/sd3-5-comfyui/ https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/tree/main

https://stability.ai/news/introducing-stable-diffusion-3-5 Stability AI выпустила Stable Diffusion 3.5 !!! Включая Large и Turbo версии, которые работают на потребительском железе. Модель использует 8 миллиардов параметров для генерации высококачественных изображений с отличным соблюдением prompts и поддерживается на GitHub и Hugging Face. Важные новшества включают Query-Key Normalization для улучшенной кастомизации, но стоит отметить, что увеличение разнообразия может вызвать вариации при разных seeds. Модель доступна бесплатно для коммерческого использования до $1M дохода в год под Community License.

Introducing Mochi 1 preview. A new SOTA in open-source video generation. Apache 2.0. Genmo выпустила Mochi 1 — первую open-source модель для генерации видео с текстовых prompts, построенную на архитектуре AsymmDiT с 10 миллиардами параметров. В отличие от закрытых конкурентов, Mochi 1 доступна бесплатно под лицензией Apache 2.0 и фокусируется на улучшении качества движения и точности исполнения запросов. Модель использует video VAE для эффективной компрессии данных, что снижает требования к памяти. Ограничение текущей версии — поддержка только 480p, но скоро ожидается HD-обновление. https://github.com/genmoai/models https://www.genmo.ai/

Install, Run & Control Terminal apps on Your Computer with 1 Click. https://pinokio.computer/
Install, Run & Control Terminal apps on Your Computer with 1 Click. https://pinokio.computer/

TANGO - Генерация full-body говорящих видео на основе аудио и образца видео https://huggingface.co/spaces/H-Liu1997/TANGO
TANGO - Генерация full-body говорящих видео на основе аудио и образца видео https://huggingface.co/spaces/H-Liu1997/TANGO

Repost from эйай ньюз
Turbo Alignment - файнтюны LLM для народа Для создания продуктов на основе LLM готовые API часто не подходят. Причин для этого может быть море - как приватность, так и качество генерации. Маленькие затюненные модели часто обгоняют даже SOTA LLM по качеству, но непрофильные команды часто не могут затюнить модельки из-за отсутствия необходимой экспертизы. И хорошо если есть уже готовый пайплайн для каждого этапа работы над LLM в продуктах: SFT, preference tuning, инференс, анализ полученных моделей и др. Я как раз заметил, что сегодня Т-Банк зарелизил либу Turbo Alignment - это библиотека специально для файнтюна уже готовых моделек с полезными фичами: ➖ Поддержка SFT, DPO, CPO, IPO, KTO и других оффлайн-методов алаймента ➖ Готовые end-to-end пайплайны для тюнинга без написания кода ➖ Multi-GPU и Multi-Node тренировка ➖ Обучение и инференс мультимодальных моделей и RAG ➖ Широкий набор метрик для анализа методов алаймента: Self-BLEU, KL-divergence, diversity и др. Либа была создана с участием ребят из лаборатории T-Bank AI Research. Говорят, что с такой либой проверять продуктовые и исследовательские гипотезы получится намного быстрее, потому что разработчики библиотеки этот путь прошли на своем опыте уже немало раз. В будущем её ещё будут улучшать - обещают имплементацию RL методов. https://github.com/turbo-llm/turbo-alignment @ai_newz

Repost from Machinelearning
🌟 Llama-3.1-Nemotron-70B: набор файнтюн-моделей и датасет HelpSteer2 от NVIDIA. NVIDIA опубликовала на HuggingFace 4 версии
🌟 Llama-3.1-Nemotron-70B: набор файнтюн-моделей и датасет HelpSteer2 от NVIDIA. NVIDIA опубликовала на HuggingFace 4 версии Llama-3.1-Nemotron-70B: ▶️ Llama-3.1-Nemotron-70B-Instruct Модель получила улучшение в задачах ответа на вопросы и выполнение пользовательских инструкций. Обучение проводилось с использованием RLHF (REINFORCE) на основе Llama-3.1-Nemotron-70B-Reward и датасета HelpSteer2-Preference. Nemotron-70B-Instruct достигла высоких результатов в тестах Arena Hard (85.0), AlpacaEval 2 LC (57.6) и GPT-4-Turbo MT-Bench (8.98), и обошла GPT-4o и Claude 3.5 Sonnet. 🟠Llama-3.1-Nemotron-70B-Instruct-HF Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения. Квантованные версии Llama-3.1-Nemotron-70B-Instruct-HF в формате GGUF с разрядностями от 1-bit (16.75 Gb) до 8-bit (74.98 Gb). ▶️ Llama-3.1-Nemotron-70B-Reward Модель с функционалом чата, рассуждений и специальными навыками для оценки качества ответов других LLM. Она использует английский язык и способна оценивать ответы длиной до 4096 токенов, присваивая им баллы, отражающие их качество. Основана на Llama-3.1-70B-Instruct Base и использует комбинацию методов Bradley Terry и SteerLM Regression Reward Modelling. Nemotron-70B-Reward занимает первое место в RewardBench. 🟠Llama-3.1-Nemotron-70B-Reward-HF Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения. Квантованная версия Llama-3.1-Nemotron-70B-Reward-HF в формате MLX (40 Gb). Вместе с моделями опубликован датасет HelpSteer2 - набор данных на английском языке, предназначенный для обучения reward-моделей, которые используются для повышения полезности, фактической точности и связности ответов других LLM. HelpSteer2 содержит 21 362 строки, каждая из которых включает в себя запрос, ответ и пять аннотированных человеком атрибутов ответа: полезность, правильность, связность, сложность и многословность. ⚠️ Представленные модели требуют систему с как минимум 4 GPU NVIDIA (40 Gb) или 2 GPU (80 Gb) и 150 Gb свободного места на диске. ⚠️ Для локального развертывания Llama-3.1-Nemotron-70B без поддержки Transformers рекомендуется использовать NVIDIA NeMo Framework и TRT-LLM. 📌Лицензирование моделей: Llama 3.1 Community License. 📌Лицензирование датасета : CC-BY-4.0 🟡Коллекция моделей на HF 🟡Arxiv 🟡Датасет 🟡Demo @ai_machinelearning_big_data #AI #ML #LLM #Nemotron #NVIDIA

💡 F5-TTS: Прорыв в синтезе речи OpenSource! Эта модель использует мощь Flow Matching и Diffusion Transformer (DiT), чтобы создавать плавную и выразительную речь с высокой точностью. 🚀 Что особенного в F5-TTS? * Без сложных механизмов: убирает необходимость в моделях длительности и фоностатической синхронизации. * Инновационная стратегия Sway Sampling для повышения скорости и точности генерации. * Мультиязычная поддержка с естественным код-свитчингом. * Улучшенная производительность: время вывода 0.15 RTF, что быстрее, чем большинство моделей на основе диффузии. 🎯 Ключевые возможности: * Высокая естественность и выразительность синтезированной речи. * Возможность нулевого обучения для новых языков. * Открытый код. https://swivid.github.io/F5-TTS/

📃 Open Canvas Open Canvas — это веб-приложение с открытым исходным кодом для совместной работы с агентами над созданием документов. Проект вдохновлен OpenAI Canvas, но имеет свои отличия: 📂 Открытый код: Весь код приложения доступен по лицензии MIT, включая фронтенд, агенты генерации контента и рефлексии. 🧠 Память: Open Canvas использует встроенного агента рефлексии, который запоминает правила стиля и инсайты пользователя, чтобы сохранять информацию между сессиями. ✒️ Работа с существующими документами: Начните работу с пустого текста или редактора кода на выбранном вами языке, либо используйте уже имеющийся контент для дальнейшего редактирования. https://github.com/langchain-ai/open-canvas

Repost from Machinelearning
⚡️ OpenAI Swarm: Экспериментальный фреймворк для оркестрации мультиагентных систем. Swarm - это экспериментальный фреймворк,
⚡️ OpenAI Swarm: Экспериментальный фреймворк для оркестрации мультиагентных систем. Swarm - это экспериментальный фреймворк, разработанный командой OpenAI Solutions, для создания, оркестрации и развертывания многоагентных систем. Фреймворк фокусируется на упрощении координации, запуска, контроля и тестирования агентов. Основная цель Swarm - продемонстрировать паттерны, описанные в Orchestrating Agents: Handoffs & Routines cookbook. Фреймворк построен на двух основных абстракциях: агентах (Agent) и передачах управления (handoffs): Агент - это набор инструкций и функций, который может передавать выполнение другим агентам. Его можно использовать для описания конкретного рабочего процесса или шага (например, последовательность шагов, сложный поиск, одноэтапное преобразование данных и так далее). Передача управления — это процесс, при котором агент может передать запрос другому агенту, возвращая его в функцию. В процессе передачи управления также происходит обновление переменных контекста, что позволяет вернуть более полный объект Result. ▶️В репозитории собраны функциональные примеры Swarm: 🟢basic - простые примеры настройки, вызова функций, передача данных и контекстные переменные; 🟢traige agent - пример роя с агентом сортировки, который принимает пользовательские данные и решает, ответить ли на запрос напрямую или передать его агенту по продажам или возврату денег; 🟢weather agent - погодный агент с вызовом функций (запрос по городу и отправка на e-mail); 🟢airlines - мультиагентный пример обработки клиентских запросов в контексте авиакомпании (сортировка запросов, изменения рейсов, отмены бронирований и случаи потери багажа); 🟢support_bot - клиентский бот центра поддержки с несколькими инструментами; 🟢personal shopper - пример роя агентов персонального торгового агента, который может помогать совершать покупки и возвращать заказы; ⚠️ Swarm не использует API Assistants и полностью работает на API Chat Completions. ⚠️ Swarm не предназначен для промышленного использования и не имеет официальной поддержки. ▶️ Локальная установка и запуск:
# Install from PIP
pip install git+https://github.com/openai/swarm.git

# Usage
from swarm import Swarm, Agent
client = Swarm()

def transfer_to_agent_b():
    return agent_b

agent_a = Agent(
    name="Agent A",
    instructions="You are a helpful agent.",
    functions=[transfer_to_agent_b],
)

agent_b = Agent(
    name="Agent B",
    instructions="Only speak in Haikus.",
)

response = client.run(
    agent=agent_a,
    messages=[{"role": "user", "content": "I want to talk to agent B."}],
)

print(response.messages[-1]["content"])
📌Лицензирование : MIT License. 🖥GitHub 🟡Orchestrating Agents Cookbook @ai_machinelearning_big_data #AI #ML #Agents #OpenAI #Swarm

Появилась первая качественная text2video модель с открытым исходным кодом по лицензии MIT - Pyramid Flow SD3. Это диффузионный трансформер с 2 миллиардами параметров, способный создавать 10-секундные видео с разрешением 768p и частотой 24 кадра в секунду. Основные моменты: Генерация 10-секундных видео с разрешением 768p и 24 кадрами в секунду. Единая модель с 2 миллиардами параметров. Поддержка как текст-видео, так и изображение-видео. Эффективная тренировка с использованием Flow Matching. Две версии модели: 384p (5 секунд) и 768p (10 секунд). Примеры видео доступны на странице проекта. Простая двухшаговая реализация. Лицензия MIT, доступно на Hugging Face. Обучение проводилось только на открытых данных. Код для обучения будет опубликован в ближайшее время. https://huggingface.co/rain1011/pyramid-flow-sd3 https://github.com/jy0205/Pyramid-Flow https://pyramid-flow.github.io/

Repost from e/acc
Начался OpenAI DevDay. Уже презентовали prompt caching (50% от цены если вы используете тот же промт для вашего приложения), обновления в API, fine-tuning для 4o моделей (в том числе видео файнтьюн, так что вы теперь можете построить самоуправляемый велосипед на основе GPT). Самое интересное демо пока что — Realtime API. Фактически это возможность в реальном времени, но задержки, общаться с моделью голосом. На видео несколько впечатляющих демо. Это будет доступно всем разработчикам по цене базовой модели. Добавили нативную дистилляцию моделей: вы можете сделать более маленькую, дешевую специализированную модель под себя. Так же OpenAI запустил свой продукт для эвалов (наконец-то!), так что теперь оценивать качество вашего приложения можно будет не по методу пол-палец-потолок, а по уму.

🎬 Транскрипция, перевод и субтитры для видео. Subtitler — инструмент, который автоматически сделает транскрипцию вашего виде
🎬 Транскрипция, перевод и субтитры для видео. Subtitler — инструмент, который автоматически сделает транскрипцию вашего видео, переведет его на нужный язык и наложит готовые субтитры. Работает бесплатно и без регистрации. • Попробовать • Github #neural #нейросети @aiaiai

Repost from Denis Sexy IT 🤖
Принес классную ссылку тем кто хотел бы начать разбираться в «агентах» с LLM – агентами называют мини-ботов которые делают какую-то задачу и обладают некой степенью свободы: https://github.com/NirDiamant/GenAI_Agents Внутри примеры на все случаи жизни: автоматизация саппорта, чатботы, автоматический поиск в интернете и тп., у всех примеров открыт исходный код Агента Смита пожалуйста не делайте, спасибо

Новая версия CogVideoX-5b-I2V для генерации image2video https://huggingface.co/THUDM/CogVideoX-5b-I2V Ее подддержка уже добав
Новая версия CogVideoX-5b-I2V для генерации image2video https://huggingface.co/THUDM/CogVideoX-5b-I2V Ее подддержка уже добавлена в ComfyUI https://github.com/kijai/ComfyUI-CogVideoXWrapper

🖼 Расширяем изображение. Diffusers Image Outpaint — инструмент, который дорисует недостающие области изображения, расширив его по вертикали или по горизонтали. Загружаем картинку, выбираем нужное соотношение сторон и жмем Generate. • Попробовать #neural #нейросеть @aiaiai

Repost from Machinelearning
🌟 Продвинутые техники RAG: Репозиторий Github c самой полной и актуальной подборкой ресурсов. RAG-системы - это комбинация и
🌟 Продвинутые техники RAG: Репозиторий Github c самой полной и актуальной подборкой ресурсов. RAG-системы - это комбинация информационного поиска и генеративных моделей, целью которая предоставляет точные и контекстуально релевантные ответы на запросы пользователя. В репозитории собран большой и регулярно обновляемый набор инструментов, документации и обучающих материалов, предназначенных для теоретического изучения и практического применения для желающих расширить свои знания и навыки в изучении возможностей RAG: Базовые методы RAG: 🟢Простой RAG с использованием LangChain, LlamaIndex или CSV файлов; 🟢RAG с добавлением валидации и уточнения для обеспечения точности и релевантности извлекаемой информации; 🟢Выбор размера фрагмента текста; 🟢Разбивка на чанки для контроля и обработки запросов; Инженерия запросов: 🟠Трансформация запросов: перефразирование, расширение контекста, декомпозиция на подзапросы; 🟠Гипотетические вопросы для улучшения соответствия между запросами и данными; Обогащение контекста и содержания: 🟢Контекстуальные заголовки фрагментов для улучшения точности поиска; 🟢Извлечение релевантных сегментов для предоставления LLM более полного контекста; 🟢Расширение контекста с помощью соседних предложений; 🟢Семантическое фрагментирование текста; 🟢Контекстуальная компрессия для сохранения информации при сжатии; 🟢Дополнение документов вопросами для улучшения поиска; Методы поиска: 🟠Fusion Retrieval; 🟠Intelligent Reranking; 🟠Multi-faceted Filtering; 🟠Hierarchical Indices; 🟠Ensemble Retrieval; 🟠Multi-modal Retrieval; Итеративные и адаптивные методы: 🟢Retrieval with Feedback Loops; 🟢Adaptive Retrieval; 🟢Iterative Retrieval; Интерпретируемость: 🟠Explainable Retrieval; Архитектуры: 🟢Интеграция графа знаний (Graph RAG); 🟢GraphRag (Microsoft); 🟢RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval; 🟢Self RAG; 🟢Corrective RAG. ▶️Практическое применение или изучение техник RAG в проектах:
# Клонируйте репозиторий
git clone https://github.com/NirDiamant/RAG_Techniques.git

#Перейдите к интересующей вас технике
cd all_rag_techniques/technique-name

#Следуйте подробному руководству по применению в каталоге каждой техники.
📌 Лицензирование : Apache 2.0 License. 🟡Сообщество в Discord 🖥Github @ai_machinelearning_big_data #AI #ML #RAG #AwesomeRAG #Github