Generative Ai
الذهاب إلى القناة على Telegram
Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT По рекламе писать @miralinka, Created by @life2film
إظهار المزيد3 675
المشتركون
+424 ساعات
+827 أيام
+9130 أيام
أرشيف المشاركات
3 675
Repost from Life2film
Тизер сериала Azaliia))
Новые эксперимент. Тут намеренно использованы только open source решения на своем сервере, чтобы протестировать возможности.
Картинки и история сделаны в супер-дупер. В остальном анимация через COG и генерация озвучки Stable audio.
С озвучкой еще разбираюсь.
3 675
Repost from Machinelearning
+4
🌟 Open-Sora-Plan v1.3.0: воссоздание сервиса генерации text-to-video Sora средствами opensource.
Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний.
▶️ Ключевые особенности версии 1.3.0:
🟢Улучшенный вариационный автоэнкодер WF-VAE
Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях.
🟢Skiparse (Skip-Sparse) Attention
Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой.
🟢Новая стратегия очистки данных
Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров.
Стратегия позволила сократить датасет Panda70m до 27% от исходного.
🟢Динамическое разрешение и длительность.
Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения.
⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM.
▶️ Подробные инструкции по установке, обучению и инференсу в режимах
CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта.
📌Лицензирование: MIT License.
🟡Модель
🟡Сообщество в Discord
🟡Техотчет
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #OpenSora #Text2Video #Image2Video
3 675
Repost from Denis Sexy IT 🤖
Вышел мини-апп agent.exe, который все еще не просто ставится, но который позволяет управлять агенту не виртуальной машиной, а обычной — своей
Вышло забавно, я его запустил и ввел на русском «Найди дешевые билеты в Париж» — модель, видимо, из-за тренировки и языка на котором пришел запрос — сама пошла в Авиасейлс и ввела там место отправки Москва (опять же, модель додумала из-за языка)
Наглядный байас модели на ровном месте и в очередной раз респект СММ-щикам Авиасейлс, которые себя не только в интернете завирусили, но и датасеты Anthropic забили ассоциацией слова «авиабилеты» на русском = Авиасейлс
Редко кто так громко интернет засоряет 😮
P.S. Не ускоряю, чтобы вы скорость видели
P.P.S. Если пропустили, вот тут про то что это такое: https://t.me/denissexy/8867
3 675
Stable Diffusion 3.5 поддерживается уже в ComfyUI !
Модели:
* Stable Diffusion 3.5 Large: 8 миллиардов параметров, высокое качество изображений, точное следование prompts, 1 мегапиксель.
* Stable Diffusion 3.5 Large Turbo: Ускоренная версия, генерирует изображения за 4 шага.
* Stable Diffusion 3.5 Medium (выпуск 29 октября): 2.6 миллиарда параметров, оптимизирована для потребительского железа, разрешение 0.25–2 мегапикселя.
https://blog.comfy.org/sd3-5-comfyui/
https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/tree/main
3 675
https://stability.ai/news/introducing-stable-diffusion-3-5
Stability AI выпустила Stable Diffusion 3.5 !!!
Включая Large и Turbo версии, которые работают на потребительском железе.
Модель использует 8 миллиардов параметров для генерации высококачественных изображений с отличным соблюдением prompts и поддерживается на GitHub и Hugging Face.
Важные новшества включают Query-Key Normalization для улучшенной кастомизации, но стоит отметить, что увеличение разнообразия может вызвать вариации при разных seeds.
Модель доступна бесплатно для коммерческого использования до $1M дохода в год под Community License.
3 675
Introducing Mochi 1 preview. A new SOTA in open-source video generation. Apache 2.0.
Genmo выпустила Mochi 1 — первую open-source модель для генерации видео с текстовых prompts, построенную на архитектуре AsymmDiT с 10 миллиардами параметров. В отличие от закрытых конкурентов, Mochi 1 доступна бесплатно под лицензией Apache 2.0 и фокусируется на улучшении качества движения и точности исполнения запросов. Модель использует video VAE для эффективной компрессии данных, что снижает требования к памяти. Ограничение текущей версии — поддержка только 480p, но скоро ожидается HD-обновление.
https://github.com/genmoai/models
https://www.genmo.ai/
3 675
Install, Run & Control Terminal apps on Your Computer with 1 Click.
https://pinokio.computer/
3 675
TANGO - Генерация full-body говорящих видео на основе аудио и образца видео
https://huggingface.co/spaces/H-Liu1997/TANGO
3 675
Repost from эйай ньюз
Turbo Alignment - файнтюны LLM для народа
Для создания продуктов на основе LLM готовые API часто не подходят. Причин для этого может быть море - как приватность, так и качество генерации. Маленькие затюненные модели часто обгоняют даже SOTA LLM по качеству, но непрофильные команды часто не могут затюнить модельки из-за отсутствия необходимой экспертизы. И хорошо если есть уже готовый пайплайн для каждого этапа работы над LLM в продуктах: SFT, preference tuning, инференс, анализ полученных моделей и др.
Я как раз заметил, что сегодня Т-Банк зарелизил либу Turbo Alignment - это библиотека специально для файнтюна уже готовых моделек с полезными фичами:
➖ Поддержка SFT, DPO, CPO, IPO, KTO и других оффлайн-методов алаймента
➖ Готовые end-to-end пайплайны для тюнинга без написания кода
➖ Multi-GPU и Multi-Node тренировка
➖ Обучение и инференс мультимодальных моделей и RAG
➖ Широкий набор метрик для анализа методов алаймента: Self-BLEU, KL-divergence, diversity и др.
Либа была создана с участием ребят из лаборатории T-Bank AI Research. Говорят, что с такой либой проверять продуктовые и исследовательские гипотезы получится намного быстрее, потому что разработчики библиотеки этот путь прошли на своем опыте уже немало раз. В будущем её ещё будут улучшать - обещают имплементацию RL методов.
https://github.com/turbo-llm/turbo-alignment
@ai_newz
3 675
Repost from Machinelearning
🌟 Llama-3.1-Nemotron-70B: набор файнтюн-моделей и датасет HelpSteer2 от NVIDIA.
NVIDIA опубликовала на HuggingFace 4 версии Llama-3.1-Nemotron-70B:
▶️ Llama-3.1-Nemotron-70B-Instruct
Модель получила улучшение в задачах ответа на вопросы и выполнение пользовательских инструкций. Обучение проводилось с использованием RLHF (REINFORCE) на основе Llama-3.1-Nemotron-70B-Reward и датасета HelpSteer2-Preference.
Nemotron-70B-Instruct достигла высоких результатов в тестах Arena Hard (85.0), AlpacaEval 2 LC (57.6) и GPT-4-Turbo MT-Bench (8.98), и обошла GPT-4o и Claude 3.5 Sonnet.
🟠Llama-3.1-Nemotron-70B-Instruct-HF
Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.
Квантованные версии Llama-3.1-Nemotron-70B-Instruct-HF в формате GGUF с разрядностями от 1-bit (16.75 Gb) до 8-bit (74.98 Gb).
▶️ Llama-3.1-Nemotron-70B-Reward
Модель с функционалом чата, рассуждений и специальными навыками для оценки качества ответов других LLM. Она использует английский язык и способна оценивать ответы длиной до 4096 токенов, присваивая им баллы, отражающие их качество.
Основана на Llama-3.1-70B-Instruct Base и использует комбинацию методов Bradley Terry и SteerLM Regression Reward Modelling.
Nemotron-70B-Reward занимает первое место в RewardBench.
🟠Llama-3.1-Nemotron-70B-Reward-HF
Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.
Квантованная версия Llama-3.1-Nemotron-70B-Reward-HF в формате MLX (40 Gb).
Вместе с моделями опубликован датасет HelpSteer2 - набор данных на английском языке, предназначенный для обучения reward-моделей, которые используются для повышения полезности, фактической точности и связности ответов других LLM.
HelpSteer2 содержит 21 362 строки, каждая из которых включает в себя запрос, ответ и пять аннотированных человеком атрибутов ответа: полезность, правильность, связность, сложность и многословность.
⚠️ Представленные модели требуют систему с как минимум 4 GPU NVIDIA (40 Gb) или 2 GPU (80 Gb) и 150 Gb свободного места на диске.
⚠️ Для локального развертывания Llama-3.1-Nemotron-70B без поддержки Transformers рекомендуется использовать NVIDIA NeMo Framework и TRT-LLM.
📌Лицензирование моделей: Llama 3.1 Community License.
📌Лицензирование датасета : CC-BY-4.0
🟡Коллекция моделей на HF
🟡Arxiv
🟡Датасет
🟡Demo
@ai_machinelearning_big_data
#AI #ML #LLM #Nemotron #NVIDIA
3 675
💡 F5-TTS: Прорыв в синтезе речи OpenSource!
Эта модель использует мощь Flow Matching и Diffusion Transformer (DiT), чтобы создавать плавную и выразительную речь с высокой точностью.
🚀 Что особенного в F5-TTS?
* Без сложных механизмов: убирает необходимость в моделях длительности и фоностатической синхронизации.
* Инновационная стратегия Sway Sampling для повышения скорости и точности генерации.
* Мультиязычная поддержка с естественным код-свитчингом.
* Улучшенная производительность: время вывода 0.15 RTF, что быстрее, чем большинство моделей на основе диффузии.
🎯 Ключевые возможности:
* Высокая естественность и выразительность синтезированной речи.
* Возможность нулевого обучения для новых языков.
* Открытый код.
https://swivid.github.io/F5-TTS/
3 675
📃 Open Canvas
Open Canvas — это веб-приложение с открытым исходным кодом для совместной работы с агентами над созданием документов. Проект вдохновлен OpenAI Canvas, но имеет свои отличия:
📂 Открытый код: Весь код приложения доступен по лицензии MIT, включая фронтенд, агенты генерации контента и рефлексии.
🧠 Память: Open Canvas использует встроенного агента рефлексии, который запоминает правила стиля и инсайты пользователя, чтобы сохранять информацию между сессиями.
✒️ Работа с существующими документами: Начните работу с пустого текста или редактора кода на выбранном вами языке, либо используйте уже имеющийся контент для дальнейшего редактирования.
https://github.com/langchain-ai/open-canvas
3 675
Repost from Machinelearning
⚡️ OpenAI Swarm: Экспериментальный фреймворк для оркестрации мультиагентных систем.
Swarm - это экспериментальный фреймворк, разработанный командой OpenAI Solutions, для создания, оркестрации и развертывания многоагентных систем. Фреймворк фокусируется на упрощении координации, запуска, контроля и тестирования агентов.
Основная цель Swarm - продемонстрировать паттерны, описанные в Orchestrating Agents: Handoffs & Routines cookbook.
Фреймворк построен на двух основных абстракциях: агентах (
Agent) и передачах управления (handoffs):
Агент - это набор инструкций и функций, который может передавать выполнение другим агентам. Его можно использовать для описания конкретного рабочего процесса или шага (например, последовательность шагов, сложный поиск, одноэтапное преобразование данных и так далее).
Передача управления — это процесс, при котором агент может передать запрос другому агенту, возвращая его в функцию. В процессе передачи управления также происходит обновление переменных контекста, что позволяет вернуть более полный объект Result.
▶️В репозитории собраны функциональные примеры Swarm:
🟢basic - простые примеры настройки, вызова функций, передача данных и контекстные переменные;
🟢traige agent - пример роя с агентом сортировки, который принимает пользовательские данные и решает, ответить ли на запрос напрямую или передать его агенту по продажам или возврату денег;
🟢weather agent - погодный агент с вызовом функций (запрос по городу и отправка на e-mail);
🟢airlines - мультиагентный пример обработки клиентских запросов в контексте авиакомпании (сортировка запросов, изменения рейсов, отмены бронирований и случаи потери багажа);
🟢support_bot - клиентский бот центра поддержки с несколькими инструментами;
🟢personal shopper - пример роя агентов персонального торгового агента, который может помогать совершать покупки и возвращать заказы;
⚠️ Swarm не использует API Assistants и полностью работает на API Chat Completions.
⚠️ Swarm не предназначен для промышленного использования и не имеет официальной поддержки.
▶️ Локальная установка и запуск:
# Install from PIP
pip install git+https://github.com/openai/swarm.git
# Usage
from swarm import Swarm, Agent
client = Swarm()
def transfer_to_agent_b():
return agent_b
agent_a = Agent(
name="Agent A",
instructions="You are a helpful agent.",
functions=[transfer_to_agent_b],
)
agent_b = Agent(
name="Agent B",
instructions="Only speak in Haikus.",
)
response = client.run(
agent=agent_a,
messages=[{"role": "user", "content": "I want to talk to agent B."}],
)
print(response.messages[-1]["content"])
📌Лицензирование : MIT License.
🖥GitHub
🟡Orchestrating Agents Cookbook
@ai_machinelearning_big_data
#AI #ML #Agents #OpenAI #Swarm3 675
Появилась первая качественная text2video модель с открытым исходным кодом по лицензии MIT - Pyramid Flow SD3. Это диффузионный трансформер с 2 миллиардами параметров, способный создавать 10-секундные видео с разрешением 768p и частотой 24 кадра в секунду.
Основные моменты:
Генерация 10-секундных видео с разрешением 768p и 24 кадрами в секунду.
Единая модель с 2 миллиардами параметров.
Поддержка как текст-видео, так и изображение-видео.
Эффективная тренировка с использованием Flow Matching.
Две версии модели: 384p (5 секунд) и 768p (10 секунд).
Примеры видео доступны на странице проекта.
Простая двухшаговая реализация.
Лицензия MIT, доступно на Hugging Face.
Обучение проводилось только на открытых данных.
Код для обучения будет опубликован в ближайшее время.
https://huggingface.co/rain1011/pyramid-flow-sd3
https://github.com/jy0205/Pyramid-Flow
https://pyramid-flow.github.io/
3 675
Repost from e/acc
Начался OpenAI DevDay.
Уже презентовали prompt caching (50% от цены если вы используете тот же промт для вашего приложения), обновления в API, fine-tuning для 4o моделей (в том числе видео файнтьюн, так что вы теперь можете построить самоуправляемый велосипед на основе GPT).
Самое интересное демо пока что — Realtime API. Фактически это возможность в реальном времени, но задержки, общаться с моделью голосом. На видео несколько впечатляющих демо. Это будет доступно всем разработчикам по цене базовой модели.
Добавили нативную дистилляцию моделей: вы можете сделать более маленькую, дешевую специализированную модель под себя.
Так же OpenAI запустил свой продукт для эвалов (наконец-то!), так что теперь оценивать качество вашего приложения можно будет не по методу пол-палец-потолок, а по уму.
3 675
Repost from Технологии | Нейросети | Боты
🎬 Транскрипция, перевод и субтитры для видео.
Subtitler — инструмент, который автоматически сделает транскрипцию вашего видео, переведет его на нужный язык и наложит готовые субтитры.
Работает бесплатно и без регистрации.
• Попробовать
• Github
#neural #нейросети
@aiaiai
3 675
Repost from Denis Sexy IT 🤖
Принес классную ссылку тем кто хотел бы начать разбираться в «агентах» с LLM – агентами называют мини-ботов которые делают какую-то задачу и обладают некой степенью свободы:
https://github.com/NirDiamant/GenAI_Agents
Внутри примеры на все случаи жизни: автоматизация саппорта, чатботы, автоматический поиск в интернете и тп., у всех примеров открыт исходный код
Агента Смита пожалуйста не делайте, спасибо
3 675
Новая версия CogVideoX-5b-I2V для генерации image2video
https://huggingface.co/THUDM/CogVideoX-5b-I2V
Ее подддержка уже добавлена в ComfyUI
https://github.com/kijai/ComfyUI-CogVideoXWrapper
3 675
Repost from Технологии | Нейросети | Боты
🖼 Расширяем изображение.
Diffusers Image Outpaint — инструмент, который дорисует недостающие области изображения, расширив его по вертикали или по горизонтали.
Загружаем картинку, выбираем нужное соотношение сторон и жмем Generate.
• Попробовать
#neural #нейросеть
@aiaiai
3 675
Repost from Machinelearning
🌟 Продвинутые техники RAG: Репозиторий Github c самой полной и актуальной подборкой ресурсов.
RAG-системы - это комбинация информационного поиска и генеративных моделей, целью которая предоставляет точные и контекстуально релевантные ответы на запросы пользователя.
В репозитории собран большой и регулярно обновляемый набор инструментов, документации и обучающих материалов, предназначенных для теоретического изучения и практического применения для желающих расширить свои знания и навыки в изучении возможностей RAG:
Базовые методы RAG:
🟢Простой RAG с использованием LangChain, LlamaIndex или CSV файлов;
🟢RAG с добавлением валидации и уточнения для обеспечения точности и релевантности извлекаемой информации;
🟢Выбор размера фрагмента текста;
🟢Разбивка на чанки для контроля и обработки запросов;
Инженерия запросов:
🟠Трансформация запросов: перефразирование, расширение контекста, декомпозиция на подзапросы;
🟠Гипотетические вопросы для улучшения соответствия между запросами и данными;
Обогащение контекста и содержания:
🟢Контекстуальные заголовки фрагментов для улучшения точности поиска;
🟢Извлечение релевантных сегментов для предоставления LLM более полного контекста;
🟢Расширение контекста с помощью соседних предложений;
🟢Семантическое фрагментирование текста;
🟢Контекстуальная компрессия для сохранения информации при сжатии;
🟢Дополнение документов вопросами для улучшения поиска;
Методы поиска:
🟠Fusion Retrieval;
🟠Intelligent Reranking;
🟠Multi-faceted Filtering;
🟠Hierarchical Indices;
🟠Ensemble Retrieval;
🟠Multi-modal Retrieval;
Итеративные и адаптивные методы:
🟢Retrieval with Feedback Loops;
🟢Adaptive Retrieval;
🟢Iterative Retrieval;
Интерпретируемость:
🟠Explainable Retrieval;
Архитектуры:
🟢Интеграция графа знаний (Graph RAG);
🟢GraphRag (Microsoft);
🟢RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval;
🟢Self RAG;
🟢Corrective RAG.
▶️Практическое применение или изучение техник RAG в проектах:
# Клонируйте репозиторий
git clone https://github.com/NirDiamant/RAG_Techniques.git
#Перейдите к интересующей вас технике
cd all_rag_techniques/technique-name
#Следуйте подробному руководству по применению в каталоге каждой техники.
📌 Лицензирование : Apache 2.0 License.
🟡Сообщество в Discord
🖥Github
@ai_machinelearning_big_data
#AI #ML #RAG #AwesomeRAG #Github
متاح الآن! بحث تيليغرام 2025 — أهم رؤى العام 
