Tensor Banana

الذهاب إلى القناة على Telegram

Нейросети и всё такое. https://youtube.com/@tensorbanana Чат по нейронкам: https://t.me/+zFDiHuL1iVA1YWMy Чат с ботами: https://t.me/+m2TQ5VJLhIRiY2U6 Написать админу и донаты: @talkllamabot

2 949

المشتركون

لا توجد بيانات24 ساعات

+67 أيام

+530 أيام

1 842

عرض المشاهدات

~ 85524 ساعات

~ 1 12948 ساعات

62.46%

معدل المشاركة

لا توجد بيانات

المشاركات في اليوم

Ads index

beta

أرشيف المشاركات

2 949

Ideogram 4 img2img редактирование через inpaint по SAM2 маске и частичным denoise - можно точно сохранить лицо при редактировании - изменить только указанный объект, например лицо, фон или текст на бумажке благодаря маскам - не надо самому выделять маски, маска задается через простой промпт типа "face,hair" или "background" - запрос на описание картинки и составление json промпта уходит через любой API, например llama.cpp server или openai\mistral\openrouter - я для составления json промпта юзаю gemma4-31 которая висит на второй видюхе (2080ti-22GB), можно также юзать qwen. - clip у меня висит на третьей видюхе (3060), для скорости, но это не обязательно - скорость выполнения запроса вместе с составлением json промпта - 2 минуты на стэке из трех карт (3090+2080ti+3060). Можно все организовать на одой карте, но тогда промпт будет писать какая-то онлайн LLM по апи. Юзеры писали, что в теории, одной 3060 должно хватить - без частичного denoise (0.90) результаты были хуже, с ним модель знает в каком месте находится тело персонажа. - img2img работает с помощью описания исходной картинки в json. Описание делается с помощью моей ноды OpenAI.CaptionImage. На момент написания я не видел похожих нод с поддержкой llama.cpp server, поэтому написал свою. - не все генерации выходят идеальными, надо точно подбирать нужный denoise. чтобы и исходная картинка не слишком сильно вылазила. - сильно менять позу персонажа не получится, но легкие движения рук - ног возможны. Изменение стиля всей картинки не получится, маска не даст изменить некоторые области. но можно совсем убрать маску и работать только с img2img (без sam2 и без inpaint), воркфлоу тут же. мой воркфлоу img2img inpaint+sam2+denoise: https://github.com/Mozer/comfy_stuff/blob/main/workflows/ideogram4_img2img_sam_with_denoise.json мой воркфлоу img2img+denoise (без масок sam2): https://github.com/Mozer/comfy_stuff/blob/main/workflows/ideogram4_img2img_without_sam2.json int8 nodes https://github.com/BobJohnson24/ComfyUI-INT8-Fast int8 models https://huggingface.co/bertbobson/Ideogram-4-INT8-ConvRot/tree/main kj prompt builder https://github.com/kijai/ComfyUI-KJNodes sam2 https://github.com/neverbiasu/ComfyUI-SAM2 clip to another cuda https://gist.github.com/city96/30743dfdfe129b331b5676a79c3a8a39 моя нода OpenAI.CaptionImage для llama.cpp server https://github.com/Mozer/ComfyUI-OpenAI

2 949

ComfyUI-PixelDriftFix Написал комфи ноду для устранения pixel drift (смещения и небольшого кропа отредактированной после img2img картинки) Работает для любых AI моделей редактирования (klein, qwen-edit, flux2-dev, ...) Решает проблему сдвига, растягивания и обрезки пикселей после редактирования относительно оригинальной картинки. Нода автоматически выравнивает финальное изображение по исходнику, возвращая ему идеальную геометрию. Есть 2 режима, основной flat_4_points и экспериментальный mesh, но он еще не доведен до ума. * Режим flat_4_points: базовый, быстрый, работает по 4-м точкам (всего ~4 секунды на обработку). * Режим mesh: экспериментальный, на основе сотек и тысяч точек. (работает медленно и пока что неточно, не рекомендую). * Реставрация: отлично подходит для восстановления старых фотографий с последующим блендом с оригиналом Нюансы: * Выходной размер картинки автоматически подгоняется под оригинал. * Исходное и измененное изображения должны быть похожи (минимум 10 общих точек). * По краям кадра может появляться небольшая полоса дублированных пикселей, которых просто не было в отредактированной картинке из-за кропа. Как установить: ComfyUI Manager - install via git url. Воркфлоу в папке workflows + там уже лежит связка klein-9b + pixel_drift_fix + blend_with_original для реставрации старых\смазанных\шакальных фото https://github.com/Mozer/ComfyUI-PixelDriftFix

2 949

Talk-llama-fast 2 - перезапуск на питоне Я начал переносить свой проект говорящего аватара с C++ на питон. Сборка на видео: - Whisper.cpp streaming, large-q4 - llama.cpp server - gemma4-31b-q4 - omnivoice TTS + omnivoice-server - основное приложение на питоне. - wav2lip липсинк (пока нету). - Всё это влазит на одну 3090. - Текущая задержка от голоса до голоса - 4 секунды, возможно, удастся сократить до 3-х. На 5000 серии будет быстрее. - ГУЙ пока не планируется, ставка на голосовое общение, но ввод с клавиатуры тоже есть. - Можно поставить любую ЛЛМ, хоть локальную, хоть Claude Opus. Всё будет в опенсорсе, как и раньше. Выкладывать буду модулями. Сегодня выкладываю модуль whisper.cpp-streaming. До этого я быстро пробежался по конкурентам типа whisperX, faster whisper и t-one ASR. У всех есть свои плюсы, но я решил пока остаться на проверенном ранее решении. Меня оно устраивает по скорости и жрёт менее 1 гига VRAM. Чистая задержка без VAD - 300мс, вместе с vad - 700мс на коротких фразах. Код и exe для whisper-streaming CUDA. Для других платформ - сами скомпилируете. https://github.com/Mozer/whisper.cpp-streaming/releases/tag/0.0.1 Уже пару недель играюсь с голосовым ассистентом на gemma4-31b-q5, у нее очень классный русский язык, знает современный сленг. Цепляю беспроводные наушники, хожу по квартире, занимаюсь своими делами и болтаю о чем угодно. Качество распознавания меня устраивает. Следующим модулем выложу свою чуть модифицированную версию omnivoice. У меня на 3090 задержка - 1с. Юзеры в чате с 5000 серией говорят, что у них задержка до 0.5с

2 949

Создаем персонализированный контент: фанфики, аудиокниги, визуальные новеллы Это же видео на яндекс диске: https://disk.yandex.ru/i/BKndy2R19qDEMw Пример на видео - не готовый результат, готовым его сделает нужная вам персонализация (замена персонажей, локаций, привычек, фетишей, голосов и изображений). Читать/смотреть чужие фанфики обычно неинтересно, они слишком плоские и неинтересные. А вот персональный контент это другое дело, за ним будущее. Я себе уже штук 10 адаптаций сделал: по ситкомам, аниме, книгам. 20-40 глав идеально, потом надоедает. До видео стадии дошло пока 2 тайтла, слишком много действий. По фильмам/книгам с серьезным сюжетом пока не рекомендую делать: будет много несостыковок в сюжете, это будет бесить. Ситкомы и аниме - идеально. Или манга, но тут тоже сложно с консистентностью. Важная фишка которая цепляет - добавление ваших фетишей. ТЕКСТ: На вход: субтитры, краткое содержание сюжета Персонализация: замена персонажей (имен, описаний, привычек, пола) Добавление нужных фетишей в сюжет На выход: полноценная глава лайт новеллы или фанфика LLM: qwen3.5-27b, qwen3.5-35b, GLM-4.7-Flash-abliterated, gemma3-27b АУДИОКНИГА: оригинальные голоса + ваши голоса TTS: silero-tts-v5, qwen3-tts, vibevoice(не рекомендую) qwen3 TTS API сервер: https://github.com/andimarafioti/faster-qwen3-tts ВИЗУАЛЬНАЯ НОВЕЛЛА: На вход: Фоны, основные персонажи klein-9b-kv-fp8 в режиме редактирования с одной картинкой на вход Проблемы LLM: 1. LLM не умеют писать длинные главы. Они натренированы на коротких ответах на 1-2 тысячи токенов, что маловато для полноценной главы романа. Если больше - входят в циклы, бредят. Решение - делить главы на части. Потом клеить и просить убрать несостыковки. 2. На русских текстах LLM пишут хуже чем на английском - более шаблонно, чаще входят в лупы. Решение - писать на английском (даже если исходный сериал русский), использовать перевод. Для перевода - gemma3-27b или translategemma-27b. 3. LLM не могут выполнять несколько задач одновременно, например, собрать json с несколькими полями построчно по длинному тексту. Внимание падает, делают ошибки. Решение - делить текст на куски, делить задачу на подзадачи. 4. Расцензуренные LLM хуже выполняют задачи на обработку текста, например, создание промптов для text2image или создание json. А оригинальные LLM иногда могут отказаться от такой задачи, если на вход подается текст с 18+ темами. Решение - жонглировать LLM под задачи. 5. Режим размышлений (reasoning) очень плохо работает с длинными текстами (50-100 строк). Большая вероятность, что LLM войдет в луп. И большая вероятность, что текст на выходе будет в несколько раз короче, чем текст на входе, LLM его сократит, даже если просить не сокращать. Решение - отключаю ризониниг для большинства задач. 6. Режим преобразования манги в художественный текст я пока не победил, есть проблемы с консистентностью сюжета между страницами. Проблемы TTS: 1. silero-v5 xenia нравится за скорость, но есть проблемы с ударениями. Готового решения с омографами пока нет, все решения косячат. Только топовые LLM типа gemini-3-pro могут правильно расставить все ударения. 2. qwen3-tts не очень стабилен при клонировании голосов - иногда голоса совсем не похожи на оригинал, иногда норм. Пока смирился. У faster-qwen3 скорость примерно в 3 раза выше реалтайма - лайк. 3. vibevoice слишком много галлюцинирует, посторонние звуки мешают. отказался от него Проблемы klein: 1. Похожесть: если подавать фон и персонажей отдельными картинками похожесть будет очень низкая, лица очень сильно меняет. Решение: подавать одну картинку с программно приклеенными поверх персонажами, так похожеть намного лучше, но они хуже интегрированы в фон. Ищите компромисс, что важнее - похожесть или действия внутри картинки 2. Лишние руки: чем больше персонажей в кадре, тем больше будет рук. Решение: ограничить число персонажей в кадре до 2-3-х + использовать сэмплер res_2s, он делает чуть меньше косяков, но работает в 2 раза дольше. Этапы создания не влезли, выложу в комментах и на гитхабе. https://github.com/Mozer/personalized_fan_fiction

2 949

# screen2edit Навайбкодил скрипт, который по горячей клавише делает скриншот любого активного окна и отправляет в comfy+klein-9b API. Отображает картинку в соседнем окне. Работает очень быстро - за 7 секунд (чекпоинт klein-9b-int8) на 3090 ## Примеры промптов: 1. Улучшение графики в визуальных новеллах или других пошаговых играх:

Turn this into a photo, soft dim lighting. Add film grain, bokeh, shallow depth of field, retro photo, soft focus, low contrast. Add blur, motion blur. face swap woman with Emm4w woman, dark brown lose hair.

2. Колоризация манги в браузере:

Colorize manga. Woman has light pink jacket with white shirt and with a red ribbon, white high socks and dark brown hair. Man has grey jacket and short black hair

3. Замена персонажа: face swap woman with Emm4w woman, lose brown hair (нужна лора или вторая приложенная картинка с лицом) 4. Замена одежды: now she is wearing bikini 5. Фото в аниме: change style to Ghibli studio style ## Установка screen2edit

git clone https://github.com/Mozer/screen2edit
cd screen2edit
pip install -r requirements.txt

внутри screen2edit.py отредактируйте свои пути до комфи

SAVE_PATH = r'C:\DATA\SD\ComfyUI_windows_portable_nvidia\ComfyUI_windows_portable\ComfyUI\input\screenshot.jpg'
PROMPT_URL = 'http://127.0.0.1:8188/prompt'
HISTORY_URL = 'http://127.0.0.1:8188/history?max_items=64'
VIEW_URL_BASE = 'http://127.0.0.1:8188/view'

CROP_TOP = 50       #REMOVE PX FROM TOP
CROP_BOTTOM = 10    #REMOVE PX FROM BOTTOM
CROP_LEFT = 10      #REMOVE PX FROM LEFT
CROP_RIGHT = 10     #REMOVE PX FROM RIGHT

- импортируйте workflow/workflow.json в комфи (он для fp8). Либо workflow_klein_9b_int8.json - проверьте работоспособность внутри комфи - comfy - File - Export (API) - положить туда же workflow/workflow.json ## Запуск screen2edit - дабл клик по screen2edit.py - открыть нужное окно с игрой или браузером, нажать Alt+x для того чтобы сделать скрин и отправить его в комфи (Полноэкранный режим со сложными 3D играми на unity или directx я не тестил. хз, будет ли скриншоты делать. С играми в windowed режиме проблем быть не должно) - окошко с готовой картинкой появится само через какое-то время. ## Ускорение инференса (INT8 модель, опционально) Для ускорения работы klein-9b рекомендую использовать int8 версию. На 3000 серии она в 2 раза быстрее, чем fp8 и раза в 3-4 быстрее чем gguf. На 4000 серии прирост тоже есть, но не такой большой. 1024x1024, 4 steps, at 3090: text2image int8 - 3.31 seconds image2image int8 - 6.41 seconds image2image fp8 - 12.84 seconds Прирост достигается за счет использования int8 cuda ядер. Применимо для 3000 серии и новее. На 4000 серии прирост относительно fp8 тоже есть, но не такой большой. Опционально нужен: triton-windows (будет еще чуть быстрее, но и без него буст. У меня нода model compile не завелась, возможно, нужен torch/cuda посвежее. У меня torch2.6.0+cu126) Нужен comfy-kitchen: C:\DATA\SD\ComfyUI_windows_portable_nvidia\ComfyUI_windows_portable\python_embeded>python.exe -m pip install comfy-kitchen Установка ноды через manager - install via git url https://github.com/BobJohnson24/ComfyUI-Flux2-INT8 int8 модель (положить в diffusion_models): https://huggingface.co/bertbobson/FLUX.2-klein-9B-INT8-Comfy/blob/main/flux-2-klein-schnell-9b-INT8V2.safetensors Для загрузки лор нужна нода 'Load Diffusion Model INT8 (W8A8)', она есть внутри. С некоторыми лорами могут быть проблемы. С моими лорами из onetrainer проблем нет. ## Примечания: - если мелкий текст плохо читается - уберите лоры, увеличьте кроп скриншота сверху и по бокам. Увеличение разрешения выходной картинки помогает, но не всегда. Оптимально 1.1 - 1.2 Mpx. - моя лора на некую Эмму: https://huggingface.co/tensorbanana/Emm4w_lora_klein_9b

2 949

Треним лоры для Klein-9b в режиме редактирования Klein-9b в режиме редактирования мне нравится больше, чем qwen-edit за счет большего реализма и меньшей деградации картинки после каждой генерации. Тренить будем в OneTrainer. В другом софте тоже можно, но полноценную поддержку в некоторые трейнеры еще не везде завезли. Установка OneTrainer поддержки klein еще нет в master ветке, поэтому так:

git clone https://github.com/Nerogar/OneTrainer/
cd OneTrainer
git fetch origin pull/1261/head:pr-1261
git switch pr-1261
install.bat

Будем тренить поэтапно в разных разрешениях. 768 - основной этап, 1280 финальный этап. 768 - это довольно мало для двух склеенных картинок, потому нужен второй этап. Датасет: Собираем картинки до/после и переименовываем их по шаблону: 1_0.jpg, 1_1.jpg, 2_0.jpg, 2_1.jpg. где _0 - картинка "до", _1 - картинка "после". Расширение файла - любое. Соотношение сторон до-после должно быть одинаковым. Разрешение может быть разным, скрипт их заресайзит, если они разные. Мой датасет для лоры pov_hand - 30 пар картинок. Картинки частично настоящие, а частично - синтетика (фото с рукой настоящее, фото без руки - генерация в klein). Для того чтобы был именно режим редактирования картинок (image2image, а не text2image), нужно как-то приложить исходные картинки. В OneTrainer это делается через тренировку с масками (Masked training). Нужно склеить исходную и конечную картинки в одну и приложить дополнительно png файл с маской. Мой питон скрипт для склейки, создания маски и создания текстовых файлов с описанием: https://github.com/Mozer/comfy_stuff/blob/main/oneTrainer_configs/concat_and_masks_and_prompts.py Положить файл в папку с вашими переименованными картинками, изменить текстовый промпт внутри и запустить. После этого отредактируйте текстовые описания. Настройки OneTrainer - ключевое отличие от обычной тренировки - включить режим тренировки с масками на вкладке тренировка. Остальные настройки довольно стандартные. - для тренировки нужна именно базовая модель, дистиллят не подойдет. Чтобы скачать всю папку с HF выполните команду:

mkdir FLUX.2-klein-base-9B
cd FLUX.2-klein-base-9B
huggingface-cli download black-forest-labs/FLUX.2-klein-base-9B --local-dir .

Скорость Тренить будем в новом формате данных int8 (transformer data type int W8A8), он почти в 2 раза быстрее, чем fp8.

На 3090, int8, batch size 1:
 768 - 13.0 GB, 2.52 s/it
1280 - 16.0 GB, 9.18 s/it

На 3060 не тестил, но должно влезть, хотя бы в формате nf4. Int8 будет быстрее, чем nf4, но тогда надо пробовать в меньшем разрешении, например в 720 или 512. Первые результаты можно заметить уже после 1500-2000 шагов, но придется увеличивать силу лоры в комфи. Я обычно тренирую 5000-6000 в разрешении 768, затем ещё 1000-2000 в разрешении 1280. Итого по времени выходит часов 6-8 на лору. Лору на персонажа/похожесть ещё не пробовал, но собираюсь. Моя POV hand лора для Klein-9b в режиме редактирования: https://civitai.com/models/2347738 Примеры генерации, слегка nsfw: https://t.me/+UzijD4bV1M8wODEy

2 949

LTX2 + sillyTavern = TTS+video LTX2 умеет работать в режиме TTS и даже клонировать голос. - мужские голоса клонирует лучше (снова скину Жириновского в комменты, его голос +- похож). Тут на видео голос Эммы похож лишь отдаленно, но зато он одинаковый в каждой генерации. - умеет не только делать TTS, но и цепляет эмоции и простые действия, типа такого: "нахмурилась, скрестила руки и села на кровать". - Так как у нас тут роулплей - для нас важна скорость, а не качество видео. Я получаю 70-130 секунд на генерацию. Для максимальной скорости, будем генерировать в 360x360, одним сэмплером без апскейла. Если вам нужно качество - активируйте апскейлер, 2 сэмплера и поднимите разрешение, но будет в несколько раз дольше. - в мою 3090 влазит 28 секунд видео 360x360. Если длиннее - OOM. Если у вас нет столько VRAM - начните с 5 секунд. - воркфлоу автоматически высчитывает длину видео на основе длины входного текста. Используйте параметр "text symbols per second" для регулирования расчетной длины. - для себя я утащил text encoder (gemma-fp4) на вторую карту, это позволяет сэкономить 5-25 секунд в зависимости от скорости RAM и шины PCE - русский неидеальный, на уровне Xttsv2. В целом, терпимо. - в видео примере используется LLM mistal-large по бесплатному апи от mistral. Рекомендую. - воркфлоу неидеальный, наверняка, есть косяки. Требования 32 RAM (лучше 64+) 12 GB VRAM (лучше 24) скорость на 3090: 16 секунд видео - генерируются за 79 секунд на 3060 в теории должно заработать, но вам придется ограничить максимальную длину видео 5-10 секундами. Инструкция: В комфи: - обновить comfyui - проверяем, что мой ВФ работает внутри комфи. - Сохраняем воркфлоу как АПИ в комфи: верхнее меню - File - Export (API). Нужно именно API. - имя video_ltx2_tts_emma_api.json в SillyTavern: - обновить SillyTavern (поддержка генерации видео появилась примерно летом). - Меню Extensions - Image generation - source: ComfyUI. Адрес: http://127.0.0.1:8188 - жмем connect. там же нажимаем плюсик для создания нового воркфлоу - называем ltx_emma. - Теперь надо передать речь из SillyTavern в промпт в комфи. - откройте video_ltx2_tts_emma_api.json в каком-нибудь блокноте. Ищем в тексте экспортированного ВФ параметр "char speech from sillyTavern" и заменяем над ним текст "string": "Приветик. Как делишки у вас там...", на вот такое: "string": "%prompt%", - Вставляем отредактированный ВФ в поле редактирования ВФ в sillyTavern. Сохранить. - После того как comfyu подключен к Sillytavern, возле каждого сообщения появится иконка "Кисть" - она запускает генерацию картинок и видео. Если иконка не появилась, обновите страницу и попробуйте заново нажать connect в меню extensions. Иногда тупит. Воркфлоу как картинка: https://github.com/Mozer/comfy_stuff/blob/main/workflows/ltx2_tts_emma-for-st.png Список нод со ссылками внутри воркфлоу.

2 949

Qwen-Image-Edit-2511 4-шаговая lightx2v лора работает отлично. Я затестил несколько картинок в 25 и 4 шага, и для себя сделал вывод, что 4 шага практически не отличаются от 25. А в случае работы с текстом манги 4 шага даже показали себя лучше (предполагаю, что для текста надо не 25 шагов, а полные 40). Работа с русским текстом по-прежнему в зачаточном состоянии. Крупную вывеску поправит, а вот целое предложение с мелким текстом - уже нет. скорость на 3090 с одной входной картинкой, 1120x1496 4 шага с лорой, cfg 1 - 27 секунд 25 шагов без лоры, cfg 4 - 4 минуты vram: 20 гигов (fp8, также есть gguf). чем больше входных картинок, тем медленнее. Лоры от обычного qwen - работают. Даже без лор умеет снимать всю одежду (но внизу не будет нужных деталей). минусы: - легкий дрифт/зум картинки я пока не победил. - текстура кожи на крупных планах становится хуже, пропадают поры и прыщики. Но общих планах почти не заметно Нужно обновить комфи и использовать 2 новые ноды FluxKontextMultiReferenceLatentMethod, без них будут мутные картинки. ПРОМПТЫ: 1. now they are standing together at kitchen 2. enhance photo, make is crisp and clear, her face is now in focus. remove jpeg artifacts 3. place this woman standing into the flat from first picture. adjust the lighting 4. put an image of anime girl on the car hood and doors 5.

turn this into real photo. photoshoot of a real Emma Watson 35yo woman with dark ginger hair holding a black-pink pistol at the studio in a hoodie and leotard, in headphones. pink make-up. fix lighting. real photo shot on iphone. keep pose the same

zoom in, upper body portrait. turn this into real photo. photoshoot of a real Emma Watson 30yo woman with dark ginger hair. real photo shot on iphone

+ лора на персонажа 7.

replace both men with these women from the second picture. left woman in a dress and right woman in bikini. women are standing in battle poses

8. replace text "ЕШЬ ДА ПЕЙ" with "ЕШЬ ДЕТЕЙ". replace text "STREET FOOD" with "БЫСТРО И ТОЧКА" 9.

colored manga panels. Panel 1: A sleek, anthropomorphic fish in a suit stands on a rainy city street at night, hailing a taxi. The taxi driver leans out the window, squinting suspiciously at the fish.  Fish (thought bubble): "Dont ask why Im not in water."  Panel 2: driver in front seat. The fish is now crammed into the backseat, looking wildly uncomfortable as the taxi speeds off.  the fish clutches a briefcase, sweating bullets.  Fish (thought bubble): "Just drive." Driver (thought bubble): "Smells like SUSHI"

10. make 3 shots of the same woman: 1. in a light short dress 2. in bikini 3. fully n4k3d, with n4k3d ₽u$$y Еще в коменты скину примеры. fp8: https://huggingface.co/Comfy-Org/Qwen-Image-Edit_ComfyUI/blob/main/split_files/diffusion_models/qwen_image_edit_2511_fp8mixed.safetensors gguf: https://huggingface.co/unsloth/Qwen-Image-Edit-2511-GGUF 4-шаговая лора: https://huggingface.co/lightx2v/Qwen-Image-Edit-2511-Lightning snofs лора для nsfw: https://civitai.com/models/1972981/qwen-sex-nudes-other-fun-stuff-snofs мой ВФ: https://github.com/Mozer/comfy_stuff/blob/main/workflows/qwen_edit_2511.png попробовать в чате: https://chat.qwen.ai/?inputFeature=image_edit попробовать на modelscope: https://www.modelscope.cn/models/Qwen/Qwen-Image-Edit-2511

2 949

VibeVoice-7b-exl3-v0.02 - еще больше скорости, реалтайм даже на 3060 Еще немного подкрутил настройки и кэш для максимальной скорости Скорость: 3090 - 12.00 t/s (3 шага) 3060 - 10.40 t/s (3 шага) 3090 - 9.50 t/s (5 шагов) оригинальный код - 4 t/s (20 шагов) все что больше 7.50 t/s - реалтайм На видео - воркфлоу на 3 шага чисто для примера скорости, в реальной жизни рекомендую использовать 5 шагов. 3 шага слишком часто падают в шум. Что нового: - засунул весь semantic_tokenizer в кэш кроме самого первого шага - это дало больше всего прироста скорости - Для максимальной скорости приходится делить текст на предложения или абзацы и делать диффузию на 3-х шагах (вместо 20). - фичи: очистка входного текста от мусора, деление текста построчно или по абзацам. - экспериментальная фича: замена имен на цифры во входном тексте (полезно для SillyTavern и нескольких персонажей в одном тексте). Горячо рекомендую юзать связку SillyTavern + VibeVoice (extensions - image generation - comfyui), работает отлично как TTS. - экспериментальная фича: детектирование мусора в аудио и перезапуск генерации (работает не всегда) - мелкие баг фиксы wav2lip все еще не стриминговый и не реалтайм, воркфлоу тоже есть. Но возможно уже и хватит скорости, чтобы тянуть реалтайм стриминг vibevoice + wav2lip на одной видюхе, например на 3090. Надо тестить. Требования: - nvidia 3000+ (2000 серия не подойдет для exllamav3, но ноду можно запустить и без exllamav3) - от 8 GB vram (лучше 12) Установка все еще сложная. нужны: flash-attention-2 + моя exllamav3 + мои ноды triton/sage attention можно не ставить, от них почти нет прироста (но они нужны для torch.compile). гайд тут https://t.me/tensorbanana/1236 или на гитхабе Если у вас стоят мои предыдущие ноды VibeVoice-7b-exl3 или чужие ноды VibeVoice, их нужно удалить из папки custom_nodes, могут быть конфликты. В данном релизе v0.02 я не трогал код моих нод exllamav3 (LLM движок) Ноды: https://github.com/Mozer/ComfyUI-VibeVoice-exl3 ВФ: https://github.com/Mozer/ComfyUI-VibeVoice-exl3/tree/main/examples HF: https://huggingface.co/collections/tensorbanana/vibevoice Процесс установки я особо не тестил, если будут баги, пишите в комментах.

2 949

Tongyi z-image-turbo-6B - 9.5 секунд на картинку Только text2image. Редактировать пока не умеет (обещают) Умеет в базовый nsfw и знает знаменитостей (в отличие от flux2) nsfw примеры тут: https://t.me/c/2177087720/3144 Использует vae от Flux1_dev + qwen3_4b turbo версия имеет фиксированный CFG и 9 шагов, за счет этого быстрая. Также обещают выпустить полную версию. Скорость: 769x1280 - 9.5 секунд на картинку на 3090 (9 шагов) Потребление vram: z-image в fp8 + qwen-fp16 = 20 GB vram Сам чекпоинт в fp8 весит 6 гигов (должен влезть в 8 GB vram). Кириллицу умеет, но чуть хуже чем flux2_dev. Похоже, что натренирована на реализм из коробоки. Поддерживает разрешения: + 1056x1600 (15s, хорошая композиция) x 1600x2200 (34s, композиция чуть хуже, текст сильно хуже) x 1600x2560 (40s, появляются артефакты и дублирование) Промпты взял c civitai. комфи: https://comfyanonymous.github.io/ComfyUI_examples/z_image/ Fp8: https://huggingface.co/T5B/Z-Image-Turbo-FP8/tree/main spaсe: https://huggingface.co/spaces/Tongyi-MAI/Z-Image-Turbo

2 949

Генерируем картинку и печатаем на 3d принтере # картинка: qwen-image + моя cosplay лора. 30 шагов, 1056x1600, dpmpp_2m beta cosplay лора: https://civitai.com/models/2138214 Картинка подойдет почти любая, даже фотка. Главное, чтобы объект полностью влазил в кадр (иначе будет обрезан). А если не влазит - попросите qwen-edit и nano banana, чтобы отдалили камеру. Опционально можно почистить фон, чтобы ничего лишнего не попало в 3d. Или наоборот добавить, например, стул или банан. # Сервисы imageTo3d (коммерческие и опенсорс): - Hunyuan3D-3.0 - топовое качество, 20 бесплатных генераций в день. Цензуру пока не встречал, но и не особо старался. Рекомендую. Есть возможность сгенерировать текстуру для этой модельки, но я пока не понял, как ее скачать. Еще можно скелет вставить внутрь (не тестил) https://3d.hunyuan.tencent.com/ - Hunyuan3D-2.1: opensource, низкое разрешение, 10-15 генераций в день на HF https://huggingface.co/spaces/tencent/Hunyuan3D-2.1 - meshy.ai - 5-10 бесплатных генераций в месяц, сильная цензура, в бикини не дает генерировать. Не дает скачивать бесплатно модельки, созданные в версиях 5 и 6, а только там топовое качество. Качество в 4 версии сильно хуже, что-то на уровне опенсорсного Hunyuan3D-2.1. - Miscrosoft Trellis - opensource, качество совсем так себе, 10-15 в день на HF https://huggingface.co/spaces/trellis-community/TRELLIS Вывод: если нужно качество - Hunyuan3D-3.0 на сайте. Если нужна приватность - локальная Hunyuan3D-2.1. # Обработка 3d: После сохранения 3d файла из сервиса Hunyuan3D я открываю его в блендере и пересохраняю с большим масштабом (исходно он слишком мелкий и почему-то не отображается в Cura). Далее открываю в приложении Cura, проверяю размеры и отдаю на печать (через microSD флешку). Никаких проблем с Non-manifold (дырявая геометрия) с такими модельками нет. (Если будете качать 3d модельки с сайтов с 3d моделями, созданными для игр, у вас очень часто будут проблемы со странной геометрией фигурок. Это когда принтер не знает, как такие дырявые и плоские части печатать.) # 3d печать Мой 3d принтер: Elegoo Neptune 3 pro (брал год назад за 20к рублей на али, сейчас вижу за 11.5к рублей) https://aliexpress.ru/popular/elegoo-neptune-3-pro Печтаю пластиком PLA, сопло 0.2 mm. Другие пластики пока не тестил. Говорят, PETG лучше подходит для аниме фигурок. Но если нужно совсем топовое качество, как у профессиональных фигурок, смотрите в сторону фотополимерных 3d принтеров. Но они не для квартиры - соседи будут жаловаться из-за запаха (испарения вредные). Печать фигурки высотой 11 см длится около 3-х часов. Потом еще нужно с помощью бокорезов обрезать поддержки (над нависающими элементами). Займет полчаса. Опционально можно покрасить - я крашу кожу акриловой краской + акриловые маркеры + перманентные маркеры с тонким жалом. За раскраску сильно не пинайте, я в художку не ходил =)

2 949

Треним лоры для qwen/qwen-edit в fp8 в musubi-tuner под виндой Лоры для qwen-image также работают в qwen-image-edit. Musubi также поддерживает тренировку qwen-edit с 3 картинками: до, после и маска. Подробнее тут (я пока не тестил): https://github.com/kohya-ss/musubi-tuner/blob/main/docs/qwen_image.md Рекомендую тренить в разрешении 1024x1024, 3000 шагов, затем дополнительно в 1300x1300 еще 1000 шагов. Так будет более универсальная поддержка разных разрешений на выходе. За пару дней натренил 5 лор (стиль, концепт, персонажи), выкладываю 2. Для лоры на лицо можно использовать селфи, за 5000 шагов квен выучивает лицо очень неплохо. 1000-2000 шагов для квена - это слишком мало, надо 3000 минимум и на стиль и на персонажа. За ночь (~10 часов) у меня выходит 4000-5000 шагов на 3090 при 1024. На 3060 - в 16 раз медленнее. Датасет: 20-100 картинок с txt описанием в хорошем качестве и разрешении. В каком разрешении треним, в таком и делаем инференс для максимального качества. Список разрешений ваших картинок выводится в консоли в начале тренировки. Для лоры на персонажа: - датасет 30-40 картинок - фото не мелкие, разные ракурсы. Можно селфи. - если будут шумные (зерно) - на выходе тоже получите шумные - 3000 шагов минимум, я тренил 5000 шагов, 1024x1024 + 1300x1300 - в txt описании лучше делать полные описания. Уникальное имя (A13xandra) + в чем одета и что делает. # Требования: 32 RAM + 24 GB vram (на 12 слишком медленно)

На 3090-24GB:
768x768   block_swap 0, 22.6 vram,  4.17 s/it
1024x1024 block_swap 0, 23.9 vram,  8.50 s/it
1300x1300 block_swap 8, 24.2 vram, 16.41 s/it
На 3060-12GB:
1024x1024 block_swap 40, 11.8 vram, 140.0 s/it

musubi не поддерживает nf4. Если у вас нет 24GB - попробуйте https://github.com/Nerogar/OneTrainer, он поддерживает nf4 и работает с виндой. # Установка

git clone https://github.com/kohya-ss/musubi-tuner
cd musubi-tuner
conda create musubi
conda activate musubi
(musubi) C:\DATA\SD\musubi-tuner>pip install -e

модельки (нужны именно bf16 версии): https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/diffusion_models/qwen_image_bf16.safetensors https://huggingface.co/Qwen/Qwen-Image/blob/main/vae/diffusion_pytorch_model.safetensors https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/text_encoders/qwen_2.5_vl_7b.safetensors # Тренировка: - мой toml файл датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_hand_grab.toml - комманды запуска (в пост не влезли): https://github.com/Mozer/comfy_stuff/blob/main/musubi/musubi_qwen_commands.txt - при изменении разрешения тренировки надо заново создать кэш vae # Инференс: для qwen-image рекомендую сэмплер dpmpp_2m + beta либо res_2s + bong_tangent. Они показывают лучшую реалистичность 832x1248 или 1056x1600, cfg 3.0, 25 steps для qwen-image-edit я не нашел реалистичных сэмплеров, пока юзаю dpmpp_2m + beta. ВФ для qwen-edit: https://github.com/Mozer/comfy_stuff/blob/main/workflows/qwen_edit_hand_grab_25_steps.json lightning лора 4, 8 steps сильно ухудшает качество и реализм, по возможности не используйте её. Но будет медленно, 20-25 шагов - оптимально (2 минуты на картинку для qwen-edit). Мои qwen лоры: - marat safin style (стиль под пленку): https://civitai.com/models/1894150?modelVersionId=2353000 - hand grab (POV рука трогает объект): https://civitai.com/models/2081019?modelVersionId=2354652 - лора на русский язык еще тренится

2 949

vibevoice-7b-exl3 с реалтайм скоростью Оригинал работает так: 2 прохода LLM (позитив+негатив) + диффузия на основе этих проходов. ## Оптимизация - заменил LLM движок HF-transformers на exllamav3 (LLM стала быстрее в 3 раза) - заменил 2 прохода LLM на один, но с кэшем для негативного прохода - уменьшил число шагов до 5 (чуть меньше вариативности) - прикрутил разделение входного текста на абзацы (т.к. на длинном тексте начинает глючить) - диффузию не трогал, думаю прикрутить TeaCache - добавил стриминг с буфером 1s. Воспроизведение теперь начинается почти мгновенно ## Требования: - nvidia 3000+ (2000 серия не подойдет для exllamav3, но ноду можно запустить и без exllamav3) - от 8 GB vram (лучше 12) - flash-attention-2 (без него exllamav3 не работает) - моя exllamav3 - модель должна полностью входить в vram, частичной выгрузки нет ## Потребление vram - 7b-exl-8bit + no-llm-bf16 - 12.6GB - 7b-exl-4bit + no-llm-bf16 - 9.5GB (реалтайм на 3090, 9.00 it/s) - 7b-exl-4bit + no-llm-nf4 - 7.3GB (nf4 в 1.5 раза медленнее) - 1.5b-exl-8bit + no-llm-nf4 - 4.7GB - exl3 кванты по скорости +- одинаковые. Но 4bit у меня чуть-чуть быстрее. - nvidia 3060 всего на 20% процентов медленее чем 3090. ## Установка Винда: flash-attention-2 + exllamav3 + мои ноды Linux: только ноды flash-attention-2 Под виндой компилировать трудно, поэтому вот ссылки на скомпилированные whl для flash-attention-2: тут https://huggingface.co/lldacing/flash-attention-windows-wheel/tree/main или тут https://github.com/NeedsMoar/flash-attention-2-builds/releases Узнать вашу версию питона, торча и куды можно в comfyui - меню - Help - about Ниже я все ставлю на свой python 3.11, torch 2.6.0, cuda126. Для других версий, ищите сами по ссылкам выше (или компилируйте). Для flash-attention важно совпадение версии питона, торча и cuda. Для exllama главное, чтобы версия питона совпадала. cd C:\DATA\SD\ComfyUI_windows_portable_nvidia\ComfyUI_windows_portable\python_embeded

python.exe -m pip install https://huggingface.co/lldacing/flash-attention-windows-wheel/resolve/main/flash_attn-2.7.4%2Bcu126torch2.6.0cxx11abiFALSE-cp311-cp311-win_amd64.whl

exllamav3-v0.0.6 затем ставим exllamav3 v0.0.6 https://github.com/turboderp-org/exllamav3/releases/download/v0.0.6 я ставил эту:

python.exe -m pip install https://github.com/turboderp-org/exllamav3/releases/download/v0.0.6/exllamav3-0.0.6+cu128.torch2.7.0-cp311-cp311-win_amd64.whl

Если подходящих скомпилированных версий не нашлось - компилируем сами, гайд: https://www.reddit.com/r/Oobabooga/comments/1jq3uj9/guide_getting_flash_attention_2_working_on/ Скомпилировать exllamav3 на своей 3090 у меня не вышло - ругается, что архитектура старая, поэтому забил и установил whl. Занятный факт: компилируется только cuda код, а я его не модифицировал, поэтому whl подходит от оригинальной exllamav3-v0.0.6. А код в ноде использует мой репозиторий с модифицированным питон кодом. После этого ставим мои ноды через comfyui manager - install via git url: https://github.com/mozer/comfyUI-vibevoice-exl3 Либо через: cd ComfyUI/custom_nodes && git clone https://github.com/mozer/comfyUI-vibevoice-exl3 Перезапустить комфи. Воркфлоу с wav2lip (опционально): https://github.com/Mozer/ComfyUI-VibeVoice-exl3/blob/main/examples/vibevoice_exl3_with_wav2lip.json Модельки качать вручную не надо. Но если сильно хочется, то они тут: https://huggingface.co/collections/tensorbanana/vibevoice-68cd1bac5766dc65e90380c1 Если вручную - изучите структуру папок: /models/vibevoice/models--tensorbanana--vibevoice-1.5b-exl3-8bit/snapshots/badfbb16dd63a1a8e633ba6eb138a21303ed1325/model.safetensors - Грузить в ноду надо сразу 2 модельки, пример: VibeVoice-7B-no-llm-bf16 (3.2GB) + vibevoice-7b-exl3-4bit (4.4 GB). - Если шум в аудио на выходе - снизьте значение negative_llm_steps_to_cache до 1-2 или совсем до 0 (как в оригинале, но будет медленнее). Чем длинее кусок - тем больше вероятность шума. - Используйте split_by_newline:True для разбиения текста на куски по абзацам. Разбивать на куски по предложениям я не советую, интонация будет разная в каждом предложении.

2 949

Прикрутил потоковый режим для vibeVoice-7b в комфи vibeVoice-7b - лучшая открытая TTS для русского языка на данный момент. Ударения практически идеальные. Потоковый режим воспроизводит аудио напрямую в колонки по мере того, как оно генерируется. Скорости 3090 не хватает на реалтайм инференс 7b. Видюха примерно в 2 раза медленнее, чем надо. 1.5b тоже не идет в реалтайме, там есть какие-то проблемы со скоростью, я пока не разбирался. vibeVoice-7b практически идеально ставит ударения в русской речи. vibeVoice-1.5b тоже неплох, но присутствует сильный английский акцент, режет слух. Для английского - прикольно. Скорость vibeVoice-7b на 3090: для генерации длинного аудио длиной 30 секунд: - 53 секунда - без стриминга - 36 секунд со стримингом, до воспроизведения и буфером 20s для генерации короткого аудио длиной 15 секунд: - 27 секунд - без стриминга - 19 секунд со стримингом, до воспроизведения и буфером 10s Можно сократить время до воспроизведения, поставив буфер 3s, но тогда речь будет прерываться каждые 3 секунды на буферизацию. Возможно, на новых видюхах 5000 серии такого буфера хватит для реалтайм инференса. Галка free_memory_after_generate:False сокращает время инференса на 10 секунд, но с ней модель будет проблематично выгрузить из памяти комфи (она там намертво загружается). Для тестов ставьте галку в True, модель будет освобождать память в конце. Требования: Для 7b: в 7b_bf16 и 7b_fp16 требует 19 Гигов vram. В режиме bnb_nf4 - требование всего 9.2 GB. На 3090 рекомендую инференс в режиме fp16 - он на 10-15% быстрее, чем bf16. Если vram мало, то ставьте bnb_nf4. Для новых видюх 4000 и 5000 серии пробуйте fp8 (не тестил). Для 1.5b: 1.5b_bf16 требует 6 гигов vram. 1.5b_nf4 требует - 3.2 GB. Но nf4 медленнее в 2 раза чем bf16 и fp16. Уже сейчас этот воркфлоу можно прокинуть в sillyTavern, будет и потоковое аудио и wav2lip в конце (не потоковый). В планах далее прикрутить сюда потоковый wav2lip, чтобы видео генерировалось сразу по мере готовности аудио, а не в конце. Модельки автоматом скачиваются в комфи. Если надо вручную, в вф есть ссылки на HF. воркфлоу VibeVoice_streaming + wav2lip: https://github.com/Mozer/VibeVoice-ComfyUI/blob/main/examples/vibevoice_streaming_and_wav2lip.json мои ноды VibeVoice: https://github.com/Mozer/VibeVoice-ComfyUI мой wav2lip для комфи: https://github.com/Mozer/ComfyUI_wav2lip

2 949

Нейро-Эмма - Моя любовь чат джипити (infiniteTalk) слова: tensorbanana & gemini-2.5-pro песня: udio-1.5-allegro картинки: wan2.2 t2i анимация: wan2.2 i2v липсинк: infiniteTalk video2video консистентность: лора+детальное описание gemini-2.5-pro, наверное, лучше всех пишет стихи на русском. На самые жирные бэнгеры пришлось самому придумывать. udio-1.5-allegro (бесплатный) - удивил, он намного лучше бесплатного suno. Платные модели suno я не тестил, но те что стоят в бесплатном режиме - это просто прошлый век по сравнению с udio. Сгенерировал одну стартовую картинку с гитарой, далее просто продолжал ее через image2video и движение камеры. Лоры на движение камеры: зум вперед: https://civitai.com/models/1784288/motion-lora-camera-push-in-wan-14b-720p-i2v вправо-влево: https://civitai.com/models/1892318/whip-pan Еще пробовал через первый-последний кадр в vace, но выходило плохо с движением камеры, забил на это. Надо попробовать в wan-fun, но мне было лень качать. Также просил gemini-image (nano-banana) скомпоновать новый кадр со старыми персонажами, но тот отказался (скорее всего, ему топик не понравился). Робот танцует через vace video2video с dwpose. infiniteTalk video2video от kijai жрет кучу врам. При 720p со скользящим окном в 49 кадров - 34 GB (уходит в виртуальную vram). Все видео делится на куски по 49 кадров с перехлестом в 9 кадров и отправляется на липсинк. Чем больше окно, тем лучше консистеность, при 49 будут видны склейки. Окно в 65 и 81 кадр в 720p у меня падают по OOM ошибке. Если мало vram - пробуйте побольше blockswap, поменьше окно и 480p. Предположу, что на 12 GB должно запуститься, но это не точно. Скорость infiniteTalk: 28 секунд 720p видео генерируется за 40 минут на 3090. infiniteTalk работает на 2-х шагах с фиксированным деноизом 50%, а значит мелкие детали в исходном видео будут изменены. Например, в одном прогоне он сожрал барабанные палочки, Эмма просто махала руками. Поэтому нужно прописывать такие мелкие детали в промпт: Emma Watson woman is singing and playing at drum kit with 2 drum sticks in her hands, rock music, energetic music, fast movements wan-s2v пока не тестил, но он и не поддерживает режим video2video (там только одна говорящая картинка). А с infiniteTalk можно делать динамичные сцены. Сделал все за 3 вечера. Воркфлоу infiniteTalk video2video: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_infinitetalk_video2video_720p_49f.json

2 949

Говорящий видео аватар в Silly Tavern (F5 TTS + Float / wav2lip) - wav2lip (первое видео) - делает липсинк по видео + аудио (старый, быстрый, можно дать видео на вход, на выходе разрешение небольшое, видео размытое) - Float (второе видео) - делает липсинк по картинке + аудио (новый, не очень быстрый, не умеет брать видео на вход, на выход квадрат 512х512) # Установка Нужно: - свежая версия Silly Tavern (1.13.2, вышла 3 недели назад. До этого поддержки видео не было) - ComfyUI и кастомные ноды: ComfyUI-F5-TTS, ComfyUI_wav2lip, ComfyUI-FLOAT_Optimized. Ноды устанавливать через ComfyUI Manager - via URL. Русский язык в F5-TTS в комфи нода: https://github.com/niknah/ComfyUI-F5-TTS скачать русский файнтюн от misha24-10: https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN/blob/main/F5TTS_v1_Base_v2/model_last_inference.safetensors https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN/blob/main/F5TTS_v1_Base/vocab.txt оба файла положить в папку models/checkpoints/F5-TTS/ оба файла переименовать в ru.safetensors и ru.txt Референсное аудио для F5 должно быть коротким, 6-8 c. При 11 c - речь становится слишком быстрой. в папку /comfyUI/input положить 2 файла emma_ru_xtts_3.wav и emma_ru_xtts_3.txt: https://github.com/Mozer/comfy_stuff/tree/main/input в emma_ru_xtts_3.txt лежит текст сказанный в wav файле. в комфи в ноде F5 TTS audio advanced выбрать: model model:///ru.safetensors model_type: F5TTS_v1_Base sample_audio: emma_ru_xtts_3 # Float (говорящая голова по одной картинке) в комфи - нода: https://github.com/set-soft/ComfyUI-FLOAT_Optimized - на входе лицо должно смотреть строго прямо. Сверху кадра должно оставаться немного свободного места. - галка face_align обрежет лицо как надо. Без нее будут артефакты. - нет video2video, на вход только картинка - Потоковый режим я пока не прикрутил. С ним можно сократить время ожидания в 2 раза. - модельки скачаются сами при первом запуске - пример головы: https://github.com/Mozer/comfy_stuff/blob/main/input/ComfyUI_00463_2(2).jpg # Wav2lip в комфи - моя нода: https://github.com/Mozer/ComfyUI_wav2lip - прикрутил кэширование для скорости и пару настроек для удобства. - скачать модельку https://huggingface.co/Nekochu/Wav2Lip/blob/main/wav2lip_gan.pth и положить в \custom_nodes\ComfyUI_wav2lip\Wav2Lip\checkpoints - без модели нода не запустится. Перезагрузить ComfyUI (restart). - при первом запуске с новым видео обнаружение лица занимает около минуты. - примера видео не дам, сами найдете # Мои воркфлоу: (F5 + Wav2lip) и (F5 + Float): https://github.com/Mozer/comfy_stuff/tree/main/workflows/silly_tavern Скачать нужный ВФ и запустить в комфи. Проверить, что все работает, и он видит вашу картинку/видео. Затем нажать: верхнее меню - workflow -> Export (API) Далее ВАШ воркфлоу можно импортировать в silly Tavern. Мой ВФ импортировать в ST не надо, там указаны мои имена файлов, их у вас нет. # Настройка SillyTavern Меню Extensions -> Image generation: Source: comfyUI URL: http://127.0.0.1:8188 Очищаем поля "Common prompt prefix" и "Negative common prompt prefix" ComfyUI Workflow: жмем +. Пишем "F5_Wav2lip", вставляем ваш экспортированный воркфлоу. Проверяем/заменяем, что вместо "speech": "Какой-то текст", стоит "speech": "%prompt%", так мы будем передавать текст сообщения из silly в comfy. Верхнее меню - User Settings - Expand Message Actions (для удобства) - Вместо F5 TTS можно поставить XTTSv2 (в комфи я не тестил, но видел ноды). - на видео LLM - sainemo-remix-12b Скорость на 3090 для аудио длиной 13-17 секунд: - F5 + wav2lip - 17 секунд генерации, связка жрет 3 GB VRAM - F5 + Float - 55 секунд генерации, связка жрет 10 GB VRAM - На 3060: на 5 секунд дольше. Планирую добавить стриминг режим для Float, будет в 2 раза быстрее, но видео будет отображаться в отельном окне.

2 949

Wan2.2 A14B 3-шаговый воркфлоу для t2v, t2i, img2img и апскейла видео - 3 шага подходят для малого числа кадров: от 1 до 65 при 720р. При 81+ кадре этого уже не хватает, будет цветной шум, надо больше шагов. Чем больше разрешение и число кадров - тем больше шагов. Для 480р трёх шагов хватит на 81 кадр. - если виден цветной шум: увеличить силу лоры FusionX у обоих моделей, либо увеличить число шагов. - фото лучше делать в разрешении 1920х1080 и 1080х1536. Детализация офигенная. Пример в хайрез: https://raw.githubusercontent.com/Mozer/comfy_stuff/refs/heads/main/output/ComfyUI_06056_.png - Вертикальные фото/видео с высотой больше 1500 лучше не делать, будут искажения геометрии. - в исходном воркфлоу от comfy anonymous стоят верные настройки для передачи шума между сэмплерами. В популярных на реддите воркфлоу на 4 шага - стоят неканонические зачения. В них страдает детализация и текстура кожи. - малая модель на 5B мне не понравилась, похожа на 1.3b по качеству. - странный факт: 5B работает в 24fps и A14B в 16fps - промпты для видео брал с сайтов Вана: https://wan.video/explore и flow tv (Veo): https://labs.google/flow/tv/channels - cсылки на Лоры (fusionx, lightxt2, smartphone) внутри воркфлоу. - озвучку делал в mmaudio: https://huggingface.co/spaces/hkchengrex/MMAudio - если не считать отсутствие звука и речи, то визуально ван 2.2 очень похож на veo3. - с img2img прикольно переделывать аниме в реализм и обновлять графику старым играм (можно попроботь через video2video для старых игр). Регулировать силу исходной картинки приходится с помощью числа шагов и их соотношения на первом сэмплере. - апскейл видео слегка меняет лицо. чем больше шагов тем чётче картинка, но дальше от оригинала. 1+2 и 1+3 шага - оптимальны. - weight_dtype fp8e5m не работает на 3090 (шумит), используйте fp8_e4m3fn_fast - старые лоры - работают. Скорость на 3090: - видео 1280x720 49 кадров, 1+2 шага: 6 минут с интерполяцией - фото 1920х1088 2+2 шага: 1 минута - video2video 480p 97 кадров 1+3 шага: 6 минут с интерполяцией - на 16 гигах врам пойдет, но не надо ставить разрешение 720р и 121 кадр - иначе время генерации будет 14 часов. - ещё ждём teaCache для скорости. Примеры промптов: - Икеа: Cinematic shot of a sunlit empty Scandinavian bedroom. A sealed IKEA box trembles, opens, and flat pack furniture assembles rapidly into a stylish IKEA bedroom with bed, table, chair and other furniture. fixed wide angle, lighting: natural warm with cool accents, room: Scandinavian bedroom, elements: IKEA box (logo visible), Start: empty room at the beginning, then box opens, furniture assembles precisely and rapidly, ending: calm, modern bedroom with yellow IKEA accent. Furniture at the end: bed with yellow throw, bedside tables, lamps, wardrobe, shelves, mirror, art, rug, curtains, reading chair, plants - Бабка и яма: A TV news report from the streets of the Russian hinterland. The news anchor woman speaks into a microphone in Russian: "A huge pit has appeared in our city for three years now." At this time, in the background, a Russian grandmother with two heavy bags walks down the street and falls into a huge pit filled with water. The atmosphere is comical, with a deliberately serious tone of reporting. Photorealistic 4k 60fps video - куклы за столом: In a dimly lit Victorian-style living room, lace curtains flutter gently. muppets toys (kermit and others) sit around a round table, their figures illuminated by flickering candlelight. A whisper makes the porcelain teacups tremble, and the eyes in the paintings shift uneasily. Each slow, deliberate stop-motion frame heightens the tension. The camera pans slowly to the right, capturing every subtle movement of the puppets, enhancing the eerie atmosphere. The furniture and decorations in the background are clearly detailed. мои воркфлоу для A14B: https://github.com/Mozer/comfy_stuff/tree/main/workflows/wan2.2 попробовать wan2.2 (i2v - бесплатно, долго; t2v - 10 кредитов): https://wan.video/generate

2 949

T-one STT (распознавание речи на русском) под виндой (без WSL и докера) - размер очень маленький - 71M параметров (whisper large - 1500M), поэтому быстрый. - по первым ощущениям, уровень ошибок на уровне whisper-large. - но по метрикам превосходит все существующие модули распознавания речи для русского. - по умолчанию работает на CPU и довольно быстро. Намного быстрее виспера на cpu - на ГПУ запускать лень, надо triton-inference-server поднимать. Пишут, что для GPU нужно 8 GB vram - не ставит знаки препинания (а виспер ставит) - обычное голосовое сообщение умеренного качества, записанное на улице, длиной 74 секунды он распознал за 12 секунд на CPU. Работает потоково. Первая фраза появилась уже через 1 секунду. Итого: 10 ошибок, в основном, пропуск слов, которые плохо слышно, иногда неверные окончания. Установка под виндой (для linux или wsl - используйте официальную инструкцию)

git clone https://github.com/voicekit-team/T-one.git
cd T-one
python -m venv .venv
.venv\Scripts\activate

в файле pyproject.toml удаляем или комментируем (#) строчку 16:
`"kenlm (>=0.2.0,<1.0.0)",`

git clone https://github.com/Microsoft/vcpkg.git
cd vcpkg
bootstrap-vcpkg.sh
vcpkg integrate install
vcpkg install kenlm

cd ..
pip install poetry  
poetry lock
poetry install -E demo
pip install kenlm

uvicorn --host 127.0.0.1 --port 8081 tone.demo.website:app --reload

открываем 127.0.0.1:8081 в браузере

По умолчанию демо работает на CPU. Чтобы запустить на GPU нужно ставить TensorRT и triton-inference-server. Там свои сложности, под винду есть только некоторые версии сервера. Официальная инструкция (я не тестил) https://github.com/voicekit-team/T-one/blob/main/docs/triton_inference_server.ru.md гитхаб: https://github.com/voicekit-team/T-one HF: https://huggingface.co/t-tech/T-one

2 949

Float - липс синк и говорящая голова на реал-тайм скорости - на вход картинка 512х512 - лицо должно занимать 60% кадра и смотреть прямо. Если есть обрезка головы, например, макушка, на выходе будут сильные артефакты - нет video2video, на вход только картинка - поддерживает 7 эмоций, можно задавать вручную: 'angry', 'disgust', 'fear', 'happy', 'neutral', 'sad', 'surprise' (гнев", "отвращение", "страх", "радость", "нейтральность", "грусть", "удивление"). По умолчанию использует смешанные эмоции. - скорость на 3090 почти реалтайм: 39 секунд аудио за 41 секунду обработки - жрет всего 3.3 гига VRAM при 20 секундах аудио - в комфи ставится через manager по URL без всяких танцев с бубном Надо бы сделать в комфи авто-вырезалку квадратного портрета с последующей склейкой обратно поверх исходного лица. код: https://github.com/set-soft/ComfyUI-FLOAT_Optimized ноды для comfy: https://github.com/set-soft/ComfyUI-FLOAT_Optimized видео примеры: https://deepbrainai-research.github.io/float/

2 949

Flux Kontext с промптами 1. Колоризация старых фото: colorize this photo 2. Колоризация манги: colorize this manga 3. снять одежду: remove clothes, нужна лора https://huggingface.co/llama-anon/not-flux-kontext-dev-clothes-remover 4. апскейл фото: upscale this image, make it crisp, add details 5. объект с разных ракурсов: Same character but in the 3 positions, front, side and back. 6. real2anime: turn this photo into Ghibli Studio anime 7. anime2real: make it realistic 8. замена текста: Replace text 'BKYCHO - U TO4KA' with text 'BKYC ßAHAHA' Моя русская лора https://civitai.com/models/1056401/russian-text-or-flux , но работает так себе. 9. сменить пол: turn her into a man, but keep facial features the same. big cheekbones 10. перенос объектов с разных фото:

add woman from the right image to the left image. so now they are standing together. make them the same height. right woman has bare feet

11. на обложку журнала: Turn this into VOGUE magazine cover. background is now grey. Add some titles on the cover 12. лего: turn them into Lego style 13. убрать вотермарки: remove watermarks 14. пиксельарт/8bit: turn this into 8-bit NES art - Разрешение 1024x1024, 1568x672 и разные вариации. Можно больше, но, скорее всего, будет хуже. - Лоры от Flux dev работают, но хуже. - Работает на 15-20 шагах, 40-55 секунд на 3090. TeaCache работает, но возможны ухудшения качества. 15 шагов + teacache_0.40 = 20 секунд официальный гайд по Kontext: https://docs.bfl.ai/guides/prompting_guide_kontext_i2i#basic-object-modifications воркфлоу: https://comfyanonymous.github.io/ComfyUI_examples/flux/#flux-extras потестить онлайн: https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev Если есть еще интересные кейсы - кидайте в комменты.