Psy Eyes
Креатив + AI + Web3... и мемы Личная страница @andrey_bezryadin
إظهار المزيد3 848
المشتركون
لا توجد بيانات24 ساعات
+147 أيام
+7430 أيام
- المشتركون
- التغطية البريدية
- ER - نسبة المشاركة
جاري تحميل البيانات...
معدل نمو المشترك
جاري تحميل البيانات...
00:51
Video unavailableShow in Telegram
Suno таки выпустили Audio Input фичу, через которую можно подгружать свои звуки или семплы, и нейронка на их основе по вашему промту сгенерит музыку.
1. Заходим в Library —> Upload audio
2. Загружаем или записываем фрагмент длиной 6-60 секунд
3. Нажимаем extend на аудио и выбираем тайминг откуда генерить, жанр, и свой текст песни, если нужно.
Пока не вижу в твиттере, чтобы спустя несколько дней народ увлёкся фичей (из слушабельного только раз и два). Во-первых она только для владельцев платной подписки, во-вторых с музыкой не так легко, как с картинками и видео.
Kiffness и Venjent всё ещё в рулят. Как и чуваки с Loopstation.
RMmNidislEPqwrq4.mp414.15 MB
У меня есть несколько промтов, на которых я всё тестирую. И Omost наиболее близок к тому, что я представляю. Учтено всё: и общая композиция, и летающие машины (которые другие text-2-image модели не вписывают), и город похож именно киберпанковый, а не современный.
Если до этого не пробовали Omost: в ней используется LLM для композиции генерируемого изображения с помощью Python. Сначала вкидываем промт и кликаем Submit. Получив код, нажимаем Render и ловим картинку.
Всё таки насколько крут Illyasviel. Создал ControlNet, Forge, Fooocus, IC-Light и продолжает пилить инновационные плюхи типа Omost, которые удивляют своими подходами. Cделал для сообщества чуть ли ни больше, чем сами Stability.
Промт для картинки в обоих случаях:
a cat looking at a cyberpunk city from the edge of the roof at night with flying cars, view from behind, very high detail
Luma + Fooocus: a camera orbit around a cat
Luma + Omost: промт такой же как для картинкиOmost + Luma.mp48.00 MB
fooocus + luma 3.mp48.83 MB
00:26
Video unavailableShow in Telegram
Пробуем покрутиться на 360. Заметил, что если скормить PNG с прозрачным фоном камера сговорчивее идёт на новые углы обзора.
Из одной картинки пропорции понимает пожалуй лучше, чем Meshy. При этом надпись отлично сохраняется как ни крути.
watermarked_video06b84ac61e0944d95899eb147ea16b1ac_11_ezgif_com.mp47.50 MB
00:26
Video unavailableShow in Telegram
Первые тесты впечатляют. И, несмотря на то, что нейронка многое добавляет от себя, это всё равно выглядит интересно. Но нужен контроль.
watermarked_video06b84ac61e0944d95899eb147ea16b1ac_10_ezgif_com.mp49.56 MB
Luma выпустили свой генератор видео Dream Machine и это просто отвал башки!
На вход может идти текст отдельно, либо в связке с картинкой. Чисто на основе промта вполне может получиться годный результат, но второй вариант предпочтительнее, ибо так у модели есть опорные кадры. Можно даже делать длинные видосы, если использовать скриншот из конца предыдущей генерации.
При включённой галочке Enhanced Promt модель сама понимает что на картинке и от вас требуется только описать действие. Если кажется, что генерация уводится не туда, попробуйте описать экшн детальнее. Либо снять галочку, но тогда надо будет описать и то, что на картинке и то, что должно произойти: чем больше подробностей о движении камеры, действии в сцене, и том как выглядят объекты + фон, тем лучше. Luma предоставили гайд как подойти к промту и генерации в целом.
На выходе получаются видео в относительно высоком разрешении, длиной 5 секунд и фреймрейтом 24 к/с. За пару дней до этого вышел китайский Kling, в котором тоже годное качество, но у Luma нет вейтлиста и результаты значительно лучше. Кипение минимальное, а текст/надписи держатся под любым углом и не превращаются в кашу. Чувствуется, что есть понимание пространства, физики объектов и освещения а-ля Sora. Картинка кинематографичная, с плавными движениями камеры и моушн блюром.
Для анимированных обложек, или коротких зацикленных рекламных видосов в соцсетях уже можно использовать с двух ног.
Потом подъедут крутилки для контроля кадра, а там глядишь и доживём до генерации в стиле NUWA с получением длинных видео, просто описывая ключевые моменты.
Надо ещё будет поиграться со значениями фокуса, диафрагмы, итд, а может и даже с характеристиками из мира 3D, коль ноги у модели именно оттуда растут.
Я ещё в прошлом году заметил, что среди text-2-video моделей начался движ в сторону трёхмерного пространства для генерации объектов с учётом окружения и разнесения их на слои. Вполне возможно сегодняшние 3D стартапы (Polycam, Meshy, итд), особенно работающие со сплатами или нерфами, завтра будут генерить видео. Даже Midjourney тяготеют к генерации видосов и 3D.
На бесплатном акке 30 генераций в месяц, подписка от $30 за 180 генераций.
Го генерить котаны!
Dream Machine
Гайд от Luma
9p2WfDalQSrkGEyk.mp47.02 KB
watermarked_video00185405af81547e6a3b9d30bb2ec9f91.mp49.23 KB
L6A-RYVNHfcoeaec.mp42.35 KB
z46wV4Brfu7tL_gP.mp43.32 KB
9JupO3mesaiHoq-j.mp41.18 MB
x1EVi757WBg_m2gL.mp42.33 KB
WYXK3NDjSIQE2WYh.mp45.45 MB
pPJwtwyUHmHVhkiX.mp41.14 KB
lUMwDFCC1NX7Gn6l.mp42.80 KB
9JtIV_dxzK9g4z6i.mp42.63 MB
Photo unavailableShow in Telegram
С релиза Stable Diffusion 3 прошло пару дней. Время осмотреться.
В опенсорс ушла 2B версия Medium, а крупные Large и Ultra остались в облаке и их можно пощупать через чат-бота Stable Assistant.
Улучшилось понимание промта, проработка деталей/цвета/освещения, рендер надписей.
При этом требования к железу умеренные: может влезть на 8 Гб VRAM. Заколлабили с Nvidia, чтобы ускорить на RTX видюхах с TensorRT генерацию на 50%. Про AMD тоже не забыли, но не указали для каких пользовательских девайсов сделали оптимизацию.
Есть некоммерческая исследовательская лицензия, коммерческая в виде подписки за $20, и отдельная для компаний.
Первые отзывы говорят, что не все так радужно с качеством генерации. Особенно людей. А с файнтюном есть проблемы. В том числе из-за лицензии. В ряде случаев SDXL или лоры SD 1.5 все еще привлекательнее.
Посмотрим как будут развиваться события.
Анонс
Демо раз и два
Хаггинг
Оптимизированая TensorRT-версия
Comfy
Инструкция по установке
Неделька выдалась жаркая. Основное пойдёт отдельными постами, а пока дайджест:
📹 ВИДЕО + АРТ 🎨
Midjourney: добавили на сайт персонализацию генераций. Модель будет больше делать изображений в соответствии с вашим вкусом и меньше давать отсебятины.
Nijijourney: у этого генератора аниме-картинок улучшилась детализация и рендер текста/иероглифов.
Pika: обновили image-2-video модель. Улучшилось качество и стабильность генерируемого видео.
Neurogen: в дипфейкере RopeMod v 2.2 улучшилась производительность и появилась настройка точек отслеживания лица.
Phygital+: обновили Face Swap. Генерация стала реалистичнее и точнее.
Real3D: шустрый генератор 3D. Но качество уступает Meshy, CRM, и другим.
Unique3D: тоже генерация 3D объектов. Результаты получше, чем у модели выше.
DreamGaussian4D: получаем из картинки движущуюся 4D сцену на основе сплатов.
Lumia: нейронка для генерации в разных модальностях (изображения, музыка).
Flash Diffusion: модель дистиллированная из Pixart-A для быстрого создания картинок 1024х1024 в 4 шага. Анонс.
🎸 ЗВУК 🎸
Stability: выложили Stable Audio в открытый доступ, через который можно генерить звуковые эффекты и семплы длиной до 47 секунд. Версию для генерации музыки они оставили доступной по своей подписке. Демо и локальная установка через Pinokio.
See-2-Sound: скармливаем видео и получаем звуковые эффекты.
🤖 ЧАТЫ 🤖
HuggingFace: добавили новые AI-приложения для локального запуска больших языковых моделей (LLM) через Use this model.
LaVague: фреймворк для создания промтом AI-агентов, которые могут выполнять задания в интернете.
Mobile Agent: в версии V2 этого мобильного AI-агента, улучшилось взаимодействие с приложениями на телефоне, а также планирование цепочки задач.
Chat with MLX: интерфейс для локальной работы c разными LLM в формате MLX для маков.
Qwen: выпустили LLM версии V2 в размерах от 0.5B до 72B, контекстом 128к у некоторых вариантов, и натаскали её на 27 языках, коде, и математике.
Apple: провели презу WWDC 2024, на которой анонсировали Apple Intelligence способный генерить текст, картинки, и помогать в повседневных задачах. А также интеграцию с ChatGPT.
Yandex: выпустили YaFSDP для ускорения обучения LLM и сокращения расходов на GPU.
FastEmbed: в версию v 0.3 добавили поддержку новых эмбеддингов.
Nvidia: выпустили мощную LLM Nemotron-4-340B, натренированную на 9 трлн. токенов текста на 50+ языках и коде. Контекст 4к. Локально не погонять, слишком большая.
Как сделать свой чат по PDF на основе Mistral.
Карпаты выпустил гайд по тренироваки GPT-2 модели с нуля.
VideoLlama 2: новая визуальная языковая модель (VLM) для чата по картинкам и видео.
MotionLLM: тоже VLM, но с фокусом на понимании поведения человека в кадре.
Конвертор PDF в датасет.
3D-Grand: VLM для чата по 3D локациям.
Magpie: генерация высококачественных данных для алаймента LLM.
Как сделать своё AI-приложение для выжимки YouTube видосов на основе Gradio, Groq, и Replit.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Photo unavailableShow in Telegram
Собираю новый комп. Остальные железные потроха подъедут в скором времени.
Будет теперь на чём локально тестить жирные модельки.
Кстати ещё раз спасибо всем за донаты на ДР. Все пошли в дело.
Для тех, кто закинул как соберу комп попробую раскатать инференс и скинуть ссылку в личку, чтобы вы на ней погенерили.
Всех обнял!
Новое в сплатах:
PlayCanvas: в версии v 0.19.2 теперь можно редактировать много вещей внутри одной сцены. Также поменялся порядок загрузки сплатов, и объекты вне поля зрения камеры больше не рендерятся, что значительно увеличило производительность. Появилась установка SuperSplat как PWA для запуска с панели задач на винде и ассоциирования .ply фалов с софтом. Плюс обновления и исправления в рендере через WebGPU и другие мелочи.
В релиз входит пак эффектов, схожий с плагином Irrealix для After Effects, но тут не требуется знаний.
Покрутить сцену со статуей из видео можно тут, а отредактировать её самому здесь.
NerfStudio: выпустили свой движок для рендера сплатов gsplat 1.0. Требования к памяти значительно снизились, а скорость трени где-то ускорилась в разы. При этом можно рендерить огромные сцены. Лицензия Apache 2.0, в то время как у родной 3DGS от Inria разрешено только некоммерческое использование.
Сам софт NerfStudio обновился до v 1.1.2. Интегрировали AbsGS, улучшающий детализацию сцен, при этом экономя память. Появилась поддержка интерфейса Gradio. Добавили новые методы SIGNeRF, OpenNeRF, и NeRFtoGSandBack для реконструкции 3D, а также RealityCapture под бесплатной лицензией, но не для России. Плюс много мелких улучшений.
3DGS-Deblur: проект, устраняющий в сцене блюр и эффект плавающего затвора, делая картинку более чёткой и стабильной.
StopThePop: тоже улучшатель, только с фокусом на избавлении от фликера.
AtomGS: обработка визуала в два захода на одной 4090, для получения сплатов с неплохой детализацией.
PlayCanvas Gaussian Splatting Editor.mp47.71 MB
PlayCanvas Gaussian Splatting Animations.mp47.76 KB
337731907-e60f7603-3c8a-4d05-a3ae-e382507eb043.mp48.04 MB