Psy Eyes

@psy_eyes

Креатив + AI + Web3... и мемы Личная страница @andrey_bezryadin

إظهار المزيد

روسيا102 530الروسية110 486الفن والتصميم5 207

مشاركات الإعلانات

3 848

المشتركون

لا توجد بيانات24 ساعات

+147 أيام

+7430 أيام

1 709

عرض المشاهدات

~ 78824 ساعات

~ 87048 ساعات

44.41%

معدل المشاركة

20.5%24 ساعات

22.6%48 ساعات

الإشارات

17 أيام

530 أيام

~ 1

المشاركات في اليوم

لا توجد بيانات

ردود

~ 7

تعليقات

~ 31

إعادة

المشتركون
التغطية البريدية
ER - نسبة المشاركة

جاري تحميل البيانات...

00:51

Video unavailableShow in Telegram

Suno таки выпустили Audio Input фичу, через которую можно подгружать свои звуки или семплы, и нейронка на их основе по вашему промту сгенерит музыку. 1. Заходим в Library —> Upload audio 2. Загружаем или записываем фрагмент длиной 6-60 секунд 3. Нажимаем extend на аудио и выбираем тайминг откуда генерить, жанр, и свой текст песни, если нужно. Пока не вижу в твиттере, чтобы спустя несколько дней народ увлёкся фичей (из слушабельного только раз и два). Во-первых она только для владельцев платной подписки, во-вторых с музыкой не так легко, как с картинками и видео. Kiffness и Venjent всё ещё в рулят. Как и чуваки с Loopstation.

إظهار الكل...

RMmNidislEPqwrq4.mp414.15 MB

00:06
Video unavailableShow in Telegram
00:06
Video unavailableShow in Telegram

У меня есть несколько промтов, на которых я всё тестирую. И Omost наиболее близок к тому, что я представляю. Учтено всё: и общая композиция, и летающие машины (которые другие text-2-image модели не вписывают), и город похож именно киберпанковый, а не современный. Если до этого не пробовали Omost: в ней используется LLM для композиции генерируемого изображения с помощью Python. Сначала вкидываем промт и кликаем Submit. Получив код, нажимаем Render и ловим картинку. Всё таки насколько крут Illyasviel. Создал ControlNet, Forge, Fooocus, IC-Light и продолжает пилить инновационные плюхи типа Omost, которые удивляют своими подходами. Cделал для сообщества чуть ли ни больше, чем сами Stability. Промт для картинки в обоих случаях:

a cat looking at a cyberpunk city from the edge of the roof at night with flying cars, view from behind, very high detail

Luma + Fooocus: a camera orbit around a cat Luma + Omost: промт такой же как для картинки

إظهار الكل...

Omost + Luma.mp48.00 MB

fooocus + luma 3.mp48.83 MB

00:26

Video unavailableShow in Telegram

Пробуем покрутиться на 360. Заметил, что если скормить PNG с прозрачным фоном камера сговорчивее идёт на новые углы обзора. Из одной картинки пропорции понимает пожалуй лучше, чем Meshy. При этом надпись отлично сохраняется как ни крути.

إظهار الكل...

watermarked_video06b84ac61e0944d95899eb147ea16b1ac_11_ezgif_com.mp47.50 MB

00:26

Video unavailableShow in Telegram

Первые тесты впечатляют. И, несмотря на то, что нейронка многое добавляет от себя, это всё равно выглядит интересно. Но нужен контроль.

إظهار الكل...

watermarked_video06b84ac61e0944d95899eb147ea16b1ac_10_ezgif_com.mp49.56 MB

00:06
Video unavailableShow in Telegram
00:06
Video unavailableShow in Telegram
00:06
Video unavailableShow in Telegram
00:06
Video unavailableShow in Telegram
00:06
Video unavailableShow in Telegram
00:06
Video unavailableShow in Telegram
00:30
Video unavailableShow in Telegram
00:06
Video unavailableShow in Telegram
00:06
Video unavailableShow in Telegram
00:18
Video unavailableShow in Telegram

Luma выпустили свой генератор видео Dream Machine и это просто отвал башки! На вход может идти текст отдельно, либо в связке с картинкой. Чисто на основе промта вполне может получиться годный результат, но второй вариант предпочтительнее, ибо так у модели есть опорные кадры. Можно даже делать длинные видосы, если использовать скриншот из конца предыдущей генерации. При включённой галочке Enhanced Promt модель сама понимает что на картинке и от вас требуется только описать действие. Если кажется, что генерация уводится не туда, попробуйте описать экшн детальнее. Либо снять галочку, но тогда надо будет описать и то, что на картинке и то, что должно произойти: чем больше подробностей о движении камеры, действии в сцене, и том как выглядят объекты + фон, тем лучше. Luma предоставили гайд как подойти к промту и генерации в целом. На выходе получаются видео в относительно высоком разрешении, длиной 5 секунд и фреймрейтом 24 к/с. За пару дней до этого вышел китайский Kling, в котором тоже годное качество, но у Luma нет вейтлиста и результаты значительно лучше. Кипение минимальное, а текст/надписи держатся под любым углом и не превращаются в кашу. Чувствуется, что есть понимание пространства, физики объектов и освещения а-ля Sora. Картинка кинематографичная, с плавными движениями камеры и моушн блюром. Для анимированных обложек, или коротких зацикленных рекламных видосов в соцсетях уже можно использовать с двух ног. Потом подъедут крутилки для контроля кадра, а там глядишь и доживём до генерации в стиле NUWA с получением длинных видео, просто описывая ключевые моменты. Надо ещё будет поиграться со значениями фокуса, диафрагмы, итд, а может и даже с характеристиками из мира 3D, коль ноги у модели именно оттуда растут. Я ещё в прошлом году заметил, что среди text-2-video моделей начался движ в сторону трёхмерного пространства для генерации объектов с учётом окружения и разнесения их на слои. Вполне возможно сегодняшние 3D стартапы (Polycam, Meshy, итд), особенно работающие со сплатами или нерфами, завтра будут генерить видео. Даже Midjourney тяготеют к генерации видосов и 3D. На бесплатном акке 30 генераций в месяц, подписка от $30 за 180 генераций. Го генерить котаны! Dream Machine Гайд от Luma

إظهار الكل...

9p2WfDalQSrkGEyk.mp47.02 KB

watermarked_video00185405af81547e6a3b9d30bb2ec9f91.mp49.23 KB

L6A-RYVNHfcoeaec.mp42.35 KB

z46wV4Brfu7tL_gP.mp43.32 KB

9JupO3mesaiHoq-j.mp41.18 MB

x1EVi757WBg_m2gL.mp42.33 KB

WYXK3NDjSIQE2WYh.mp45.45 MB

pPJwtwyUHmHVhkiX.mp41.14 KB

lUMwDFCC1NX7Gn6l.mp42.80 KB

9JtIV_dxzK9g4z6i.mp42.63 MB

Photo unavailableShow in Telegram

С релиза Stable Diffusion 3 прошло пару дней. Время осмотреться. В опенсорс ушла 2B версия Medium, а крупные Large и Ultra остались в облаке и их можно пощупать через чат-бота Stable Assistant. Улучшилось понимание промта, проработка деталей/цвета/освещения, рендер надписей. При этом требования к железу умеренные: может влезть на 8 Гб VRAM. Заколлабили с Nvidia, чтобы ускорить на RTX видюхах с TensorRT генерацию на 50%. Про AMD тоже не забыли, но не указали для каких пользовательских девайсов сделали оптимизацию. Есть некоммерческая исследовательская лицензия, коммерческая в виде подписки за $20, и отдельная для компаний. Первые отзывы говорят, что не все так радужно с качеством генерации. Особенно людей. А с файнтюном есть проблемы. В том числе из-за лицензии. В ряде случаев SDXL или лоры SD 1.5 все еще привлекательнее. Посмотрим как будут развиваться события. Анонс Демо раз и два Хаггинг Оптимизированая TensorRT-версия Comfy Инструкция по установке

إظهار الكل...

Неделька выдалась жаркая. Основное пойдёт отдельными постами, а пока дайджест: 📹 ВИДЕО + АРТ 🎨 Midjourney: добавили на сайт персонализацию генераций. Модель будет больше делать изображений в соответствии с вашим вкусом и меньше давать отсебятины. Nijijourney: у этого генератора аниме-картинок улучшилась детализация и рендер текста/иероглифов. Pika: обновили image-2-video модель. Улучшилось качество и стабильность генерируемого видео. Neurogen: в дипфейкере RopeMod v 2.2 улучшилась производительность и появилась настройка точек отслеживания лица. Phygital+: обновили Face Swap. Генерация стала реалистичнее и точнее. Real3D: шустрый генератор 3D. Но качество уступает Meshy, CRM, и другим. Unique3D: тоже генерация 3D объектов. Результаты получше, чем у модели выше. DreamGaussian4D: получаем из картинки движущуюся 4D сцену на основе сплатов. Lumia: нейронка для генерации в разных модальностях (изображения, музыка). Flash Diffusion: модель дистиллированная из Pixart-A для быстрого создания картинок 1024х1024 в 4 шага. Анонс. 🎸 ЗВУК 🎸 Stability: выложили Stable Audio в открытый доступ, через который можно генерить звуковые эффекты и семплы длиной до 47 секунд. Версию для генерации музыки они оставили доступной по своей подписке. Демо и локальная установка через Pinokio. See-2-Sound: скармливаем видео и получаем звуковые эффекты. 🤖 ЧАТЫ 🤖 HuggingFace: добавили новые AI-приложения для локального запуска больших языковых моделей (LLM) через Use this model. LaVague: фреймворк для создания промтом AI-агентов, которые могут выполнять задания в интернете. Mobile Agent: в версии V2 этого мобильного AI-агента, улучшилось взаимодействие с приложениями на телефоне, а также планирование цепочки задач. Chat with MLX: интерфейс для локальной работы c разными LLM в формате MLX для маков. Qwen: выпустили LLM версии V2 в размерах от 0.5B до 72B, контекстом 128к у некоторых вариантов, и натаскали её на 27 языках, коде, и математике. Apple: провели презу WWDC 2024, на которой анонсировали Apple Intelligence способный генерить текст, картинки, и помогать в повседневных задачах. А также интеграцию с ChatGPT. Yandex: выпустили YaFSDP для ускорения обучения LLM и сокращения расходов на GPU. FastEmbed: в версию v 0.3 добавили поддержку новых эмбеддингов. Nvidia: выпустили мощную LLM Nemotron-4-340B, натренированную на 9 трлн. токенов текста на 50+ языках и коде. Контекст 4к. Локально не погонять, слишком большая. Как сделать свой чат по PDF на основе Mistral. Карпаты выпустил гайд по тренироваки GPT-2 модели с нуля. VideoLlama 2: новая визуальная языковая модель (VLM) для чата по картинкам и видео. MotionLLM: тоже VLM, но с фокусом на понимании поведения человека в кадре. Конвертор PDF в датасет. 3D-Grand: VLM для чата по 3D локациям. Magpie: генерация высококачественных данных для алаймента LLM. Как сделать своё AI-приложение для выжимки YouTube видосов на основе Gradio, Groq, и Replit. 💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

إظهار الكل...

Photo unavailableShow in Telegram

Собираю новый комп. Остальные железные потроха подъедут в скором времени. Будет теперь на чём локально тестить жирные модельки. Кстати ещё раз спасибо всем за донаты на ДР. Все пошли в дело. Для тех, кто закинул как соберу комп попробую раскатать инференс и скинуть ссылку в личку, чтобы вы на ней погенерили. Всех обнял!

إظهار الكل...

01:27
Video unavailableShow in Telegram
00:09
Video unavailableShow in Telegram
00:34
Video unavailableShow in Telegram

Новое в сплатах: PlayCanvas: в версии v 0.19.2 теперь можно редактировать много вещей внутри одной сцены. Также поменялся порядок загрузки сплатов, и объекты вне поля зрения камеры больше не рендерятся, что значительно увеличило производительность. Появилась установка SuperSplat как PWA для запуска с панели задач на винде и ассоциирования .ply фалов с софтом. Плюс обновления и исправления в рендере через WebGPU и другие мелочи. В релиз входит пак эффектов, схожий с плагином Irrealix для After Effects, но тут не требуется знаний. Покрутить сцену со статуей из видео можно тут, а отредактировать её самому здесь. NerfStudio: выпустили свой движок для рендера сплатов gsplat 1.0. Требования к памяти значительно снизились, а скорость трени где-то ускорилась в разы. При этом можно рендерить огромные сцены. Лицензия Apache 2.0, в то время как у родной 3DGS от Inria разрешено только некоммерческое использование. Сам софт NerfStudio обновился до v 1.1.2. Интегрировали AbsGS, улучшающий детализацию сцен, при этом экономя память. Появилась поддержка интерфейса Gradio. Добавили новые методы SIGNeRF, OpenNeRF, и NeRFtoGSandBack для реконструкции 3D, а также RealityCapture под бесплатной лицензией, но не для России. Плюс много мелких улучшений. 3DGS-Deblur: проект, устраняющий в сцене блюр и эффект плавающего затвора, делая картинку более чёткой и стабильной. StopThePop: тоже улучшатель, только с фокусом на избавлении от фликера. AtomGS: обработка визуала в два захода на одной 4090, для получения сплатов с неплохой детализацией.

إظهار الكل...

PlayCanvas Gaussian Splatting Editor.mp47.71 MB

PlayCanvas Gaussian Splatting Animations.mp47.76 KB

337731907-e60f7603-3c8a-4d05-a3ae-e382507eb043.mp48.04 MB