Царство Метавселенных

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.

Russia474 901Russian506 744Art & Design28 031

Advertising posts

185

Subscribers

No data24 hours

-937 days

-2 02530 days

1 257

Post views

~ 1 22824 hours

~ 1 25448 hours

679.46%

Engagement rate

663.8%24 hours

677.8%48 hours

312

Mentions

No data7 days

No data30 days

~ 5

Posts per day

~ 1

Reactions

No data

Comments

No data

Reposts

Subscribers
Post coverage
ER - engagement ratio

Data loading in progress...

00:49

Video unavailableShow in Telegram

Ну и на прошлой неделе долго рассматривал старые клипы с Шинед О'Коннор и Майклом Джексоном, а также игрался с Hedra и Face Fusion. Просто хочу напомнить, что клип Black or White снят в 1991 году. И весь этот нейроморфинг между двумя кадрами в Люма, от которого народ писается твиттором, это не новая идея, а просто прием, придуманные очень давно. Просто он стал доступен ВСЕМ одной кнопкой. И морфит целые миры, а не картинки. Я помню, как был на концерте Майкла Джексона в Москве в 1996 году. Стадион Динамо. 70 000 человек. Это те самые ощущения, которые не описываются словами и остаются в латентном пространстве. Майкл всегда опережал время. В 2019 был в Вегасе на шоу в честь Майкла, они сделали танцующую голограмму - это пробивает до слез. Поэтому я просто потратил воскресенье и отреставрировал кусочек клипа с морфингом. Чтобы показать, что делали в 1991 году и просто отдать дань любимому артисту, который всегда был на шаг впереди.

Show all...

Black Or White_1080p_normal-540-60q-face-frame.mp48.94 MB

00:31

Video unavailableShow in Telegram

Ну и вот вам такой пример. Если описать картинку с рукой и пальцами еще можно в одном промпте (а еще проще щелкнуть на телефон свою растопыренную руку и загнать в КонтролНет). То как вы опишете вот такое движение пальцев, когда захотите сделать подобное видео? Ибо промптом не получится - нет в датасетах описания такого движения, да и язык у вас не повернется описать такое. Снять на камеру референс? Вы уверены, что ваши сосиски так гнутся? Остается сделать референс в 3Д, как на видео - это Блендор и Крита. Но если сделать референс, то проще его отрендерить. Это я к тому (в сотый раз), что описывать картинки и описывать видео - это две разных задачи. Разных порядков сложности. Пока мы на уровне с нейрогимнастикой.

Show all...

tgfdgsfds.mp45.70 MB

00:11

Video unavailableShow in Telegram

Я тут неделю погружался в видео-генераторы, поэтому, извините, напишу еще, тем более на поляне ЛЛМ пока передышка. Вот смотрите, как ловко Runway генерит руки пианиста. Твитторок уже покрикивает "GEN-3 решил проблему рук". Но нет. Просто в датасетах ОЧЕНЬ много видео, где абстрактный Женя Кисин играет обобщенного Стравинского, а камера с восторгом взирает на его руки. Если посмотреть на другие примеры, то Runway НЕ решил проблему с руками, более того, она примерно там, где была год назад. Ибо нет размеченных датасетов типа "человек машет руками, с пятью пальцами на каждой". Более того, после того, как мы приподвзвизжали по поводу ИИ-видосиков из Твиттора, стали приходить новости от тех, кому дали доступ. Вывод в среднем по больнице такой: в твитторах ацкий черри-пик. Чтобы получить сносный видос, надо потратить 10-15 итераций. Это я к тому, что генерация видосов сейчас на очень начальной стадии (типа Stable Diffusion 1.0). И чтобы вы не впадали в прелесть. А то получите доступ через пару недель для всех...

Show all...

ssstwitter.com_1719800780009.mp41.61 MB

Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram

Ну, за шрифтовых дизайнеров. Смотрите, какая, оказывается, штука есть у Гугла! Генератор шрифтов. Промптом пишете описание шрифта, а он вам выдает россыпь PNG файлов с английским алфавитом. Поддерживаются только буквы и только английские. Похожая фича есть в Adobe Firefly, то тут бесплатно. Фон придется удалять ручками. Осторожно, можно залипнуть, особенно придумывая названия шрифтов типа Fractal Madness. Я лично залип. Кстати, похоже, что для генерации логосов и иконок это может оказаться очень полезной штукой. Пример с мороженным тому пример. https://labs.google/gentype

Show all...

Photo unavailableShow in Telegram
Photo unavailableShow in Telegram

Сравнил шрифты от Google и от Адобченко. Гугловый выглядит явно концептуальней. Но адобовский уже готов к использованию в Adobe Express хоть сейчас. Можно лепить на любой макет. Ну и Гугловый - это все таки не шрифт, а набор картинок. Промпт был

3D VR space and metaverse

Но адобе запрещает слово VR в промптах, что бы это не значило...

Show all...

Photo unavailableShow in Telegram
00:06
Video unavailableShow in Telegram

Ну и вот вам пример работы новой фичи с двумя кадрами в Люма. Обратите внимание, что ничего не кипит как в AnimDiff, а рябь на мелких узорах скорее напоминает отсутствие анти-алиасинга и недостатка проходов рендеринга. Да, глазастые тридешнеги щас найдут стада блох. Но елы палы, вдумайтесь в ситуацию. Все что есть на входе - промпт и может быть пара даже не концептов, а почеркушек скетчей(пример в шапке). И все, Карл. И все! Дальше одна кнопка в InvokeAI - готовы две фазы. И одна кнопка в Люме. Готов рендер. А теперь отматываем на пару лет назад и пытаемся прикинуть, сколько уйдет времени на концепт, моделинг, текстуринг, шейдинг, лайтинг-мать-его, и рендеринг. Давайте, ловите блох пока, кодеры тоже смеялись вначале над первыми кусками кода из ЛЛМ. Спасибо Борзунде за материал.

Show all...

a_concept_car_in_the_garage,_camera_slowly_turning_around_it_3500a3.mp43.77 MB

00:03
Video unavailableShow in Telegram
00:02
Video unavailableShow in Telegram

MOFA-Video: Нейрориг, точнее его отсутствие. Вот поглядите на еще одну работу - так китайские и японские аспиранты видят работу аниматоров будущего. Это сарказм про интерфейсные решения. Идея правильная - дать как можно больше управлялок: MOFA-Video анимирует одно изображение с помощью различных типов управляющих сигналов, включая траектории, традиционные кифреймы, а также и их комбинации. Поглядите на сайте примеры, но мне это уже не очень интересно, ибо это шевеляж пикселей - на входе картинка и некие указания на анимацию, на выходе - шевеление пикселей на картинке. Да, это не олдскульный морфинг пикселей в 2Д-пространстве картинки, это морфинг эмбедингов в латентном пространстве. Но на выходе все равно шевеление пикселей, пусть нелинейное и очень умное. Сайт сделан нарядно, но после анонса GEN-3 - это просто одна из китайских работ. https://myniuuu.github.io/MOFA_Video/

Show all...

hint.mp42.22 KB

output (1).mp49.06 KB

00:06
Video unavailableShow in Telegram
00:20
Video unavailableShow in Telegram

Снова за нейрорендеринг. Вот принес вам два видео из Люма и Креа. Смотрите, давайте немного разберемся. Креа делает видео на основе кода AnimateDiff, то есть генерит последовательность картинок, которые ничего не знают друг про друга. Там нет временной согласованности между кадрами, но есть много ухваток как сгладить этот момент. Плюсы - изумительное качество картинки. Минусы - то самое кипение и артефакты, родовой признак всех потомков Warp Diffusion. Люма делает сразу видео. Очень грубо говоря, она рендерит его из своей world model. И как все рендеры, обеспечивает временную согласованность кадров. Плюсы - нет кипения и мельтешения, минусы - качество самой картинки (пока) типа отстой. Пока. Если еще грубее и проще. Креа Видео натренирована на картинках, Люма натренирована на видосах (хотя в Креа много сделано для хорошего сглаживания между кадрами). Ну и тут можно порассуждать, что у генераторов видео, натренированных на видосах в мозгах возникает некая 3Д-сцена (хотя это не 3Д, а некое "ИИ-пониман...

Show all...

ssstwitter.com_1719565869091.mp49.82 KB

ssstwitter.com_1719566146227.mp45.41 MB

00:14

Video unavailableShow in Telegram

Ну и вот попытка подсмотреть, как в голове у видео-ИИ устроена модель мира. Взяли сгенерированное видео из SORA и присунули его в Нерф. Получили 3Д-модель сгенерированного мира. Понятно, что в голове у ИИ латентное пространство типа 738D, вместо нашего утлого 3D. И мы через такую 3Д-замочную скважину в виде Neural Radiance Fields (NeRFs) and 3D Gaussian Splatting (3DGS) можем теперь подглядывать чего он там насимулил про нас и наше восприятие. Я уже писал философский пост о том, что LLM (возможно) через все эти текстовые датасеты срисовали то, как мы мыслим, ибо язык - инструмент мышления, а не общения. Через все эти размеченные видео и картинки у ИИ в голове строится этакая визуальная модель реконструкции этого мира - способ построения картинок в голове в ответ на сигналы в виде слов(текстов) и звуков. Ну и понятно, что он реконструирует разные многочисленные миры, соответствующие разным промптам, от игровых миров, как в случае с майнкрафтовым видео, до самых замысловатых фантазий и даже мультиков. ...

Show all...

radiancefields.com_-1.mov26.59 MB

00:06
Video unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram

Ключевые кадры в Dream Machine и будущие монтажки. В твитторе Люмы очень интересный апдейт. Теперь можно задать начальный и конечный кадр, припихнуть рядом тестовый промпт и Люма сгенерит "управляемое" видео, попав в конечный кадр. Это сильно круто и вот почему. Во всех демонстрируемых видео-генераторах, как правило, весь контроль картинки лежит на промпте. Иначе говоря, мало того, что вы пытаетесь описать саму картинку в промпте (как в генераторах картинок), так вам еще надо задать движение, причем не одного объекта, а всех участников банкета, от камеры и света до переднего и заднего планов. Текстом. Пока вы делаете видосики для того, чтобы радовать подписчиков в инсте или телеге, можно не париться, ИИ все сделает сам, но если вам нужен контроль процесса и вы делаете что-то осмысленное, то вам понадобятся некие управляторы. Пока мы видели Motion Brush, ключевые кадры, и слышали, что Сора умеет перегенерировать выделенную часть клипа. Все это некие костыли, которые рано или поздно должны как-то имплементи...

Show all...

ssstwitter.com_1719531077933.mp41.04 MB

Choose a Different Plan

Your current plan allows analytics for only 5 channels. To get more, please choose a different plan.