Psy Eyes
Креатив + AI + Web3... и мемы Личная страница @andrey_bezryadin
Mostrar más3 804
Suscriptores
+424 horas
+227 días
+23530 días
- Suscriptores
- Cobertura postal
- ER - ratio de compromiso
Carga de datos en curso...
Tasa de crecimiento de suscriptores
Carga de datos en curso...
Подъехало демо 3D генератора Rodin Gen-1.
1) Вкидываем картинку (лучше без фона, вот удалятор)
2) Автоматом генерится промт. Галочками можно указать, что в него добавить: например, high-poly или game-ready
3) Следом также автоматом создаётся 3D меш, который можно посмотреть в разных видах: карта нормалей, металлизированный, контрастный.
Скачать не даст, поведёт на сайт, где модель хоть и написано, что в публичной бете, но вход до сих пор по списку.
Попробовал генерить как используя свои картинки, так и те, что пришиты в примерах, но годного результата не получил. А вы?
В то же время Meshy или CRM с лёту генерят нормально.
Демо
Сайт
Дайджест:
📹 ВИДЕО + АРТ 🎨
Появилось демо контролнет модели MistoLine.
Fooocus: обновился до v 2.4.1. Много мелких улучшений. Вместе с тем моё внимание привлекло, то что владение кодом перешло от lllyasviel к mashb1t и появилась nswf цензура, которая отключена по умолчанию.
Генерация фото с рульками привычными в сфере фото/видео съёмки: ISO, экспозиция, итд.
Krea: открыли генератор видео в публичной бете.
Leonardo: в версии V2 появились пресеты для стилей и img-2-img генерация для переложения стиля на разные объекты/персонажей.
CraftsMan: новый 3D генератор на основе картинок c выбором модели для обработки запроса и большим количеством рулек.
StreamV2V: замена человека на видео/смена стиля в реалтайме.
Adobe: внедрил генеративную стёрку в Lightroom (только сейчас?).
Open-Sora Plan: модель обновилась до v 1.1. Улучшилось качество генерации видео и его длительность.
Face Adapter: генерация картинки с лицом человека на рефе.
🎸 ЗВУК 🎸
LookOnceToHear: фильтруем звук в наушниках, чтобы слышать только собеседника перед нами.
🤖 ЧАТЫ 🤖
LM Studio: софт для локального чата с языковыми моделями (LLM) выкатил версию с поддержкой ROCm для запуска на видюхах от AMD. А хаггинг недавно как раз позволил запускать модели в LM Studio в 1 клик через диплинк.
Cohere: выпустили мультиязычную Aya-23 размером 8B и 35B, работающую на 23 языках, включая русский. Также есть Aya-101 размером 13B, глаголющая на 101 языке. (спс @JohnDoe171)
Qdrant: библиотека на питоне для генерации подписей обзавелась инференсом на GPU.
Meteor: визуальная языковая модель (VLM) на основе архитектуры Mamba, которая хорошо себя показывает на бенчах.
Microsoft: добавили в буфер обмена винды 11 возможность копировать-вставлять информацию с конвертацией, например в другой язык.... за кредиты OpenAI.... а до этого они ещё и рекламу в пуск впилили.... it evolves, just backwards.
Также они представили ноуты на чипах Snapdragon X Elite от Qualcomm, которые должны выйти в июне. Не делаем никаких предзаказов, ждём тестов не от лабы под надзором майков, а от блогеров и юзеров. Ещё есть много вопросов касательно фичи Recall, которая, будет удивительно если не прогремит в новостях о слежке и утечках.
Ещё их GitHub Copilot обзавёлся расширениями, а Copilot официальным ботом в телеге, правда просит номер телефона и не ясно в каких странах он работает. Также появилась влмка Phi3 Vision 128K.
DeepSeek: выкатили 7B чат по картинкам.
Mistral: 7B модель в v 0.3 получила Function calling, и пару других изменений.
Alibaba: сделали VLM для чата по картинкам в высоком разрешении ConvLLaVA.
Gradio портировали на C#.
Исследования:
* Персонализируем LLM под себя, просто общаясь с ней.
* Ускоряем инференс LLM через распределёнку.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Photo unavailableShow in Telegram
Начинаем через пару минут
https://phdays.com/festival/
Тот, кто первым меня найдет получит этого бэдбоя, со вшитым DC под номером #1.
Photo unavailableShow in Telegram
Так как далеко не все смогут прийти, те кто посмотрят моё выступление на сайте и напишут мне в личку свой TON адрес получат онлайн версию (белую). К ней не идёт NFC, тон на балансе, и одежда, но вы также будете в списке для будущих дропов/ништяков.
Спойлер: я люблю функциональность, а не просто владение.
Буду печатать их в очереди поступления заявок.
Я на Лужниках буду тусоваться где-то до 21:00. Будем считать приём заявок заканчивается тоже в это время.
Трансляция:
https://phdays.com/festival/
Те, кто придут сегодня на PHD 2024 и встретят меня лично получат NFC метки, к каждой из которых прицеплен свой цифоровой коллекционный предмет на TON.
Сканируете NFC телефоном и вам отображается сид фраза. Вставляете её в любой TON кошель и можете пользоваться. Для физических (черных) версий на каждом тон аккаунте я оставил немного TON, чтобы можно было провести транзакцию.
NFC чип можете в красивое место положить на полочку. Это только первый дроп, поверьте она вам понадобится.
Если беспокоит, что я знаю сид фразу, пересылайте DC на любой другой свой кошель, а NFC обнулите.
Для чтения и записи я юзал бесплатный NFC Tools. Ей же можно перезаписать NFC и закинуть на нее что угодно: текст, ссылки, гео, биткоин адрес, тригер для запуска приложений, итд.
Мое выступление 17:30 -17:55 на сцене Научпоп.
Коллекция:
https://getgems.io/collection/EQDI13eQiiMrVy--ciYaT8ZiUHfAHvaGLRG-9Gj-BKn5FfFq
01:11
Video unavailableShow in Telegram
На HuggingFace появилась фича Use this model для запуска LLM и Text-2-Image моделей у себя локально через желаемый софт.
В настройках хаггинг аккаунта заходим в раздел Local Apps and Hardware. Можно здесь задать своё железо, но на фильтрацию AI-приложений похоже это не влияет. Я с ноута, где стоит двухгиговая 1050 запустил ламу 3 в Jan, всё ок.
Ставим галочки на софте, который вы используете для того, чтобы гонять модели локально. Для работы с текстом поддерживаются llama.cpp, LM Studio, Jan, Backyard AI. С картинками пока только Draw Things и, скоро, DiffusionBee, но они обе только на мак.
Нажимаем Browse Compatible Models —> выбираем приглянувшуюся нейронку —> кликаем Use this model в правом верхнем углу —> выбираем в каком софте запустить, и через диплинк в нём откроется окно для загрузки модели. Можно и просто исследуя хаггинг открыть понравившуюся нейронку нажав Use this model.
Доступны, в основном, квантизированные GGUF версии, которые можно скачать либо целиком, либо они состоят из нескольких частей и для работы понадобится скачать их все как архив из множества кусков (они обычно подписаны part_N). Чтобы понять какую модель грузить, можно глянуть страницу с описанием на хаггинге, если там про это есть. В противном случае качайте, то что как вам кажется нормально запуститься в памяти вашей видюхи. Как только модель загружена — можно генерить.
Anyline: контролнет препроцессор, который с высокой точностью извлекает края, детали, и текст из картинок для последующих генераций.
Можно гонять в Comfy или A1111.
Гитхаб
///////////////////////////////////////////////////////
MistoLine: это SDXL-контролнет модель, которая может использовать любой вид лайнарта на входе (скетчи от руки, выходные данные с препроцессора, или сгенерированное) для получения артов с высокой детализацией и качеством.
Она избавляет от необходимости выбирать контролнет модели для разных лайнарт препроцессоров, поскольку демонстрирует сильные результаты в широком спектре задач, превосходя другие controlnet решения в детализации, следовании промту, и стабильности в сложных условиях.
Гитхаб
Из-за работы над презой не успел своевременно об этом запостить, но не упомянуть это нельзя.
OpenAI выпустили GPT-4o, она же omni или в простонародье Чо. Также есть видеопрезентация. Это мультимодальная модель, натренированная на тексте, картинках и видео, которая может видеть мир через камеру и без задержки говорить и петь.
В чатгпт и раньше имелся Voice Mode, через который можно было побеседовать с GPT-3.5 или GPT-4, но там была задержка до 5 секунд между ответами из-за того, что использовались 3 нейронки в одном пайплайне (аудио-текст-аудио).
Здесь же всё обрабатывает одна Чо, и потому скорость реалтаймовая. А так как данные не теряются по пути, то она лучше понимает интонацию человека, фоновые звуки, и не только. Вместе с этим модель стала эмоциональнее, приближая её к AI из фильма Она.
Распознавание визуала тоже работает в реальном времени и можно даже сделать так, что одна нейронка видит окружение, а другая его описывает.
На бесплатном акке можно гонять пока не упрёшься в лимит, дальше попросят подписку. Голосовой чат будут раскатывать постепенно.
Также Чо превосходит другие модели в генерации кода и текста, работает шустрее, а API запросы стоят дешевле, чем к Turbo.
Ещё анонсировано дескстопное приложение. Но пока только на Mac.
PS: самое время вспомнить с чего всё начиналось.
Анонс
Видео преза
Демо чат
Много видео примеров