Psy Eyes
Креатив + AI + Web3... и мемы Личная страница @andrey_bezryadin
نمایش بیشتر3 797
مشترکین
+124 ساعت
+237 روز
+26230 روز
- مشترکین
- پوشش پست
- ER - نسبت تعامل
در حال بارگیری داده...
معدل نمو المشتركين
در حال بارگیری داده...
Тот, кто первым меня найдет получит этого бэдбоя, со вшитым DC под номером #1.
Photo unavailableShow in Telegram
Так как далеко не все смогут прийти, те кто посмотрят моё выступление на сайте и напишут мне в личку свой TON адрес получат онлайн версию (белую). К ней не идёт NFC, тон на балансе, и одежда, но вы также будете в списке для будущих дропов/ништяков.
Спойлер: я люблю функциональность, а не просто владение.
Буду печатать их в очереди поступления заявок.
Я на Лужниках буду тусоваться где-то до 21:00. Будем считать приём заявок заканчивается тоже в это время.
Трансляция:
https://phdays.com/festival/
Те, кто придут сегодня на PHD 2024 и встретят меня лично получат NFC метки, к каждой из которых прицеплен свой цифоровой коллекционный предмет на TON.
Сканируете NFC телефоном и вам отображается сид фраза. Вставляете её в любой TON кошель и можете пользоваться. Для физических (черных) версий на каждом тон аккаунте я оставил немного TON, чтобы можно было провести транзакцию.
NFC чип можете в красивое место положить на полочку. Это только первый дроп, поверьте она вам понадобится.
Если беспокоит, что я знаю сид фразу, пересылайте DC на любой другой свой кошель, а NFC обнулите.
Для чтения и записи я юзал бесплатный NFC Tools. Ей же можно перезаписать NFC и закинуть на нее что угодно: текст, ссылки, гео, биткоин адрес, тригер для запуска приложений, итд.
Мое выступление 17:30 -17:55 на сцене Научпоп.
Коллекция:
https://getgems.io/collection/EQDI13eQiiMrVy--ciYaT8ZiUHfAHvaGLRG-9Gj-BKn5FfFq
01:11
Video unavailableShow in Telegram
На HuggingFace появилась фича Use this model для запуска LLM и Text-2-Image моделей у себя локально через желаемый софт.
В настройках хаггинг аккаунта заходим в раздел Local Apps and Hardware. Можно здесь задать своё железо, но на фильтрацию AI-приложений похоже это не влияет. Я с ноута, где стоит двухгиговая 1050 запустил ламу 3 в Jan, всё ок.
Ставим галочки на софте, который вы используете для того, чтобы гонять модели локально. Для работы с текстом поддерживаются llama.cpp, LM Studio, Jan, Backyard AI. С картинками пока только Draw Things и, скоро, DiffusionBee, но они обе только на мак.
Нажимаем Browse Compatible Models —> выбираем приглянувшуюся нейронку —> кликаем Use this model в правом верхнем углу —> выбираем в каком софте запустить, и через диплинк в нём откроется окно для загрузки модели. Можно и просто исследуя хаггинг открыть понравившуюся нейронку нажав Use this model.
Доступны, в основном, квантизированные GGUF версии, которые можно скачать либо целиком, либо они состоят из нескольких частей и для работы понадобится скачать их все как архив из множества кусков (они обычно подписаны part_N). Чтобы понять какую модель грузить, можно глянуть страницу с описанием на хаггинге, если там про это есть. В противном случае качайте, то что как вам кажется нормально запуститься в памяти вашей видюхи. Как только модель загружена — можно генерить.
Anyline: контролнет препроцессор, который с высокой точностью извлекает края, детали, и текст из картинок для последующих генераций.
Можно гонять в Comfy или A1111.
Гитхаб
///////////////////////////////////////////////////////
MistoLine: это SDXL-контролнет модель, которая может использовать любой вид лайнарта на входе (скетчи от руки, выходные данные с препроцессора, или сгенерированное) для получения артов с высокой детализацией и качеством.
Она избавляет от необходимости выбирать контролнет модели для разных лайнарт препроцессоров, поскольку демонстрирует сильные результаты в широком спектре задач, превосходя другие controlnet решения в детализации, следовании промту, и стабильности в сложных условиях.
Гитхаб
Из-за работы над презой не успел своевременно об этом запостить, но не упомянуть это нельзя.
OpenAI выпустили GPT-4o, она же omni или в простонародье Чо. Также есть видеопрезентация. Это мультимодальная модель, натренированная на тексте, картинках и видео, которая может видеть мир через камеру и без задержки говорить и петь.
В чатгпт и раньше имелся Voice Mode, через который можно было побеседовать с GPT-3.5 или GPT-4, но там была задержка до 5 секунд между ответами из-за того, что использовались 3 нейронки в одном пайплайне (аудио-текст-аудио).
Здесь же всё обрабатывает одна Чо, и потому скорость реалтаймовая. А так как данные не теряются по пути, то она лучше понимает интонацию человека, фоновые звуки, и не только. Вместе с этим модель стала эмоциональнее, приближая её к AI из фильма Она.
Распознавание визуала тоже работает в реальном времени и можно даже сделать так, что одна нейронка видит окружение, а другая его описывает.
На бесплатном акке можно гонять пока не упрёшься в лимит, дальше попросят подписку. Голосовой чат будут раскатывать постепенно.
Также Чо превосходит другие модели в генерации кода и текста, работает шустрее, а API запросы стоят дешевле, чем к Turbo.
Ещё анонсировано дескстопное приложение. Но пока только на Mac.
PS: самое время вспомнить с чего всё начиналось.
Анонс
Видео преза
Демо чат
Много видео примеров
Дайджест:
📹 ВИДЕО + АРТ 🎨
FaceFusion: в версии 2.6 этого дипфейкера появился отдельный установщик для Windows, добавились пара апскейлеров, поддержка видюх Intel Arc, и другие ништяки.
ipim Morph: модель для получения красивых плавных анимаций в Comfy.
Krea: те, у кого есть доступ к Krea Video теперь могут сами создавать инвайты (unlock codes)... правда с лимитом в трёх человек.
Dough: тоже инструмент для создания анимаций, но от Banodoco.
В Comfy ноду для блендера V 1.5 завезли поддержку формата GLB.
ZLUDA: альтернатива CUDA для видюх AMD обзавелась runtime api (cudart).
ClickDiffusion: кликаем на объект на фото и тыкаем куда его перенести, заодно указывая нужно ли вместо него что-то другое сгенерить.
Hunyuan: новая text-2-img модель от Tencet. Можно генерить картинки и там же в чате указывать, что исправить, как в Copilot (ранее Bing)... правда этого нет в демо. Есть тесты.
Подъехала арена 3D генераторов. Но и выбор не велик и рулек особо нет.
🎸 ЗВУК 🎸
Winamp станет опенсорсным 24 сентября. Пользуюсь им и по сей день.
🤖 ЧАТЫ 🤖
Devon: опенсорсный AI-программист, а-ля недавний Devin. Работает с API от Anthropic, OpenAI или Groq.
HuggingFace: добавили Spaces Dev Mode, режим в котором можно через SSH подсоединиться к своему спейсу в интерфейсе VScode и доступом к халявной A100 через ZeroGPU. Также появилась галерея кастомных компонентов.
Ещё они совместно с CodeAcademy сделали курс по файнтюну LLM трансформеров.
LangChain: выпустили фреймворк Cognita, для создания модульных AI-приложений, использующих RAG.
Теперь есть лама 3 70B с контекстом 1 млн токенов. До этого вышла лама 8B с таким же контекстом.
01A1: релизнули чат Yi-1.5 в размерах от 6B до 34B. Улучшения в генерации кода и ответах в целом. 9B модель на уровне с Mixtral 8x7B. Лицензия Apache 2.
Falcon: вышла V2 этой LLM размером 11B. Натренирована на 5 трлн токенов датасета RefinedWeb. Тоже лицензия Apache 2.
LLaVA-NeXT: разрабы обновили эту визуальную языковую модель (VLM) и теперь под капотом для чата по картинкам может использоваться лама 3 (8B) или Qwen-1.5 (72B или 110B).
Reka: мощная VLM, которая отлично себя показывает в чате по разному визуалу (спс @JohnDoe171).
CuMo: опенсорсная VLM на архитектуре MoE.
Moondream: появилась версия этой VLM, которая запускается в локально браузере через WebGPU.
llm.c от Карпатого теперь поддерживает мульти-GPU треню, и работает ещё быстрее.
Google: в рамках мероприятия Google I/O были упомянуты Gemini 1.5 Pro с контекстным окном 1 млн токенов (версия с 2М контекстом в превью). Также показали ряд других продуктов: FullHD генератор видео Veo, генератор картинок Imagen 3, альтернативу GPTs под названием Gems, у другое за вейтлистом без даты релиза, что не потрогать. В опенсорс вышли LLM Gemma 2 плюс VLM PaliGemma. Выжимка на русском тут.
Deepseek V2: ещё одна крупная (236B) опенсорсная LLM, которая по качеству на уровне последней ламы, но при этом эффективнее в паре аспектов. Чек мини-обзор от Артёма.
Anthropic: Claude на десктопе и iOS теперь доступен по Европейским IP. Плюс добавлена консоль, которая из короткого промта делает детальный.
OpenAI: выпустили GPT-4o (об этом таки будет отдельный пост). Илья Суцкевер ушёл из компании, а safety подразделение разгруппировано.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Я выступаю в Лужниках 24 мая 17:30 - 17:55 в рамках кибербез-фестиваля Positive Hack Days. Расскажу как можно монетизировать дипфейки, и заодно организовать плюшки для аудитории.
В прошлом году в парке Горького вел беседу про музыку в эпоху нейронок и Web3. Там было много других крутых панелек, рекомендую ознакомиться.
Буду вещать со сцены Научпоп, вход свободный. Онлайн трансляция, как и запись доступная в любой момент, тоже будут. Ближе к тому моменту ещё выйду на связь.
Те, кто придут, получат от меня ништяки, о которых сообщу позже.
В ближайшее время новости будут выходить дайджестами.
Мой доклад