uk
Feedback
whargarbl

whargarbl

Відкрити в Telegram

Последнее убежище кожанных мешков

Показати більше
656
Підписники
Немає даних24 години
+27 днів
+2030 день
Архів дописів
Всем привет! Мы вышли из сумрака! Запостил sdxs-2b на реддит https://www.reddit.com/r/StableDiffusion/comments/1u1vbqa/simple
Всем привет! Мы вышли из сумрака! Запостил sdxs-2b на реддит https://www.reddit.com/r/StableDiffusion/comments/1u1vbqa/simple_diffusion_sdxs2b_new_model/ Очень волнительно! Очередная жалкая попытка привлечь внимание и подсобрать хоть что то на компьют

Помогите обучить убийцу флюкс! https://huggingface.co/AiArtLab/sdxs-2b#donations
+9
Помогите обучить убийцу флюкс! https://huggingface.co/AiArtLab/sdxs-2b#donations

обновлена модель протренил на 1 гпу 3 суток (rtx5060 / 15к шагов) - это околобесполезно на черипиках вроде ничего - но средне
+9
обновлена модель протренил на 1 гпу 3 суток (rtx5060 / 15к шагов) - это околобесполезно на черипиках вроде ничего - но среднее качество скорее падает от таких микротрейнов без норм ГПУ тут ничего толком не сделать( денег нет, но вы держитесь!

Срок аренды по 20 баксов/день кончается, а цены стали просто кошмар! ГПУ в 2 раза выросли, модель не готова, кошмар, паника!
+8
Срок аренды по 20 баксов/день кончается, а цены стали просто кошмар! ГПУ в 2 раза выросли, модель не готова, кошмар, паника!

sdxs-2b update бот: https://t.me/inkimpbot веса: https://huggingface.co/AiArtLab/sdxs-2b всё ещё ai slop, но в нём стало боль
+9
sdxs-2b update бот: https://t.me/inkimpbot веса: https://huggingface.co/AiArtLab/sdxs-2b всё ещё ai slop, но в нём стало больше деталей!

Вайб первых диффузионок Бот теперь генерит первую карточку AS IS Те он на серьёзных щах берет ембеддинг от "телевизор трахает
+8
Вайб первых диффузионок Бот теперь генерит первую карточку AS IS Те он на серьёзных щах берет ембеддинг от "телевизор трахает занавеску" и рисует - вы сами в этом виноваты!

Как раз искал недавно чем бы переводить почище Датасет и бенчмарк мультиязычек (перевод с/на) от Мета прикольная крошка на 60
Как раз искал недавно чем бы переводить почище Датасет и бенчмарк мультиязычек (перевод с/на) от Мета прикольная крошка на 600м (не пробовал) Жаль нет qwen35-08B(

Вернемся к проблеме телевизор трахает занавеску тут я вижу 2 путя 1) повысить робастность модели - устойчивость к кривому вхо
+1
Вернемся к проблеме
телевизор трахает занавеску
тут я вижу 2 путя 1) повысить робастность модели - устойчивость к кривому входу - для этого надо добавить говноописаний побольше - ну те шакальные промпты должны стать частью процесса обучения.Необработанный инпут в МЖ, кривые wd3 теги, подписи к картинкам и великий рандом - я просто выкидываю случайно слова из описаний при обучении 2) улучшить промпт рефайнер. Но мы тут не богаты - будем юзать то что есть - младший Квен - правда он не фонтан с русским - но имеем что имеем На фото первая картнка генерилась прям по русскому тексту:
персонажа. У неё черные волосы. С ушками кошки на голове зелёные глаза бледная кожа одежда простая кофта и джинсы зелёного цвета. Есть хвост ягуара и крылья орла за спиной``

Вторая - пропускаем через улучшайзер
A cat with black hair sits on a simple beige sweater and blue jeans, its green eyes reflecting light. The cat has a bushy tail of a jaguar and wings of an eagle flapping behind it against a dark background.``` В итоге я решил оставить оба варианта в боте - потому что это весело!

Небольшой нюанс Модель рисует буквально то, что вы ей пишите. Те если в описании девушка лежит на столе в зеленой блузке а сз
Небольшой нюанс Модель рисует буквально то, что вы ей пишите. Те если в описании девушка лежит на столе в зеленой блузке а сзади лампа видна - она будет рисовать все это - как умеет:
A woman in a green blouse and beige skirt lies on a wooden desk, surrounded by a computer monitor, keyboard, and scattered papers, with a bulletin board and lamp nearby
Но. Текстовый енкодер это оч маленькая модель, которая ОЧЕНЬ плохо знает русский (Вихрь - помоги) Поэтому промпт "телевизор трахает занавеску" - не работает!

sdxs-2b update - finetuned Qwen3.5-0.8B - hybrid EDM/Karras scheduler - img2img and txt2video(not trained now) pipeline https
sdxs-2b update - finetuned Qwen3.5-0.8B - hybrid EDM/Karras scheduler - img2img and txt2video(not trained now) pipeline https://huggingface.co/AiArtLab/sdxs-2b t.me/inkimpbot donate

PrismML снова радуют! После 1-bit Bonsai 8B они успели выпустить Ternary Bonsai, уже на 1,58 бита на вес, и ряд моделей разны
+3
PrismML снова радуют! После 1-bit Bonsai 8B они успели выпустить Ternary Bonsai, уже на 1,58 бита на вес, и ряд моделей разных размеров — 1.7B/4B/8B. Теперь та же идея доехала до генерации изображений. Bonsai Image 4B
это две версии на базе FLUX.2 Klein 4B: binary и ternary. Архитектура, sampler и text-conditioning path остаются от базы; PrismML перепаковали матричные веса DiT. Binary хранит веса как {−1,+1} с FP16 scale на группу из 128 весов, ternary хранит {−1,0,+1} с таким же scale.
FP16 diffusion transformer у FLUX.2 Klein 4B в оригинале занимает 7,75 ГБ; у Bonsai 1-bit он ужимается до 0,93 ГБ, у Ternary Bonsai Image 4B до 1,21 ГБ. Полный Apple Silicon payload с compressed text encoder и FP16 VAE получается 3,42 и 3,88 ГБ против 15,97 ГБ у full-precision базы. Во время генерации 1024×1024 средняя активная память падает до 1,95/2,38 ГБ против 14,39 ГБ. На Hugging Face уже даже выложили демку, которая умещается в 4 гигабайта памяти и запускается прямо в браузере, но я не имел с ней успеха, там помимо трансформера очень ужат текстовый энкодер. Для обладателей iPhone выложили iOS-приложение Bonsai Studio, в котором можно генерировать картинки прямо на вашем девайсе. По скорости PrismML заявляют 512×512 за 9,4 секунды на iPhone 17 Pro Max и около 6 секунд на Mac M4 Pro. На 1024×1024 у M4 Pro их стек даёт примерно 24 секунды против 134,9 секунды у stock MFLUX FP16, около 5,6×. Если кто-то не в курсе, а вы наверняка не в курсе, MFLUX — это на сегодняшний день, по крайней мере, еще час назад, SOTA рантайм на MLX для запуска диффузионных моделей рисования на Apple Silicon. Для куда CUDA господ есть варианты Gemlite/HQQ, включая нативный Windows-стек без WSL2; в репозитории лежат MLX и gemlite-веса, studio UI и CLI-скрипты. Ternary версия выдает 95% оригинального качества FLUX.2 Klein 4B по их таблице GenEval/HPSv3/DPG-Bench, binary держит 88%. Хороший качественный подгон, ребята не расстраивают. Анонс Whitepaper/GitHub Hugging Face Ternary Bonsai LLM

Мне кажется это очередная шляпа - Pid Маленькую диффузионку обучили генерить из латентов в пиксели. Всё. Потом задистилили ДмД в 4 степ. Получился а-ля декодер. Быстрая маленькая модель. Кода нет (да и нужен ли он?) Есть еще апскейлер. По тем семплам что я видел - дичь. Продают как некий пиксельспейс диффужен который лучше вае. Нет ни слова о недостатках такого подхода - сплошная выгода. На сайте выглядит эпично - но мне кажется прям лапша какая-то. Вероятно выдраны латенты с генерации неоконченной, которые выдают за ВАЕ ( хотя не знаю, это прям дичь и прямой обман от команды с брендом нвидиа получается - но я не верю что вае так плохо декодирует) Наверно я предвзят и ошибаюсь, но у меня ноль доверия/уважения к команде сана/пиксарт/ае/пиксельдифужен

Ночь не спал, просрал все токены! Собрал шедулер внимательный и к структуре и к деталям в равной степени Масштабирование нача
+1
Ночь не спал, просрал все токены! Собрал шедулер внимательный и к структуре и к деталям в равной степени Масштабирование начального шума - лютейший 💥 взрыв на старте Экспоненциальное убывание (как в оригинальном EDM sampler) - дает лучшую прорисовку деталей Denoising Loop (Ручной шаг Эйлера) Сигмы считаем по формуле Карраса - Terro Karras is a classic На графике: черный унылый шедулер из Z-Image vs Hybrid-EDM-Karras - sdxs-2b! (взрыв кишки расчлененка) Код принес Вы не поверите, я всё перепробовал прежде чем упарываться в очередное расписание электричек таймстепов - это пипец как важно оказалось

Пути назад я не вижу. Мы у края пропасти, и надежда сродни отчаянию. ... Чёрный Властелин всё видит и всё знает — может, он не насторожится, а лишь усмехнётся и раздавит нас одним мизинцем, как назойливую осу?
В этом отрывке Гэндальф отвечает на слова Арагорна, подчёркивая, что Саурон не станет легкомысленно относиться к борьбе с ними, а предпримет решительные действия. Речь отражает уверенность мага в том, что даже в сложной ситуации есть те, кто готов противостоять Тёмному Властелину.

Sdxs-2b Запустил большой трейн на 5кк, вроде улучшается Бот: @inkimpbot
+8
Sdxs-2b Запустил большой трейн на 5кк, вроде улучшается Бот: @inkimpbot

В sdxl при обучении на фото модель забывала аниме, и наоборот Считается что это свойство небольших моделей Я думаю это из-за
+1
В sdxl при обучении на фото модель забывала аниме, и наоборот Считается что это свойство небольших моделей Я думаю это из-за пулинг ембеддингов. Усредненный вектор мешал различать концепции Еще одна ошибка стабилити, микрокондишининг, обучение с информацией о ширине высоте картинки мешало , а не помогало модели связать сущности в разных ориентациях Ps: картинка ради науки!

Там Gemini 3.5 Flash вышла Купил давеча у спекулянтов с реддит Gemini AI Pro аккаунт (15 долларов / 18 мес) Работает! Правда, только в браузере и под ВПН В целом модель отличная. Такая же тупая как Гемини про 3.1, но сильно быстрее! С ноги нашла ошибку которая ускорит на 30% (на самом деле нет) Потом поправила код который не просил трогать еще и сделав его медленнее Но за доллар в месяц вполне норм

Prompt: The stylized portrait depicts ...
+8
Prompt: The stylized portrait depicts ...

Немного подфайнтюнил Qwen3.5-08b (я люблю маленькие модели) Тренил на 100к парах картинка/описание. Получилось не очень. Лось
+1
Немного подфайнтюнил Qwen3.5-08b (я люблю маленькие модели) Тренил на 100к парах картинка/описание. Получилось не очень. Лось прыгал - стабильности нету. Учил анслотом (лютое днище) В итоге обучил лору, подобрал вес и вмержил Тренил все слои модели - и визуальную и текстовую, вот так теперь отрабатывает промпт - рефайнер в боте Промпт: нарисуй себя (рис 1) Усиленный: A realistic illustration of a person standing in an indoor setting, wearing traditional clothing with intricate embroidery or patterns, their head tilted slightly upward as if looking out at a view. The lighting is soft and natural, highlighting the texture of their fabric and skin tones without harsh shadows. The background features blurred architectural details and possibly plants, suggesting a warm interior space like a study, bedroom, or garden area. No other characters or objects are visible; focus remains entirely on the central figure. (рис 2) Иногда будет добрасывать тегов потому что я так учил - пример разметки на кот учил тут Заодно ослабил цензуру. Стало лучше чем мусор кот квен генерил из коробки, но в целом рассчитывал на большее Спасибо за донат, bluegoldyellow - обучка была на эти деньги

всё еще невероятно сырое и через неделю будет прям лучше и надо терпеть - но меня прям распирает поделиться удачными кадрами)
+8
всё еще невероятно сырое и через неделю будет прям лучше и надо терпеть - но меня прям распирает поделиться удачными кадрами) бот / веса @inkimpbot / sdxs-2b ещё вы будете смеяться но это видео модель, 3D трансформер Практически модель мира, мира лучшего чем этот, лол