whargarbl
الذهاب إلى القناة على Telegram
656
المشتركون
لا توجد بيانات24 ساعات
+27 أيام
+2030 أيام
أرشيف المشاركات
656
Всем привет! Мы вышли из сумрака!
Запостил sdxs-2b на реддит
https://www.reddit.com/r/StableDiffusion/comments/1u1vbqa/simple_diffusion_sdxs2b_new_model/
Очень волнительно!
Очередная жалкая попытка привлечь внимание и подсобрать хоть что то на компьют
656
+9
обновлена модель
протренил на 1 гпу 3 суток (rtx5060 / 15к шагов) - это околобесполезно
на черипиках вроде ничего - но среднее качество скорее падает от таких микротрейнов
без норм ГПУ тут ничего толком не сделать(
денег нет, но вы держитесь!
656
+8
Срок аренды по 20 баксов/день кончается, а цены стали просто кошмар! ГПУ в 2 раза выросли, модель не готова, кошмар, паника!
656
+9
sdxs-2b update
бот: https://t.me/inkimpbot
веса: https://huggingface.co/AiArtLab/sdxs-2b
всё ещё ai slop, но в нём стало больше деталей!
656
+1
Вернемся к проблеме
телевизор трахает занавескутут я вижу 2 путя 1) повысить робастность модели - устойчивость к кривому входу - для этого надо добавить говноописаний побольше - ну те шакальные промпты должны стать частью процесса обучения.Необработанный инпут в МЖ, кривые wd3 теги, подписи к картинкам и великий рандом - я просто выкидываю случайно слова из описаний при обучении 2) улучшить промпт рефайнер. Но мы тут не богаты - будем юзать то что есть - младший Квен - правда он не фонтан с русским - но имеем что имеем На фото первая картнка генерилась прям по русскому тексту:
персонажа. У неё черные волосы. С ушками кошки на голове зелёные глаза бледная кожа одежда простая кофта и джинсы зелёного цвета. Есть хвост ягуара и крылья орла за спиной`` Вторая - пропускаем через улучшайзерA cat with black hair sits on a simple beige sweater and blue jeans, its green eyes reflecting light. The cat has a bushy tail of a jaguar and wings of an eagle flapping behind it against a dark background.``` В итоге я решил оставить оба варианта в боте - потому что это весело!
656
Небольшой нюанс
Модель рисует буквально то, что вы ей пишите.
Те если в описании девушка лежит на столе в зеленой блузке а сзади лампа видна - она будет рисовать все это - как умеет:
A woman in a green blouse and beige skirt lies on a wooden desk, surrounded by a computer monitor, keyboard, and scattered papers, with a bulletin board and lamp nearbyНо. Текстовый енкодер это оч маленькая модель, которая ОЧЕНЬ плохо знает русский (Вихрь - помоги) Поэтому промпт "телевизор трахает занавеску" - не работает!
656
sdxs-2b update
- finetuned Qwen3.5-0.8B
- hybrid EDM/Karras scheduler
- img2img and txt2video(not trained now) pipeline
https://huggingface.co/AiArtLab/sdxs-2b
t.me/inkimpbot
donate
656
Repost from Осцилляции WaveCut
+3
PrismML снова радуют!
После 1-bit Bonsai 8B они успели выпустить Ternary Bonsai, уже на 1,58 бита на вес, и ряд моделей разных размеров — 1.7B/4B/8B.
Теперь та же идея доехала до генерации изображений.
Bonsai Image 4B
это две версии на базе FLUX.2 Klein 4B: binary и ternary. Архитектура, sampler и text-conditioning path остаются от базы; PrismML перепаковали матричные веса DiT. Binary хранит веса как {−1,+1} с FP16 scale на группу из 128 весов, ternary хранит {−1,0,+1} с таким же scale.FP16 diffusion transformer у FLUX.2 Klein 4B в оригинале занимает 7,75 ГБ; у Bonsai 1-bit он ужимается до 0,93 ГБ, у Ternary Bonsai Image 4B до 1,21 ГБ. Полный Apple Silicon payload с compressed text encoder и FP16 VAE получается 3,42 и 3,88 ГБ против 15,97 ГБ у full-precision базы. Во время генерации 1024×1024 средняя активная память падает до 1,95/2,38 ГБ против 14,39 ГБ. На Hugging Face уже даже выложили демку, которая умещается в 4 гигабайта памяти и запускается прямо в браузере, но я не имел с ней успеха, там помимо трансформера очень ужат текстовый энкодер. Для обладателей iPhone выложили iOS-приложение Bonsai Studio, в котором можно генерировать картинки прямо на вашем девайсе. По скорости PrismML заявляют 512×512 за 9,4 секунды на iPhone 17 Pro Max и около 6 секунд на Mac M4 Pro. На 1024×1024 у M4 Pro их стек даёт примерно 24 секунды против 134,9 секунды у stock MFLUX FP16, около 5,6×. Если кто-то не в курсе, а вы наверняка не в курсе, MFLUX — это на сегодняшний день, по крайней мере, еще час назад, SOTA рантайм на MLX для запуска диффузионных моделей рисования на Apple Silicon. Для куда CUDA господ есть варианты Gemlite/HQQ, включая нативный Windows-стек без WSL2; в репозитории лежат MLX и gemlite-веса, studio UI и CLI-скрипты. Ternary версия выдает 95% оригинального качества FLUX.2 Klein 4B по их таблице GenEval/HPSv3/DPG-Bench, binary держит 88%. Хороший качественный подгон, ребята не расстраивают. Анонс Whitepaper/GitHub Hugging Face Ternary Bonsai LLM
656
Мне кажется это очередная шляпа - Pid
Маленькую диффузионку обучили генерить из латентов в пиксели. Всё.
Потом задистилили ДмД в 4 степ. Получился а-ля декодер. Быстрая маленькая модель.
Кода нет (да и нужен ли он?)
Есть еще апскейлер. По тем семплам что я видел - дичь.
Продают как некий пиксельспейс диффужен который лучше вае. Нет ни слова о недостатках такого подхода - сплошная выгода.
На сайте выглядит эпично - но мне кажется прям лапша какая-то. Вероятно выдраны латенты с генерации неоконченной, которые выдают за ВАЕ ( хотя не знаю, это прям дичь и прямой обман от команды с брендом нвидиа получается - но я не верю что вае так плохо декодирует)
Наверно я предвзят и ошибаюсь, но у меня ноль доверия/уважения к команде сана/пиксарт/ае/пиксельдифужен
656
+1
Ночь не спал, просрал все токены!
Собрал шедулер внимательный и к структуре и к деталям в равной степени
Масштабирование начального шума - лютейший 💥 взрыв на старте
Экспоненциальное убывание (как в оригинальном EDM sampler) - дает лучшую прорисовку деталей
Denoising Loop (Ручной шаг Эйлера)
Сигмы считаем по формуле Карраса - Terro Karras is a classic
На графике: черный унылый шедулер из Z-Image vs Hybrid-EDM-Karras - sdxs-2b! (взрыв кишки расчлененка)
Код принес
Вы не поверите, я всё перепробовал прежде чем упарываться в очередное расписание электричек таймстепов - это пипец как важно оказалось
656
Пути назад я не вижу. Мы у края пропасти, и надежда сродни отчаянию. ... Чёрный Властелин всё видит и всё знает — может, он не насторожится, а лишь усмехнётся и раздавит нас одним мизинцем, как назойливую осу?В этом отрывке Гэндальф отвечает на слова Арагорна, подчёркивая, что Саурон не станет легкомысленно относиться к борьбе с ними, а предпримет решительные действия. Речь отражает уверенность мага в том, что даже в сложной ситуации есть те, кто готов противостоять Тёмному Властелину.
656
+1
В sdxl при обучении на фото модель забывала аниме, и наоборот
Считается что это свойство небольших моделей
Я думаю это из-за пулинг ембеддингов. Усредненный вектор мешал различать концепции
Еще одна ошибка стабилити, микрокондишининг, обучение с информацией о ширине высоте картинки мешало , а не помогало модели связать сущности в разных ориентациях
Ps: картинка ради науки!
656
Там Gemini 3.5 Flash вышла
Купил давеча у спекулянтов с реддит Gemini AI Pro аккаунт (15 долларов / 18 мес)
Работает! Правда, только в браузере и под ВПН
В целом модель отличная. Такая же тупая как Гемини про 3.1, но сильно быстрее!
С ноги нашла ошибку которая ускорит на 30% (на самом деле нет)
Потом поправила код который не просил трогать еще и сделав его медленнее
Но за доллар в месяц вполне норм
656
+1
Немного подфайнтюнил Qwen3.5-08b
(я люблю маленькие модели)
Тренил на 100к парах картинка/описание. Получилось не очень. Лось прыгал - стабильности нету. Учил анслотом (лютое днище) В итоге обучил лору, подобрал вес и вмержил
Тренил все слои модели - и визуальную и текстовую, вот так теперь отрабатывает промпт - рефайнер в боте
Промпт: нарисуй себя (рис 1)
Усиленный: A realistic illustration of a person standing in an indoor setting, wearing traditional clothing with intricate embroidery or patterns, their head tilted slightly upward as if looking out at a view. The lighting is soft and natural, highlighting the texture of their fabric and skin tones without harsh shadows. The background features blurred architectural details and possibly plants, suggesting a warm interior space like a study, bedroom, or garden area. No other characters or objects are visible; focus remains entirely on the central figure. (рис 2)
Иногда будет добрасывать тегов потому что я так учил - пример разметки на кот учил тут
Заодно ослабил цензуру. Стало лучше чем мусор кот квен генерил из коробки, но в целом рассчитывал на большее
Спасибо за донат, bluegoldyellow - обучка была на эти деньги
656
+8
всё еще невероятно сырое и через неделю будет прям лучше и надо терпеть - но меня прям распирает поделиться удачными кадрами)
бот / веса
@inkimpbot / sdxs-2b
ещё вы будете смеяться но это видео модель, 3D трансформер
Практически модель мира, мира лучшего чем этот, лол
متاح الآن! بحث تيليغرام 2025 — أهم رؤى العام 
