whargarbl
Открыть в Telegram
649
Подписчики
-124 часа
-37 дней
-830 день
Архив постов
650
+2
Boogu-image
10b модель
Флюкс-1 вае / Квен ТЕ / 40 слоев трансформер
Три варианта бейс/турбо/едит, fp8
код открыт
Стильно рисует / классно редактирует
Очень крутая модель, странно что так мало обсуждают
650
AI по цене латте с миндальным молочком (на кокосовой стружке)
1) Покупаем подписку на opencode.ai - тариф GO - 10$ /Month - первый месяц $5 + $5 баксов реф ссылка вам накинет
Недорогие модели для кодинга, доступные каждомуПолучаем за 5 бачинских около 60 баксов но с 5 часовыми и тп лимитами - с быстрым доступом и кошерным api 2) Опенкоде это обычный классический агент как опенклод и иже с ними - можете попробовать, но меня задолбало через 5 минут сидеть смотреть на "thinking" и жмакать "Enter" на rm/rf Как надоест - API ключи / Создать ключ 3) Друзья, попробуйте Pi - это совершенно другой уровень Настройка: - раз curl -fsSL https://pi.dev/install.sh | sh - два пишем pi в терминале - три /connect и выбираем в списке opencode go - copy/paste api key - четыре /model - и выбираем что нам нравится - я крайне советую deepseek -v4-pro для ресеча (либо дипсик флеш для нищебродов и аутистов) 4) В чем профит? - бешенный хит рейт - вот моя вчерашняя сессия довольно лютого ресеч
/workspace/sdxs-2b (main) ↑154k ↓63k R13M CH100.0% $0.670 19.2%/1.0M (auto) deepseek-v4-pro • high Модель обработала 12.5M токенов суммарно, но отправили по сети только 154K (1.2%). Без кеша каждый запрос пересылал бы ВСЕ 12.5M токенов → счёт был бы ~$35. С кешем → $0.67.- в целом этого достаточно - но! Я не знаю как они это делают, но я получаю с Пи на порядок больше удовольствия - я не пишу матом агенту - он делает те же таски лучше и быстрее чем в опенкоде гемини и так далее - он реже делает то - о чем я его не просил - не тычу в ентер как макака а спокойно наблюдаю как другие работают Типичный цикл вайбкодинга это качели : охренеть - восторг / тупая тварь - гори в аду У Пи какая то другая парадигма - доверься ИИ - расслабься - получай удовольствие И пока мне все очень нравится
650
Всем привет! Мы вышли из сумрака!
Запостил sdxs-2b на реддит
https://www.reddit.com/r/StableDiffusion/comments/1u1vbqa/simple_diffusion_sdxs2b_new_model/
Очень волнительно!
Очередная жалкая попытка привлечь внимание и подсобрать хоть что то на компьют
650
+9
обновлена модель
протренил на 1 гпу 3 суток (rtx5060 / 15к шагов) - это околобесполезно
на черипиках вроде ничего - но среднее качество скорее падает от таких микротрейнов
без норм ГПУ тут ничего толком не сделать(
денег нет, но вы держитесь!
650
+8
Срок аренды по 20 баксов/день кончается, а цены стали просто кошмар! ГПУ в 2 раза выросли, модель не готова, кошмар, паника!
650
+9
sdxs-2b update
бот: https://t.me/inkimpbot
веса: https://huggingface.co/AiArtLab/sdxs-2b
всё ещё ai slop, но в нём стало больше деталей!
650
+1
Вернемся к проблеме
телевизор трахает занавескутут я вижу 2 путя 1) повысить робастность модели - устойчивость к кривому входу - для этого надо добавить говноописаний побольше - ну те шакальные промпты должны стать частью процесса обучения.Необработанный инпут в МЖ, кривые wd3 теги, подписи к картинкам и великий рандом - я просто выкидываю случайно слова из описаний при обучении 2) улучшить промпт рефайнер. Но мы тут не богаты - будем юзать то что есть - младший Квен - правда он не фонтан с русским - но имеем что имеем На фото первая картнка генерилась прям по русскому тексту:
персонажа. У неё черные волосы. С ушками кошки на голове зелёные глаза бледная кожа одежда простая кофта и джинсы зелёного цвета. Есть хвост ягуара и крылья орла за спиной`` Вторая - пропускаем через улучшайзерA cat with black hair sits on a simple beige sweater and blue jeans, its green eyes reflecting light. The cat has a bushy tail of a jaguar and wings of an eagle flapping behind it against a dark background.``` В итоге я решил оставить оба варианта в боте - потому что это весело!
650
Небольшой нюанс
Модель рисует буквально то, что вы ей пишите.
Те если в описании девушка лежит на столе в зеленой блузке а сзади лампа видна - она будет рисовать все это - как умеет:
A woman in a green blouse and beige skirt lies on a wooden desk, surrounded by a computer monitor, keyboard, and scattered papers, with a bulletin board and lamp nearbyНо. Текстовый енкодер это оч маленькая модель, которая ОЧЕНЬ плохо знает русский (Вихрь - помоги) Поэтому промпт "телевизор трахает занавеску" - не работает!
650
sdxs-2b update
- finetuned Qwen3.5-0.8B
- hybrid EDM/Karras scheduler
- img2img and txt2video(not trained now) pipeline
https://huggingface.co/AiArtLab/sdxs-2b
t.me/inkimpbot
donate
650
Repost from Осцилляции WaveCut
+3
PrismML снова радуют!
После 1-bit Bonsai 8B они успели выпустить Ternary Bonsai, уже на 1,58 бита на вес, и ряд моделей разных размеров — 1.7B/4B/8B.
Теперь та же идея доехала до генерации изображений.
Bonsai Image 4B
это две версии на базе FLUX.2 Klein 4B: binary и ternary. Архитектура, sampler и text-conditioning path остаются от базы; PrismML перепаковали матричные веса DiT. Binary хранит веса как {−1,+1} с FP16 scale на группу из 128 весов, ternary хранит {−1,0,+1} с таким же scale.FP16 diffusion transformer у FLUX.2 Klein 4B в оригинале занимает 7,75 ГБ; у Bonsai 1-bit он ужимается до 0,93 ГБ, у Ternary Bonsai Image 4B до 1,21 ГБ. Полный Apple Silicon payload с compressed text encoder и FP16 VAE получается 3,42 и 3,88 ГБ против 15,97 ГБ у full-precision базы. Во время генерации 1024×1024 средняя активная память падает до 1,95/2,38 ГБ против 14,39 ГБ. На Hugging Face уже даже выложили демку, которая умещается в 4 гигабайта памяти и запускается прямо в браузере, но я не имел с ней успеха, там помимо трансформера очень ужат текстовый энкодер. Для обладателей iPhone выложили iOS-приложение Bonsai Studio, в котором можно генерировать картинки прямо на вашем девайсе. По скорости PrismML заявляют 512×512 за 9,4 секунды на iPhone 17 Pro Max и около 6 секунд на Mac M4 Pro. На 1024×1024 у M4 Pro их стек даёт примерно 24 секунды против 134,9 секунды у stock MFLUX FP16, около 5,6×. Если кто-то не в курсе, а вы наверняка не в курсе, MFLUX — это на сегодняшний день, по крайней мере, еще час назад, SOTA рантайм на MLX для запуска диффузионных моделей рисования на Apple Silicon. Для куда CUDA господ есть варианты Gemlite/HQQ, включая нативный Windows-стек без WSL2; в репозитории лежат MLX и gemlite-веса, studio UI и CLI-скрипты. Ternary версия выдает 95% оригинального качества FLUX.2 Klein 4B по их таблице GenEval/HPSv3/DPG-Bench, binary держит 88%. Хороший качественный подгон, ребята не расстраивают. Анонс Whitepaper/GitHub Hugging Face Ternary Bonsai LLM
650
Мне кажется это очередная шляпа - Pid
Маленькую диффузионку обучили генерить из латентов в пиксели. Всё.
Потом задистилили ДмД в 4 степ. Получился а-ля декодер. Быстрая маленькая модель.
Кода нет (да и нужен ли он?)
Есть еще апскейлер. По тем семплам что я видел - дичь.
Продают как некий пиксельспейс диффужен который лучше вае. Нет ни слова о недостатках такого подхода - сплошная выгода.
На сайте выглядит эпично - но мне кажется прям лапша какая-то. Вероятно выдраны латенты с генерации неоконченной, которые выдают за ВАЕ ( хотя не знаю, это прям дичь и прямой обман от команды с брендом нвидиа получается - но я не верю что вае так плохо декодирует)
Наверно я предвзят и ошибаюсь, но у меня ноль доверия/уважения к команде сана/пиксарт/ае/пиксельдифужен
650
+1
Ночь не спал, просрал все токены!
Собрал шедулер внимательный и к структуре и к деталям в равной степени
Масштабирование начального шума - лютейший 💥 взрыв на старте
Экспоненциальное убывание (как в оригинальном EDM sampler) - дает лучшую прорисовку деталей
Denoising Loop (Ручной шаг Эйлера)
Сигмы считаем по формуле Карраса - Terro Karras is a classic
На графике: черный унылый шедулер из Z-Image vs Hybrid-EDM-Karras - sdxs-2b! (взрыв кишки расчлененка)
Код принес
Вы не поверите, я всё перепробовал прежде чем упарываться в очередное расписание электричек таймстепов - это пипец как важно оказалось
650
Пути назад я не вижу. Мы у края пропасти, и надежда сродни отчаянию. ... Чёрный Властелин всё видит и всё знает — может, он не насторожится, а лишь усмехнётся и раздавит нас одним мизинцем, как назойливую осу?В этом отрывке Гэндальф отвечает на слова Арагорна, подчёркивая, что Саурон не станет легкомысленно относиться к борьбе с ними, а предпримет решительные действия. Речь отражает уверенность мага в том, что даже в сложной ситуации есть те, кто готов противостоять Тёмному Властелину.
650
+1
В sdxl при обучении на фото модель забывала аниме, и наоборот
Считается что это свойство небольших моделей
Я думаю это из-за пулинг ембеддингов. Усредненный вектор мешал различать концепции
Еще одна ошибка стабилити, микрокондишининг, обучение с информацией о ширине высоте картинки мешало , а не помогало модели связать сущности в разных ориентациях
Ps: картинка ради науки!
650
Там Gemini 3.5 Flash вышла
Купил давеча у спекулянтов с реддит Gemini AI Pro аккаунт (15 долларов / 18 мес)
Работает! Правда, только в браузере и под ВПН
В целом модель отличная. Такая же тупая как Гемини про 3.1, но сильно быстрее!
С ноги нашла ошибку которая ускорит на 30% (на самом деле нет)
Потом поправила код который не просил трогать еще и сделав его медленнее
Но за доллар в месяц вполне норм
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
