Когнитивная нагрузка Майка Новикова
رفتن به کانال در Telegram
Эксперименты, открытия, мысли о работе и жизни. По вопросам пишите в личку канала: t.me/cogload?direct
نمایش بیشتر347
مشترکین
اطلاعاتی وجود ندارد24 ساعت
+17 روز
+230 روز
آرشیو پست ها
Ideogram 4: генерация картинок из текста с максимальным уровнем контроля. Заодно это лучшая из доступных локальных моделей по качеству русского текста.
Вроде бы ничего нового:
Реализм, генерация текста и постеров, анатомия, стили, хорошее знание концептов и культурных отсылок. Все это умеют Z-image, Flux и Qwen.
Ключевое отличие в степени следования описанию: через специальный интерфейс (00:06) создается JSON запрос с точным расположением объектов в прямоугольниках.
Для каждого кусочка можно задать свой запрос, и если нужно указать цвет в формате #FF0000.
Сверху при желании задать стиль, эстетику цветовую палитру для всей композиции.
При этом нейронка постарается очень точно вписать генерацию в эти коробочки. Не понравилась? Передвигаешь прямоугольник или рисуешь еще детали внутри, чтобы прояснить что надо.
Чтобы не писать много текста с нуля, можно попросить у любой нейронки составить базу для JSON промпта, его импортировать и дорабатывать.
Для дизайнерских задач это просто спасение — модель отдельно тренировалась на постерах, графике, баннерах и другом графдизайне. Она очень хорошо работает со шрифтами леттерингом и всяким артом.
Отдельно есть сущность текст: можно задать содержимое фразы, а ниже указать какого стиля должна быть надпись. Среди доступных для скачивания моделей русский язык у Ideogram 4 реально работает лучше всех.
Следование запросу просто нереально хорошее, а учитывая что можно крутить локально — это суперский вариант для прототипирования, когда ты точно знаешь что именно тебе надо.
Но есть ложка дегтя — версию, опубликованную бесплатно для запуска на своем компе нельзя использовать в коммерческих целях ни в каком виде.
Лицензия максимально ограничивающая, для любой коммерции нельзя даже outputs, т.е. сами картинки. Для рабочих проектов придется использовать их собственную площадку, API или агрегаторов типа Krea 😭
Грустно, да. Но я могу себе представить кастомную ноду, которая будет посылать уже отточенный локально промпт в API на финальную генерацию, чтобы получить коммерческие права на картинку.
Сейчас одна генерация стоит $0.06 (5 ₽) за стандартное качество и $0.1 (8 ₽) за 4к. Но даже если со временем цена вырастет до $1, $5 или $10, все-равно это будет обосновано на коммерческом проекте. При этом не надо будет платить регулярную подписку и тревожиться что закончатся токены.
На сайте у них еще есть фича по превращению текста в редактируемый (00:26). Я думаю если они нормально интегрируются с какой-нибудь фигмой это будет реальное конкурентное преимущество (пока все остальные не повторят те же фичи 🤭)
🎤 Ссылки на утро — второй канал
⏲ Устойчивый VPN за звезду
#toolreview@cogload #нейронка@cogload #text2image@cogload
Эту встречу можно было заменить двухминутным роликом.
Прошаренные удаленщики и студии давно освоили крутой формат презентаций — видео с записью экрана и камерой.
Часто такой видос называют «лум» по названию популярного сервиса loom.com, типа как ксерокс.
Формат экономит кучу времени на уточнения, непонятки и ненужные встречи.
По сути это удаленная мини-презентация у которой сплошные плюсы:
● Видосы сильно увеличивают шансы на одобрение дизайн-решения, создают ощущение прозрачности и профессионализма™
● Один ролик несколько человек могут посмотреть в удобное для себя и не искать общий слот для встречи
● Пока пытаешься связно рассказать ход мыслей в одном видосе, сразу понимаешь где не хватает аргументации.
● Когда снимаешь такие ролики, одновременно прокачиваютя навыки презентации, выступлений и защиты дизайн-решений и со временем начинаешь так же связно рассказывать вживую.
Раньше этот сервис назывался Google Videos и там был (и есть) полноценный облачный видеоредактор. На прошлой неделе его хорошо обновили, а самое главное, сделали приятное и почти бесшовное расширение для браузера:
https://chromewebstore.google.com/detail/google-vids-screen-record/iklnnbgdcppplombffihcijanngoeifm
Ролики хранятся в гугл диске в папке Google Vids. Очень рекомендую попробовать!
p.s на 01:38 это не брак, а ускоренное видео — у меня стоит расширение, которое запускает все видосы в браузере со скоростью x1.8. Если открывать без него проигрывается как обычно.
#ToolReview #опыт
+1
Мы все немножечко стали программистами, только современные роботы знают как «чистить картошку» из коробки.
Это кусочек из крутого computer-science научпопа 90-х — энциклопедии профессора Фортрана
#дурьвсякая@cogload
Простые приемы, которые создают крутые эффекты
Когда начинаешь разбираться в 3D очень часто оказывается что «ВАУ» эффекты делаются очень просто, если знать, что происходит под капотом.
Например обои на M3 Mac Air это стеклянные трубы, под которые подложено слово AIR, написанное жирным шрифтом со светящейся текстурой 🗿
Вот как этот эффект в блендере можно повторить:
https://youtu.be/KhBaHDvIamw?t=655
Изначально их делал Алекс Мальцев, у него в инсте оч много такой цифровой абстрактной красоты! 😯
https://www.instagram.com/i.am.maltsev/
Affinity studio хорошо обновился
● Добавили векторные blob brush Рисует форму краями обводки, а не центральной линией — такой же инструмент как в иллюстраторе.
● Добавили поддержку файлов .af в DaVinchi Resolve, Cavalry (программа для анимации, теперь бесплатная) и Capture One (конкурент Adobe Lightroom)
● Добавили возможность синхронизации объектов с облачным Canva Brand Kit Типа дизайнер редактирует лого, а во всех Canva шаблонах у маркетологов они автоматом обновляются. Естественно нужна активная подписка.
● Добавили первую интеграцию скриптинга. Можно включить MCP сервер в настройках, и сказать агенту, что ты хочешь сделать с документом. Может читать содержание, изменять редактировать добавлять фльтры, создавать скрипты.
Пока официально есть интеграция только с Claude Code, но у меня получилось выдрать код, и скормить Codex от OpenAI. По идее Antigravity должен тоже разобраться как с этим работать.
На 00:30 он после пяти минут раздумий и анализа кода расширения выдранного из Claude, смог переименовать 300+ слоев в документе по моему запросу
Пока такое удовольствие дороговатое. Если бы я использовал API, ушло бы $0.2-0.4 за весь разговор. Потратилось 111k токенов.
Но сейчас уже есть модельки которые способны на схожем уровне работать с инструментами для узких задач без облака. Так что будем посмотреть во что разовьется через пол года. В целом направление хорошее.
Но хотелось бы от Affinity более открытого и понятного способа взаимодействовать с программой обычными дедовскими js скрптами без привлечения агентов.
#Affinity@cogload #ToolReview@cogload
Этот сайт смотреть только если закончили на сегодня работать!
Риск высокого залипалова, я вас предупредил! 😯
https://www.illusionsindex.org/i
Сайт посвящен различным иллюзиям, их разбору и объяснению принципов по которым работают.
Задокументированы даже авторы, которые иллюзию открыли. Плюс все статьи лицензированы под creative commons.
Ну не красота ли!
p.s Берегите глаза! Я по молодости когда пытался научиться смотреть автостереограммы переусердствовал, голова болела дня четыре.
#любопытство
Repost from N/a
Бесплатные разборы продвинутых методов генерации картинок и видео от сообщества Figma Weavy
https://www.loom.com/share/a7982d2d4c224eed912e5c2e9a5c16cc
https://www.loom.com/share/6bb30ce1e1ce466ea652b7e3c395abcd
В октябре прошлого года Figma купила инструмент для конвейерного создания контента Weavy.
Он работает по логике коробокчек-нод связанных проводами. Сейчас многие сервисы внедряют похожий интерфейс: я в основном канале писал про этот формат интерфейсов.
Weavy нашли оч крутой способ обмена опытом: раз в неделю они собираются в дискорде чтобы делиться схемами генерации, находками и проблемами с которыми сталкиваются и помогают друг другу их решать.
Главная польза таких встреч в разборе реальных рабочих задач.
Почти все используют Nano Banana для картинок, Kling и Seedance для видео, поэтому приёмы легко адаптировать под другие инструменты.
Там ценность не в конкретных нодах внутри Weavy, а в логике и подходах, которыми люди пользуются, чтобы получить то что нужно.
Оч рекомендую хотя бы просто пролистать, чтобы посмотреть, как выглядят современные конвейеры по генерации контента
Канал в дискорде называется live-figma-weave там они почти все записи публикуют.
Лучшая бесплатная локальная модель для разговоров на русском языке — Gemma 4
Гугл очень удачно обновил линейку бесплатных моделей, которые можно запустить у себя на компьютере.
Gemma 4 32b и 26b-A4b это первые локальные модели которые на моем ноуте без доступа к интернету прошли мой бенчмарк на знание русскоязычного контекста: с первого раза ответить на вопрос: «Кто такой Максим Ильяхов?»🤭
Полгода назад маленькие нейронки уверенно пороли чушь:
● «известный политический деятель»
● «депутат государственной думы, которого посадили за взятки»
● «основатель агентства Регнум»
● «один из самых популярных стримеров на Twitch в России»
Gemma 4 (26b-A4b-UD-Q3-K-S) сегодня мне ответила так:
Максим Ильяхов — известный российский редактор, писатель и эксперт по работе с текстами, который стал популяризатором концепции «ясного стиля» (или «инфостиля») в современном русском языке. Вот основные факты, которые помогут понять, кто он: 1. Автор книги «Пиши, сокращай» Максим Ильяхов стал широко известен благодаря своей книге «Пиши, сокращай». В ней он излагает философию работы с текстом, основанную на следующих принципах: ● Борьба со словесным мусором: удаление лишних слов-паразитов, канцеляризмов и штампов. ● Фокус на фактах: замена абстрактных прилагательных («высокое качество», «инновационный подход») конкретными примерами и доказательствами. ● Забота о читателе: текст должен быть максимально понятным, чтобы человек не тратил время на разгадывание смысла. 2. Работа в «Т—Ж» (Тинькофф Журнале) Он долгое время работал главным редактором «Т—Ж». Именно там он применил свои принципы редактирования к масштабам большого медиа-издания, превратив его в один из самых популярных ресурсов о деньгах и жизни. Он внедрил жесткие стандарты качества текстов: никакой воды, только польза и конкретика. 3. Преподавание и консалтинг Ильяхов создал образовательную систему по редактуре (курсы «Пиши, сокращай»), которой пользуются тысячи людей — от копирайтеров и маркетологов до топ-менеджеров крупных корпораций. Он учит людей не просто «исправлять ошибки», а менять мышление: переходить от желания «казаться умным» к желанию «быть полезным». Основная идея его подхода Если кратко, подход Максима Ильяхова заключается в том, что текст — это инструмент для передачи смысла. Если смысл не дошел до читателя из-за сложных слов или запутанных фраз, значит, текст плохой. Его цель — сделать коммуникацию честной, прозрачной и эффективной.What a time to be alive! Гугловцам каким-то образом удалось втиснуть очень много специфических знаний в файл размером 11,6 Гб Они отдельно пишут, что дообучали на разных языках, поэтому для переводов и редактуры моделька должна очень хорошо подойти. Cкоро расскажу как такие штуки можно без большой головной боли запускать у себя на компе! 🎤 Ссылки на утро — второй канал ⏲ Устойчивый VPN за звезду #toolreview@cogload #нейронка@cogload #text2text@cogload
Открываю открывашку. Почему именно такие устанвоки?
Если по чесноку, я просто понимаю, что на серьезных щщах не затащу этот челендж) Не хочу сейчас упахиваться в продуктивность и достигаторство.
Есть большое желание попробовать ввести в привычку открывать книгу через эксперимент и игру. Найти время, место, попробовать и пощупать куда это лучше всего вписывается.
Главное обязательство — открывать книгу каждый день. Заметьте что нет обязательства её читать.
Обычно все сайд-начинания у меня затухают из-за слишком высокой планки. Ставлю себе амбициозные цели, но как только случается очередной «загруз», всё летит к чертям. Потом расстраиваюсь что ничего не получилось.
Чтобы «открыть книжку» нужно всего два условия:
● Чтобы она была под рукой: на столе, тумбочке, на видом месте в телефоне или на компе.
● Чтобы открывание совершалось: по напоминалке, просто потому что глаз упал.
Дальше исключительно на ваше усмотрение. Читать или не читать, конспектировать или просто полистать — это зависит только от настроения и сил в конкретный день.
Второе обязательство — писать о том, получилось или нет.
Обычно все делятся победами и «успешным успехом», но если каждый день подмечать почему не получается, через время закономерности проявляются.
В режиме «проброса», это не занимает ресурса, а на дистанции начинаешь видеть, что именно мешает.
Декларация прав читателя
Очень советую хотя бы в первом приближении на неё взглянуть — декларация короткая и вдохновляющая. На неделе я напишу про неё отдельный пост, и мы все её «подпишем». 🥁
Установки на челлендж:
● Без давления и в кайф. Придерживаемся «Декларации прав читателя».
● Открываем книгу каждый день, даже если не получается продолжать.
● Просто открыть книгу — это уже хороший результат и победа.
● В чате пишем, получилось сегодня или нет.
● По желанию — делимся впечатлениями, мыслями или конспектами.
→ Присоединиться к челенджу ←
p.s все, я больше про него не буду спамить, вся движуха будет в чате
#челлендж@cogload #открывашка@cogload
Книжная открывашка: ненапряжный читальный челендж
У меня лежат три книжки которые я уже довольно давно хочу прочитать, но они постоянно выпадают из окна внимания.
Когда начинаю читать, запала хватает на полторы-две недели, но как только сверху наваливается большой загруз, про чтение забываю совсем.
Я уверен, что многие тоже с этим сталкивались, и поэтому решил организовать мини-челндж вместе с Ариной у неё в чатике, где мы будем вместе в режиме не-напряга, регулярно читать то что выбрали.
Мы уже так делали в прошлом году и было супер кайфово и лампово 👀🔥
Я буду читать книжку Нира Эяла «Beyond Bielief» — про модели мира, ограничивающие установки и как эти установки можно менять на практике.
Идея открывашки в том, чтобы не ставить себе грандиозных целей, а просто каждый день выполнять только одно минимальное действие — открывать книгу, не переусложняя, не устраивая муштру и обязаловку.
Бдуем придерживаться Декларации прав читателя и кайфовать.
Челендж продлится 45 дней (6 апреля → 21 мая), чтобы создать привычку открывать книгу.
А дальше что раньше закончится: интерес, книжка, или желание этому сейчас уделять время.
Открывашка начинается 6 апреля в чатике у Арины. Заходите, читайте закреп и давайте вместе читать что интересно!
→ Присоедениться к челенджу ←
#челлендж@cogload #открывашка@cogload
В википедии оказывается теперь есть темная тема и режим широкой странички!
Включатся в «очках» справа сверху. Больше не придется себя ночью слепить ⬜️
#любопытство@cogload
Что в голове у нейросети, когда она делает дизайн?
Разработчики модели Claude открыто публикуют системные «навыки» — текстовые инструкции, которые под капотом выполняет нейронка, про них писал раньше в канале.
Сегодня обнаружил, что для вебдизайна у Claude тоже есть отдельный навык. Он его использует каждый раз, когда просишь сделать отчет, сайт-визитку или лендинг.
Очень любопытно, что упор делают на «вау‑решения» с максимальным контрастом. По сути в промпт зашит рецепт смелой дизайн‑концепции.
Привожу перевод навыка, за исключением технических указаний:
Дизайн-мышление Прежде чем писать код, разберись в контексте и выбери смелое визуальное направление: • Цель: какую задачу решает интерфейс? Кто им пользуется? • Тональность: выбери крайность и придерживайся её. Например: радикальный минимализм или хаотичный максимализм, ретрофутуризм, органика, строгий люкс, игрушечный или журнальный стиль, брутализм. Используй это для вдохновения, чтобы создать аутентичный продукт. • Ограничения: учитывай технические требования (фреймворк, производительность, доступность). • Уникальность: что сделает проект незабываемым? Какую одну деталь пользователь точно запомнит? ГЛАВНОЕ: выбери четкую концепцию и безупречно её реализуй. И смелый максимализм, и изысканный минимализм работают хорошо, если за ними стоит осознанность, а не просто желание сделать «поярче». Гайдлайны по эстетике фронтенда 1. Типографика Выбирай характерные шрифты. Откажись от приевшихся Arial или Inter. Ищи решения, которые подчеркивают индивидуальность. Удачный прием — сочетать необычный акцидентный шрифт в заголовках с выверенным текстовым шрифтом в основном блоке. 2. Цвет и тема Создавай целостную палитру. Используй CSS-переменные для единообразия. Доминирующий цвет с резкими акцентами выглядит лучше, чем робкая, равномерно распределенная гамма. 3. Моушн-дизайн Используй анимацию для микро-взаимодействий: — Для чистого HTML отдавай приоритет CSS-решениям. — В React используй библиотеку Motion. — Делай ставку на ключевые моменты: один эффектный экран загрузки с каскадным появлением элементов создает больше восторга, чем россыпь мелких случайных анимаций. Добавляй неожиданные ховер-эффекты и анимации по скроллу. 4. Композиция и пространство Экспериментируй с версткой: используй асимметрию, наслоения, диагонали и элементы, которые ломают сетку. Работай с пространством: либо обилие «воздуха», либо контролируемая плотность. 5. Фоны и детали Создавай атмосферу и глубину. Вместо однотонных заливок используй градиентные сетки (mesh), шум, геометрические паттерны, слоистую прозрачность, драматичные тени или зернистость. Никогда не используй шаблонные «нейросетевые» решения: • Стандартные шрифты (Inter, Roboto, Arial, системные шрифты). • Стереотипные цвета (особенно фиолетовые градиенты на белом фоне). • Предсказуемую верстку и стандартные компоненты из библиотек. • Шаблонный дизайн без характера. Твори и делай неожиданный выбор. Каждый проект должен быть уникальным. Чередуй темы, меняй шрифтовые пары и стилистику. Никогда не копируй одни и те же изъезженные приемы из проекта в проект (например Space Grotesk) ВАЖНО: сложность реализации должна соответствовать эстетике. Максимализм требует сложного кода с обилием эффектов. Минимализм — сдержанности, идеальных отступов и безупречной типографики. Элегантность — это всегда вопрос качественного исполнения.Конкуренты тоже не отстают — у OpenAI на этой неделе вышла статья как делать вебдизайн через модель ChatGPT 5.4. Они в своих инструкциях наоборот напирают на минимализм и лаконичность в стиле Linear. Дополнительно прописывают структуру страницы, правила хорошего копирайта и ключевых иллюстраций. А в конце явно пишут чего не должно быть: карточек (бенто получается все?), бессмысленных каруселей и пестрой палитры — её ограничивают одним акцентным цветом и двумя шрифтами Вот полный перевод навыка front end design от OpenAI 👀 С вас 30 000 ₽ за прохождение интенсива «Стань веб‑дизайнером за три минуты» 🤭 🎤 Ссылки на утро — второй канал ⏲ Устойчивый VPN за звезду #дурьвсякая@cogload #text2web@cogload
Бесплатная Nano Banana c хорошим UX — Google Flow
Гугл хорошо обновил Google Flow, свой собственный инструмент для работы с Nano Banana 2 / Pro и видео-моделью Veo 3.1
Стало намного удобнее работать с референсами, точечно вносить изменения через лассо, рисование маркером и работу с кропом.
При этом не множатся сущности, потому что итерации хранятся внутри одного «ингредиента» т.е. картинки.
Обработанные ингредиенты можно называть, группировать, и сортировать, для создания новых сцен и комбинаций.
На прошлой неделе еще добавили популярные соотношения сторон кроме 16:9 и 9:16, и стало прям совсем удобно работать над настоящими проектами!
Плюс, в отличие от генерации внутри чата в приложении gemini, Flow не лепит водяной знак со звездой на картинку, а вшивает внутрь криптографически.
Еще из приятного: картинку сразу можно увеличить до 2k на бесплатном, и до 4к на платном тарифе. Да, местами шакалятся мелкие детали и текст, но зато работает шустро.
Похоже Flow становится магистральной площадкой для генеративных моделей гугла, потому что из Whisk предлагают пересаживаться именно на него. И в целом регулярность обновлений у продукта сильно выросла.
Ограничения
Сейчас для бесплатных аккаунтов можно сгенерить около 20-50 картинок с NB в день, и один видос Veo flash (80 кредитов из 150, +50 добавляют каждый день)
На тарифе за $25 около 100-500 картинок и больше видосов.
Пока идет привлечение пользователей, «кредиты» на картинки не расходуются, а только «ограничены в зависимости от нагрузки на сервера». То есть если нужно использовать пару раз в неделю, это прям годный инструмент!
Вот идеальный гайд для новичков по использованию Flow с русским дубляжом. В шестеренке аудио трек → Русский.
Ну и если пишет «недоступно в вашей стране», вы знаете что делать... 👀
⏲ Устойчивый VPN за звезду
🎤 Ссылки на утро — второй канал
#ToolReview@cogload #text2image@cogload #nanobanana@cogload
Бесплатная Nano Banana c хорошим UX — Google Flow
Гугл хорошо обновил Google Flow, свой собственный инструмент для работы с Nano Banana 2 / Pro и видео-моделью Veo 3.1
Внутри стало намного удобнее работать с референсами: вносить изменения через выделение с лассо, кроп, и рисование маркером, при этом не размножая сущности.
Потом обработанные исходники легко группировать, переименовывать и сортировать, для создания новых сцен и комбинаций.
А на прошлой неделе кроме 16:9 и 9:16 добавили остальные не‑киношные соотношения сторон.
Ограничения
Сейчас для бесплатных аккаунтов можно сгенерить около 20-50 картинок с NB в день, или один видос Veo flash
На тарифе за $25 около 100-500 картинок. и больше видосов. Пока идет привлечение пользователей "кредиты" не тратятся и
Дальше
Нафига нужна типографская раскладка и почему я перешел на HypeType?
Когда учился на журфаке я впервые узнал про разницу между знаком дефиса‑минуса [ - ], настоящего минуса [ − ], средним [ – ] и длинным тире [ — ] из книжки живая типографика.
Оказалось, что у каждого языка есть много нюансов про кавычки, тире и спецсимволы, а то что мы вводим на стандартной ру‑раскладке — компромиссное недоразумение времен зари интернета.
Но делать правильно — боль: нужно вспоминать или учить альт‑коды, либо каждый раз копировать из поиска.
В типографской раскладке все это можно вводить просто зажав правый альт:
«Кавычки-ёлочки»
Длинное — тире
Маркеры списка ● (я люблю жирненькие)
Галочки ✓✓ ✔️️
Правильный знак коллаб умножения ×
Стрелочки ← → ↑ ↓
Знаки ©, ™, плюс-минус ±
Квадрат², куб³ и ¼
А еще знак неразрывного пробела через
[правый alt] + [пробел]
Если за компом, попробуйте растянуть окно по ширине — все висяки в этом посте приклеены!
Когда работаю в Obsidian с ней очень удобно вводить markdown символы # @ и [[ссылки на заметку]] прямо с русской раскладки.
Зачем вообще заморачиваться?
Помимо того, что это удобно, правильно и красиво, есть ещё мета бонус: грамотная типографика сигнализирует опытным арт-директорам и олдам в индустрии, что ты шаришь.
Это мелочь, но может стать дополнительным плюсиком.
Я пользовался тремя штуками
● Оригинальная идея и решение — раскладка Бирмана
● Когда подсел на Obsidian, перешел на её вариацию — markdown Strata
● А три месяца назад полностью переехал на HypeType
Главный плюс HypeType, что он не ломает сочетание [ctrl] + [левый alt] в других программах типа и Photoshop, Figma и Affinity — всё работает как и должно. У Бирмана и Strata в этом месте были конфликты.
Еще там встроен редактор символов и можно поставить те, которыми чаще пользуетесь. Даже эмоджи работают! В комменты закину свой конфиг.
Про скорость
На лендинге автор Руслан Мамедов говорит, что по замерам ввод символов ускоряется в 20 раз.
Но мне кажется главная ценность в том, что уходит сопротивление и прерывание. Я перестал отвлекаться и думать о спецсимволах — руки просто сами нажимают нужные комбинации.
Кому может пригодится?
● Дизайнерам при подготовке макетов к печати: 210×297±3 мм, правильные кавычки и тире в вебе и в переписке.
● Редакторам — «ёлочки», знак рубля ₽, длинное тире в текстах.
● Всем, кто работает с несколькими раскладками — чтобы не бегать между языками ради одного символа «Č»
Программа бесплатная, с открытым исходным кодом, все как мы любим!
Поставить на MacOS
Поставить на Windows
Если зайдет, не забудьте задонатить автору 💸
🎤 Ссылки на утро — второй канал
⏲ Устойчивый VPN за звезду
#ToolReview@cogload #опыт@cogload+3
Все не так сладко с редактирующими нейронками
Я много раз восторгался возможностям нано бананы и Flux Klein.
Они очень впечатляют своими возможностями, когда пробуешь делать что-то
Но самое интересное начинается, когда нужно получить именно то, что нужно. 😬
Я тут помогаю прекрасной Арине Швецовой визуализировать шалость с велосипедной формой.
В процессе отлаживаю пайплайн создания и доработки картинок. На удивление Gemini 3 pro image (Nano Banana Pro) и Flux Klein хорошо друг друга дополняют: там где не справляется одна модель, затаскивает другая, и наоборот.
Gemini отлично работает, чтобы совмещать несколько объектов, переносить рисунок или менять позу.
Klein лучше сохраняет исходную позу, отлично меняет освещение, лучше сохраняет логотипы и детали при точечных правках (особенно с нодой inpaint crop&stich на высоком разрешении)
Вот еще несколько советов, которые помогают выжимать согласованные результаты с хорошим качеством из обеих моделей:
● Убирать все лишнее с референсных фото. Даже мощные нейронки путаются, когда нужно совместить слишком много сущностей: стиль, освещение, направление камеры, детали конкретных объектов и т.п.
Я отдельно готовил лица персонажей, форму на «невидимом манекене», отдельно редактировал шорты, очки и т.п.
Общий принцип такой: если зажмуриться и посмотреть на картинку и в ней видны ненужные элементы — надо их несчадно убирать. Klein для этого идеально подходит
● Дорабатывать текстовый запрос для ясности. В Nano Banana встроена рассуждающая нейронка, которая под капотом дописывает базовый запрос до сложного и детального, и уже его отправляет в генерацию.
Klein вообще никак не улучшает промпт — что написал, то он и отправит в модель. Поэтому для него я сделал специальный дописывальщик промпта: закидываешь свою картинку и говоришь, что надо сделать. Он на основе картинки выдает более эффективный промпт, привязываясь к деталям. На удивление тот же улучшенный промпт повышает качество и в банане тоже!
● Волшебства не существует. Как бы не были хороши нейронки, а все-таки с некоторыми вещами они неимоверно тупят.
Чтобы получить позу со скрещенными руками двух людей мне пришлось знатно попотеть: сделать маску по глубине и очень детально расписывать промпт чтобы получить нужное выражение и расслабленный вайб у персонажей. А детали формы местами пришлось допиливать в Affinity — совмещая лучшие попытки и подчищая косяки.
Так что если хотите получить по-настоящему крутой результат, готовьтесь к фрустрирующей итерационной работе с периодическими возгласами «да капец, что-ж ты творишь, это не то!» 🐱
Там Арина в канале рассказывает со своей стороны историю, ну и вся финальная красота тоже там, так что подписывайтесь!
#опыт@cogload #text2image@cogload
Что вышло на канале в феврале
Инструменты
● Handy — бесшовный и качественный голосовой ввод без подписки.
● «Локальная нано-банана» — Flux 2 Klein 9b — мощная модель для создания и редактирования изображений. Обзор с примерами.
Находки
● Инетрфейсный сахар для авторов телеграм-каналов
● 3D видео-голограммы внутри браузера 🤯
● Лекарство от подхалимства для любой LLM
Дурь
● Сможете отличить нейросеть от 3D рендера?
● Гениальный перл русского языка от нейронки
Предыдущая подборка за ноябрь
🎤 Ссылки на утро — второй канал
⏲ Напоминалка про бесплатный VPN для подписчиков и знакомых
Запасных вариантов много не бывает!
#recap@cogload
Halfpipe — хафпайп ❓ буквально «полу-труба» — вогнутая конструкция для экстремальных видов спорта. По форме представляет трубу, разрезанную вдоль.
Для сноубордистов и фристайлеров зимний хафпайп делают из снега гусеничным трактором с насадкой 😮
Для скейтеров летний хафпайп, делают из дерева металла и бетона
#вкусныеслова@cogload
Навыки агентских LLM как способ самому въехать в тему.
Сейчас нейронки для программирования научились работать в «агентском» режиме: формулируете задачу, закидываете исходники, и через несколько итераций принимаете результат.
На самом деле после четвертого раунда мук, слез и фрустраций, в третьем часу ночи, принимаете полу-работающий прототип 🐱
Недавно завирусились «навыки» для агентов в формате skills .md
По сути это просто текстовый файл с инструкцией для модели, чтобы улучшить качество результата
Главное приемущество в подаче информации постепенно: сначала машина смотрит заголовок и общее описание навыка, потом подзаголовки, а потом уже детали если они нужны.
Получается что в окно контекста (краткосрочную память) попадают только подходящие кусочки инфы.
Сейчас есть куча сборников этих навыков, и мне показалось, что они по-настоящему могут быть полезны человеческим новичкам, если нужно быстро въехать в тему.
Вот, например, навык с правилами создания интерфейсов под Apple: Human Interface Guidelines
Просто идеальная легко-читаемая выжимка по огромной теме!
Тут хранилище хранилищ таких файлов по категориям: начиная с веб разработки и заканчивая научными статьями и медицинскими вопросами.
Кстати, если пробуете вайбкодить, ни в коем случае не используйте навыки из публичных репозиториев, пока в режиме исходника глазами не прочитаете полностью все содержимое файла! В видосе детали почему это опасно
🎤 Ссылки на утро — второй канал
⏲ Устойчивый VPN за звезду
#ресурсы@cogload #agents@cogload
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
