Осцилляции WaveCut
Kanalga Telegram’da o‘tish
Ko'proq ko'rsatish
Mamlakat belgilanmaganToif belgilanmagan
915
Obunachilar
+124 soatlar
+37 kunlar
+3430 kunlar
Postlar arxiv
Zed анонсировали DeltaDB — альтернативу Git для агентской эпохи.
Нейтан Собо (когда-то создатель Atom, теперь основатель Zed) признаётся, что никогда не любил пулреквесты. Команда Zed привыкла работать в одном worktree и обсуждать код прямо в процессе написания, а GitHub разрешает разговаривать о коде только после коммита и пуша — когда самые важные обсуждения уже отгремели. С приходом агентов боль обострилась: настоящим источником смысла всё больше становится диалог, из которого код родился, а Git, построенный вокруг дискретных коммитов, эту информацию выбрасывает.
Философия DeltaDB в том, что вместо снапшота на каждый коммит оно записывает каждую операцию («дельту») и выдаёт ей стабильный идентификатор. Сообщение агенту и правка, которую оно породило, лежат рядом и не разъезжаются. Из любой строки кода можно вытащить разговор, который её создал, и все разговоры, которые её касались, а из любой реплики в истории — прыгнуть к коду, каким он был в тот момент или каким стал сейчас. Ссылки привязаны к дельтам, а не к номерам строк, поэтому переживают любые изменения. Worktree построены на CRDT: несколько людей и агентов могут редактировать одни файлы одновременно с разных машин. Файлы настоящие: worktree монтируется на диск, и с ним работают любые привычные инструменты.
Агент может подтянуть историю кода, который трогает, или вообще «созвать» прошлых агентов и спросить у них, почему здесь написано именно так.
Git при этом остаётся для фиксаций майлстоунов и контрактом с внешним миром. Пулреквесты, ревью-треды и инлайн-комментарии возникли, чтобы прикрутить обсуждение к коду постфактум; если код и диалог живут вместе, церемония отпадает сама по себе.
В анонсе ни слова о том, как это будет распространяться: открытый формат, который можно поднять у себя, или проприетарный сервис, пришитый к редактору. Сам Zed лежит на GitHub под GPL, и это обнадёживает. Но DeltaDB хранит каждую правку вместе со всеми диалогами вокруг неё, и доверять такой архив закрытому облаку я буду не готов.
Анонс
Вэйтлист
Представьте себе, какой сейчас когнитивный диссонанс у Андрея Карпатыго, эвангелиста открытого обучения ML, кто буквально только устроился в Anthropic, и тут же Anthropic выпускает модель, которая официально лоботомизирована в части разработки ML-моделей.
DiffusionGemma
Примерно год назад, на I/O 2025, Google показала экспериментальную Gemini Diffusion и спрятала её за вэйтлистом. Я тогда довольно быстро получил доступ и искренне удивлялся, насколько быстро эта моделька работает. Но за год утекло много воды — казалось, что Google идею забросил. Экспериментальная версия всё ещё висела в вебе, но уже ни в какое сравнение не шла с актуальным рынком, включая опенсорсные диффузионки.
И вот сегодня Google представили DiffusionGemma — диффузионную модель на MoE-архитектуре: 26B суммарных и ~4B активных параметров. Модель доступна для скачивания с Hugging Face. Работает очень быстро, в квантованном виде помещается в консюмерские видеокарты.
И что-то мне кажется, что мы наблюдаем финал внутреннего проекта Google, который просто опубликовали в open source. Не разделяю оптимизма тех, кто думает, что релиз говорит о том, что, Google обращает свой взор на диффузионки. Я скорее склонен думать, что это retirement: проект закрыт, а артефакты его работы решили использовать как позитивный пиар.
Буду рад ошибиться, конечно.
Модель выложена под лицензией Apache 2.0 и, как утверждается в сопровождающем блог-посте, легко файнтюнится под конечные задачи пользователей.
Веса
Кодинг агенты очень быстро приводят к так называемому AI fatigue, когда когнитивные способности в части написания кода падают, потому что вся работа отдается на откуп моделям.
Хотите проверить есть ли еще ягоды в ягодицах и порох в пороховницах?
The Farmer Was Replaced
В этой игре вы работаете за программиста, который пишет код, автоматизирующий работу дрона-фермера.
С прогрессом открываются новые скиллы и новые языковые конструкции. Язык, по сути, представляет из себя сабсет из Python, поэтому писать довольно легко. Есть возможность даже организовать структуру проекта, написав разные файлы и оперируя импортами между ними. С ходом времени игровое поле растёт, и простые алгоритмы переборов перестают работать, необходимо писать алгоритмы поиска оптимального пути и выстраивать аккуратную приоритизацию. Количество культур тоже возрастает, и у каждой из них есть свои условия и перки со штрафами.
Google DeepMind выпустили среднюю модельку в линейке Gemma 4, размером 12 миллиардов параметров.
Архитектурно она отличается от того, что было раньше: мультимодальность здесь работает без отдельных энкодеров для разных типов данных. Это даёт небольшой выигрыш по памяти и вычислениям, но по сути — любопытное архитектурное ноу-хау, потому что могут.
Ещё одна особенность Gemma 4 12B Unified: она, как и младшие братишки, умеет работать с аудио на входе. Старшие модели серии 4 этой возможности лишены.
По бенчмаркам 12B близко подходит к старшей MoE на 26 миллиардов параметров. В Tau2 tool-use бенчмарке она даже чуть выше: 69,0% против 68,2%.
Нужно вайбчекать. Вполне может стать домашней рабочей лошадкой для широкого спектра агентских и креативных задач.
Вместе с моделью выпустили приложения под macOS и iOS, которое является демкой аудиовозможностей, конвертер голоса в текст. Работает довольно паршиво, не рекомендую.
Анонс
Hugging Face
Слухи о ценах на устройства на базе RTX Spark с Computex:
старшая SKU "N1x" стартует с $2,899, младшая "N1" с $1,799.
Скорее всего, это цены за более слабую конфигурацию из двух в каждой линейке.
Repost from Psy Eyes
Ideogram: выпустили генератор картинок Ideogram 4, но в этот раз релиз двойной: помимо основной модели на сайте, они впервые выложили веса в опенсорс.
Модель нативно выдаёт изображения разрешением 2К, отлично справляется с рендером текста в разных стилях и на разных языках, понимает контроль кадра с помощью цветовой палитры и выделения рамкой. В FP8 демке есть улучшайзер промта на выбор серверами Ideogram, или локально с помощью Qwen.
Выложены веса в FP8 и NFP4 вариантах, FP16 похоже не предвидится. Модель имеет 9.3B параметров и FP8 весит 9,3 ГБ, плюс текстовый энкодер 8,8 ГБ. Так что в 24 ГБ VRAM всё должно вместиться, и работать шустро. Разрабы указывают три режима: Turbo (12 шагов), Default (20 шагов), и Quality (48 шагов).
Единственно лицензия некоммерческая.
Демо
Сайт
Анонс
Гитхаб
Хаггинг
На #MSBuild 2026 Microsoft AI анонсировали семь новых MAI-моделей: для рассуждений, кода, изображений, транскрибации и генерации голоса. Хоть они и не открытые весами, но, как говорится, стоящие внимания, с учетом того, что $MSFT плотно сидят на игле OpenAI GPT.
Все модели обучены с нуля, на лицензированных данных, и на своей инфраструктуре, предлагаются инструменты файнтюнинга под нужды клиентов.
🔄 MAI-Thinking-1. Ризонинг модель общего назначения, сильна в математике, коде и enterprise-сценариях, чтобы это не значило. MoE с 35 млрд активных параметров, окно контекста 256K, 97,0 % на AIME 2025 и 52,8 % на SWE-Bench Pro. (тех репорт)
🔄 MAI-Code-1-Flash. Coding-модель для GitHub Copilot в VS Code. Её обучали на трейсах GitHub Copilot; в анонсе Microsoft пишет про решение сложных задач с расходом до 60 % меньше solution tokens. Судя по карточке модели конфигурация: 137B A5B. Уже доступна в подписке Copilot.
🔄 MAI-Image-2.5. Диффузионная модель для генерации и точного редактирования изображений, 20B non-embedding параметров. № 2 на Arena Image Edit и № 3 в text-to-image.
🔄 MAI-Image-2.5-Flash. Быстрый вариант той же модели. Инфы пока мало, но скорее всего это классический флэш дистил.
🔄 MAI-Transcribe-1.5. Speech-to-text с поддержкой 43 языков. Можно настраивать keyword/entity biasing до 200 терминов, чтобы модель лучше слышала имена, медицинские термины, внутренние аббревиатуры и другие доменные слова. В карточке Microsoft флексит снижением метрики WER до 30 % и быстрым процессингом: час аудио примерно за 15 секунд.
🔄 MAI-Voice-2. TTS-модель с поддержкой 15 языков с тэгами эмоций и войс-клоном из 5–60 секунд референса. В слепых тестах её предпочитали первой версии в 72 % случаев, но кастомные голоса идут через одобрение, свободного клонирования голоса в продакшене нет.
🔄 MAI-Voice-2-Flash. Coming soon, lower-cost, ultra-efficient package. Пока только анонс.
Все модельки прямо сейчас раскатываются в продукты Microsoft по месту применения, типа как в Copilot, продукты офиса, Teams и другие.
+7
Поучительная история о галюцинациях Grok Code.
Инструмент газлайтил пользователя и выводил прогресс с задержкой, чтобы имитировать задержку реальной работы, и признался в этом только после того как его прижали к стене.
+4
NVIDIA RTX Spark — переупаковка DGX Spark под лаптопы.
В прошлом году NVIDIA выпустила DGX Spark — настольный "суперкомпьютер" в виде готового устройства с запечеными I/O и экосистемой под стек NVIDIA, который ОЕМ производители переупаковывали под своими лого. В основном он годится для прототипирования и маргинальной работы с ИИ, хотя мне знакомы энтузиасты, использующие его как рабочую лошадь в своих процессах.
Похоже, что NVIDIA решила на этом не останавливаться. Теперь они анонсировали уже потребительскую версию — RTX Spark. Это SoC, которую OEM-производители смогут встраивать в ноутбуки, компактные ПК и другие форм-факторы. По буквам на бумаге, спецификации там почти идентичны с DGX Spark, просто market fit другой: DGX Spark был коробкой для разработчиков, а RTX Spark пытаются протащить в потребительский сегмент.
Из хороших новостей — в движуху вписалась Microsoft и обещает нормальную адаптацию под Windows on ARM. Заявляют, что на этом железе будет возможно как гонять локальных агентов и пользоваться CUDA-стеком NVIDIA, так и нормально играть: с полноценными графическими драйверами, DLSS и прочими RTX ON. Microsoft разрабатывает своего Computer Use Agent специально под эту платформу, который, как ожидается, будет лучше их прошлых потуг с Copilot.
Пока всё это, конечно, на словах и красивых видеодемках. Но я заинтригован. Думаю, стоить такие ноутбуки будут как винт от вертолёта, поэтому позволить себе это в ближайшей перспективе я вряд ли смогу. Но приятно видеть, что у Apple наконец появился достойный конкурент в потребительском сегменте домашнего AI-железа.
Все еще считаешь LLM модели тупыми, а себя умненьким?
Давай проверим!
На этом сайте представлены маленькие срезы стандартных бенчмарков, которыми сегодня оценивают общий интеллект LLM. И их можно пройти, сравнив свои рещвльтаты с результатами машин.
Мои результаты по ARC Challenge на картинке, делитесь своими (не читерить!).
+3
PrismML снова радуют!
После 1-bit Bonsai 8B они успели выпустить Ternary Bonsai, уже на 1,58 бита на вес, и ряд моделей разных размеров — 1.7B/4B/8B.
Теперь та же идея доехала до генерации изображений.
Bonsai Image 4B
это две версии на базе FLUX.2 Klein 4B: binary и ternary. Архитектура, sampler и text-conditioning path остаются от базы; PrismML перепаковали матричные веса DiT. Binary хранит веса как {−1,+1} с FP16 scale на группу из 128 весов, ternary хранит {−1,0,+1} с таким же scale.FP16 diffusion transformer у FLUX.2 Klein 4B в оригинале занимает 7,75 ГБ; у Bonsai 1-bit он ужимается до 0,93 ГБ, у Ternary Bonsai Image 4B до 1,21 ГБ. Полный Apple Silicon payload с compressed text encoder и FP16 VAE получается 3,42 и 3,88 ГБ против 15,97 ГБ у full-precision базы. Во время генерации 1024×1024 средняя активная память падает до 1,95/2,38 ГБ против 14,39 ГБ. На Hugging Face уже даже выложили демку, которая умещается в 4 гигабайта памяти и запускается прямо в браузере, но я не имел с ней успеха, там помимо трансформера очень ужат текстовый энкодер. Для обладателей iPhone выложили iOS-приложение Bonsai Studio, в котором можно генерировать картинки прямо на вашем девайсе. По скорости PrismML заявляют 512×512 за 9,4 секунды на iPhone 17 Pro Max и около 6 секунд на Mac M4 Pro. На 1024×1024 у M4 Pro их стек даёт примерно 24 секунды против 134,9 секунды у stock MFLUX FP16, около 5,6×. Если кто-то не в курсе, а вы наверняка не в курсе, MFLUX — это на сегодняшний день, по крайней мере, еще час назад, SOTA рантайм на MLX для запуска диффузионных моделей рисования на Apple Silicon. Для куда CUDA господ есть варианты Gemlite/HQQ, включая нативный Windows-стек без WSL2; в репозитории лежат MLX и gemlite-веса, studio UI и CLI-скрипты. Ternary версия выдает 95% оригинального качества FLUX.2 Klein 4B по их таблице GenEval/HPSv3/DPG-Bench, binary держит 88%. Хороший качественный подгон, ребята не расстраивают. Анонс Whitepaper/GitHub Hugging Face Ternary Bonsai LLM
На GitHub прошла новая массовая атака на CI.
SafeDep пишет: 18 мая за шесть часов в 5 561 репозиторий попали 5 718 вредоносных коммитов.
Снаружи это выглядело как обычная CI-рутина от build-bot или ci-bot: "ci: add build optimization step", "chore: update ci/cd pipeline". Внутри workflow лежал base64-скрипт, который собирал env, облачные ключи, SSH, Docker/Kubernetes/Vault/Terraform-конфиги, npm/PyPI-токены, GitHub OIDC и вообще всё, до чего дотягивался runner.
Если у вас 18 мая появлялись коммиты от build-system@noreply.dev или ci-bot@automated.dev, workflow-файлы SysDiag / Optimize-Build или странные .github/workflows/*.yml, считайте CI-секреты скомпрометированными. Проверяйте Actions, ротируйте токены, облачные и SSH-ключи, отдельно смотрите, кто может менять workflow-файлы.
Какое-то недоумение происходит, да.
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
