3 180
Obunachilar
+124 soatlar
+147 kunlar
+430 kunlar
Postlar arxiv
3 180
Вот и Cursor как раз тизерят новую модель.
- модель на 1.5Т параметров
- тренировали с нуля, никаких файнтюнов Kimi
- использовали 100k+ GPU - на Колосусе тренировали, в общем
- презентуют, как агентскую модель - beyond just coding
- доступна станет через пару недель
Очень интересно, что у них получилось, Composer выходили неплохие.
Вот тут есть видео, если кому-то интересно.
3 180
SpaceX покупают Cursor за $60 миллиардов.
Сделка еще не закрыта, но они уже подписали соглашение о покупке.
https://techcrunch.com/2026/06/16/spacex-to-acquire-cursor-for-60b-in-stock-days-after-blockbuster-ipo/
P.S. Ну не получилось у xAI, бывает.
3 180
Artificial Analysis обновили свой Intelligence Index.
Его заметно сдвинули в сторону agentic workloads и выкинули старые уже насыщенные бенчи.
Некоторые конкретно поменяли:
- Terminal-Bench Hard заменили на Terminal-Bench 2.1 - более свежий и сложный набор задач для агентских сценариев.
- τ²-Bench Telecom заменили на τ³-Bench Banking - тоже более реалистичные и тяжёлые агентские задачи.
- GDPval-AA обновили до GDPval-AA v2: подтянули расчеты Elo под длинные агентские цепочки, а не только короткие ответы
- IFBench убрали из Intelligence Index, потому что он насытился и перестал хорошо разделять frontier-модели
Ещё добавили новые per-task метрики: cost per task, time per task и tokens per task. Теперь можно смотреть не только “насколько модель умная”, но и сколько в среднем стоит одна задача, сколько она занимает времени и сколько токенов модель тратит. Короче можно взвешивать в зависимости от ваших приоритетов.
Плюс теперь отдельно учитывают cached input tokens и их влияние на стоимость, потому что в реальных агентских сценариях кэш может сильно менять экономику.
Понятно, что лидерборды немного изменились. Из интересного по результатам:
- Claude Opus 4.8 max сейчас выглядит как самая сильная доступная модель, GPT-5.5 xhigh идёт почти рядом, но заметно дешевле.
- Sonnet 4.6 max оказался выше Gemini 3.1 Pro.
- DeepSeek V4 Flash max встал примерно на уровне GPT-5.4-mini xhigh, но дешевле в 8 раз. Очень сильный cost/performance.
- Mistral, к сожалению, совсем утонули: их лучшая модель Medium 3.5 набрала всего 30 очков - примерно на уровне Claude 4.5 Haiku. Ждем, Le Chaton Fat %)
Если вас, как и меня, интересуют небольшие модели с хорошими агентскими способностями, то тут с большим отрывом лидируют Qwen 3.6 27B и Qwen 3.6 35B A3B. Остальные даже не рядом, хотя по coding index Qwen, Gemma и Cohere выглядят примерно сопоставимо.
В целом хороший апдейт. Бенчи быстро стареют и насыщаются, поэтому индекс надо постоянно чистить и двигать ближе к реальным задачам. Плюс очень удобно смотреть на другие индексы вроде костов, скорости и токенов.
основной индекс
маленькие агентские модели
3 180
Это, если что, лидер крайне правой партии, которая выиграла позапрошлые выборы в Нидерландах и показала себя абсолютно никакой далее.
3 180
Один из самых интересных моментов в релизе Claude Fable/Mythos 5 - не кодинг и даже не Pokémon.
Самое любопытное для меня - биология.
Anthropic пишет, что Mythos-class модели смогли предсказывать, как генетические изменения влияют на сборку оболочки AAV-вируса - крошечного, безопасного для человека ДНК-вируса, не вызывающего заболеваний. AAV это важный курьер для генной терапии: его используют, чтобы доставлять генетический материал в клетки.
И вот тут занятное.
Если я правильно их понимаю, то это не просто “модель запустила AlphaFold” или “выбрала правильный bio-tool”. Оно звучит сильнее: модель якобы использовала собственное биологическое рассуждение и обошла специализированные protein language модели.
То есть речь уже не только об agentic workflow, где LLM оркестрирует инструменты. Речь о том, что general-purpose LLM начинает иметь что-то похожее на биологическую интуицию.
Но, к сожалению - или к счастью - Anthropic сделали ограничение: публичная версия Fable 5 откатывается на более безопасный Opus 4.8 для большинства biology/chemistry запросов.
Потому что граница стала размытой.
Запрос вроде:
“Как улучшить стабильность вирусного вектора?”
для исследователя может быть нормальной задачей.
А для злодея бондианы - частью плана по уничтожению мира.
Раньше safety можно было строить вокруг явных запросов про биооружие. Теперь этого, похоже, недостаточно. Если модель реально умеет помогать с биологическим дизайном на таком уровне, то “обычные” научные вопросы тоже могут быть dual-use.
Ждем пост от Юдковского с новым призывом бомбить датацентры.
3 180
🇳🇱 Согласно статистике: Все, кто учит нидерландский / голландский язык, делятся на две категории:
❌ Первые — годами учат слова, но не могут связать и пары фраз. Бросают Duolingo, курсы, репетиторов и надежду заговорить. Живут в Амстердаме уже несколько лет, а голландский — всё ещё на уровне «Goedemorgen» и «Dankjewel».
✅ Вторые — подписаны на канал «Нидерландский | Голландский с Еленой Бурмаковой» и уже через месяц:
— Свободно поддерживают повседневные диалоги;
— Больше не переходят на английский;
— Сдают экзамены inburgering без стресса 🎓
📖 Проверенная методика с акцентом на разговорную речь. Авторские песни для запоминания слов и грамматики. Фразы для жизни, а не для учебника.
Истории тех, кто был на твоем месте. Всё это на канале «Нидерландский и Голландский с Еленой Бурмаковой»
Хватит учить язык — пора на нём жить! Подписывайтесь ⬇️
https://t.me/+XooFv2QywoBhN2I6
#промо
3 180
Я уже какое-то время активно пользуюсь классным скиллом и промптом для брейншторма дизайна лендингов. По сути это хорошее использование ChatGPT Image 2, который генерирует просто лютые скрины страниц возможного сайта.
Вот, например, я нагенерил сайт о лунной базе.
Дальше уже нужен img2ui и перевод картинок в код, что уже не так уж и просто, но не невозможно.
Промпт и скилл в комментах.
3 180
Маск пишет, что Grok V9-Medium на 1.5T закончил фазу претрейна, и внутренние оценки выглядят хорошо.
В модель уже добавили много данных от Cursor на этапе дополнительного обучения, и, похоже, это только начало. Сейчас идет fine-tuning, а RL стартует в ближайшие дни. Публичный релиз обещают примерно через 2–3 недели - ну с поправкой на масковский энтузиазм.
Вообще это должен быть большой апгрейд относительно текущей 0.5T v8-small, которая сейчас обслуживает весь production-трафик Grok. Особенно Маск выделяет сложные coding-задачи - то есть Grok явно хотят серьезно прокачать как инструмент для разработки, думаю тут у Илона жестокое fomo.
Напомню, Cursor здесь не случайно: у SpaceX есть опцион купить Cursor за ~$60B позже в 2026, а если не покупают — остается крупное партнерство примерно на $10B. Cursor при этом получает доступ к инфраструктуре xAI Colossus для обучения своих coding-моделей
3 180
Клод помог восстановить пароль от криптокошелька.
Парень потерял доступ к кошельку с 5 BTC (лежали 11 лет). Скинул чуть ли не все старые файлы с компа с колледжа в Claude, тот нашёл старый бэкап кошелька, понял проблему с паролем и помог правильно использовать mnemonic. Пароль, кстати «lol420fuckthePOLICE!*:)»
Я даже не знаю, как комментировать такие новости 🙃
https://x.com/cprkrn/status/2054586810475364536?s=46
3 180
Thinking machines выпустили интересную модель. Она не ждет, пока юзер закончит писать/говорить а непрерывно воспринимает контекст и может проактивно что-то ответить.
Они называют это
“interaction models” - модели, которые нативно работают в непрерывном real-time диалоге с аудио, видео и текстом, могут слушать, смотреть, говорить, перебивать и параллельно запускать фоновые тулы, вместо классического режима пользователь сказал -> модель ответила.
Интересный концепт, но пока не ясно что делать с быстро забивающимся контекстным окном и как эффективно непрерывно стримить аудио/видео.
Первая модель - TML-Interaction-Small - MoE 276B A12B, веса закрыты.
https://thinkingmachines.ai/blog/interaction-models/
3 180
+2
Игрался с ChatGPT Images 2 - и она оказалась безумно хорош а в восстановлении изображений: все детали сохраняются, ничего не добавляется и не меняется, она идеально раскрашивает, невероятно хорошо повышает разрешение и удаляет артефакты. Ни одна из предыдущих моделей не была настолько хороша в реставрации.
3 180
Вот и апдейт Codex вслед за Claude Code.
Там браузер, computer use, учет предпочтений пользователя, контекст между тредов, генерация изображений, 90 плагинов вроде Jira и Code Rabbit, открытие pdf, слайдов и прочего в сайдбаре, самопланирование долгих задач и их выполнение вплоть дней и недель и много чего еще.
https://openai.com/index/codex-for-almost-everything/
3 180
Компания по производству обуви (!) пивотится в ИИ.
Allbirds только что объявила, что планирует:
- продать все свои бренды и обувные активы,
- провести ребрендинг компании в Newbird AI,
- использовать конвертируемую линию финансирования на $50 млн для «приобретения высокопроизводительных GPU-активов».
Allbirds вышла на биржу в ноябре 2021 года с оценкой более $2 млрд, разместив акции по $15 и привлекая примерно $300 млн. Но не пошло - после слишком быстрого расширения, слабой диверсификации продуктовой линейки и высоких операционных затрат стоимость бренда рухнула на 99%, и в марте 2026 года компания согласилась на продажу American Exchange Group всего за $39 млн.
И теперь такой вот ход - продать обувной бизнес за всё, что от него осталось, и купить на эти деньги GPU.
Компания с публичным листингом, но без жизнеспособного бизнеса, продаёт саму себя, чтобы превратиться в своего рода GPU-провайдера. Эти $50 млн позволят купить примерно 8–12 GB300 NVL72 - что вряд ли, тут очередь большая, придется брать что-то постарее. Но даже это уже примерно в 300 меньше кластера Colosus от X AI. А там уже и Colosus 2 готовится… В общем, ничего прям жирного из этого не выйдет.
При этом акции Allbirds взлетели на 300%...
Каждый день новости становятся всё страннее.
https://ir.allbirds.com/news-releases/news-release-details/allbirds-inc-executes-50m-convertible-financing-facility
3 180
Я сначала не поверил, но похоже это все таки правда - Мила Йовович заделала память для агентов. Я понимаю, как это звучит, сам не до конца верю 🙃
https://github.com/milla-jovovich/mempalace
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
