Адель и МЛь

Kanalga Telegram’da o‘tish

Об ИИ и жизни в Нидерландах @AdelZakirov

Ko'proq ko'rsatish

Rossiya139 747 Texnologiyalar & Aralashmalar22 323

3 696

Obunachilar

Ma'lumot yo'q24 soatlar

+147 kunlar

+24130 kunlar

12 448

Post ko'rishlar

~ 1 39324 soatlar

~ 1 53948 soatlar

336.71%

Muloqot nisbati

Ma'lumot yo'q

Kuniga postlar

Ads index

beta

Postlar arxiv

3 695

Только я хотел похвалить Inkling Small, как вышел Deepseek V4-Flash 0731 с каким-то бешеными показателями. Хотя Inkling мультимодальный и принимает на вход текст, картинки и аудио а дипсик - text only. Обе модели похожи по размеру - ~280B A13B. Deepseek умнее и дешевле GPT 5.6 Luna (xhigh) и при этом openweights. Большеват, конечно, но хотя бы не 3Т. https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-0731 https://huggingface.co/thinkingmachines/Inkling-Small

3 695

OpenAI подкрутили свой harness и модель выбила 38.3% против старых 13.3% на ARC-AGI-3 🤷‍♂️ Многие еще от промпт инжиниринга не отошли, а тут уже харнесс инжинирингом пора заниматься. А то тоже скоро устареет. https://openai.com/index/how-two-settings-tripled-our-arc-agi-3-scores/

3 695

Вышла Kimi K3 - Безумные 2.8Т параметров. Дома такой оренсорс не погоняешь, конечно. - По бенчам и оценке Artificial Analysis - уровня Opus 4.8 и тянется к 5.6 и Fable. Дешевле Опуса в cost per task примерно в два раза - Они там снова что-то подкрутили в Attention, чтоб был быстрый-быстрый декодинг и эффективное обучение. - Очень хорошо может во фронтенд А так хочется чего-то нового в районе 30-100B https://www.kimi.com/blog/kimi-k3 https://x.com/artificialanlys/status/2077832874183860404?s=46

3 695

Насколько же сильно меняется работа, когда есть ИИ агенты. Мой коллега, биоинформатик, увидел статью, в которой хитрым образом находят специфичные гены в картошке. Понял, что это может быть полезно для нашего отдела по селекции клубники. Потому что и то, и другое распространяется вегетативно - то есть не через семена, а усы и клубни - они не родня, конечно, но в генетическом плане есть о чем поговорить, так сказать. Он дал эту статью агенту, который вооружен до зубов скиллами нашего собственного приготовления, и поставил задачу воспроизвести методы из статьи на наших данных клубники. Агент прочел работу, скачал с гита код, подтянул наши данные из бд, адаптировал что-то по мелочи, собрал контейнер, создал джобу на кластере и вот оно там бодро считается на нескольких Н100. По сути это задача интерна/джуна - “вот тебе статья, вот данные, через неделю покажешь, не надо плакать, все будет хорошо, соберись уже” Прогресс, как это часто бывает, выглядит немного несправедливо. И это, заметьте, не задачи кодинга, это по сути своей - applied research. Ведь агент не просто пишет код (если вообше пишет), а таскает за собой весь исследовательский контекст, внутреннюю кухню по данным и инфре. До сих пор не верится, что это все настолько хорошо работает. Ощущение, что оно где-то да вот вот зафейлится - но оно раз за разом хорошо отрабатывает. Магия 🤷‍♂️

3 695

Короткая рекомендация по GPT-5.6: Terra, похоже, можно смело пропускать. По графику Artificial Analysis у неё нет своего sweet spot: при той же цене Sol умнее, а при сопоставимом качестве Luna дешевле. Похоже вот это хороший сетап: Luna High - дефолтная модель, повседневный кодинг, мелкие фиксы и обычные задачи. Sol High - сложные баги, архитектура, планирование и ревью. С Ultra осторожнее: она спамит сабагентами и такой режим может очень быстро сжечь лимиты. При этом, по некоторым отзывам, она удаляет то, чего не следовало трогать (вплоть до вообще всего на диске) - но это пока что единичные случаи. P.S. Luna натренирована моделью Sol. А Terra - людьми. Думайте.

3 695

А почему не на виниле? https://x.com/github/status/2072801888525840476?s=46

3 695

Artificial Analysis померили стоимость Sonnet 5 на задачу (per task), и у них получилось, что он дороже Opus 4.8 на 15% и что это вообще одна из самых дорогих моделей, уступая только Fable 5. https://x.com/artificialanlys/status/2072062592923930666?s=46

3 695

Интересный сервис - AI Values показывает, с какой LLM у вас больше всего совпадают ценности и стиль мышления. Проходишь сценарии с моральными и вкусовыми дилеммами, а сайт сравнивает твои ответы с разными моделями. Можно пройти тест на 15 вопросов и потом затюнить на еще на 100. https://ai-values.com Я попал в opus 4.8 🤔

3 695

OpenAI выкатывают своего Mythos. GPT-5.6 - новая серия моделей: Sol - флагман, Terra и Luna поменьше и быстрее. Terra обещают примерно на уровне GPT-5.5, но в 2 раза дешевле. Sol тренировали с упором на agentic coding, biology/genomics и cybersecurity. Появляются новые режимы: max reasoning effort для более глубокого reasoning и ultra mode, где модель использует subagents(!) для сложных задач. Модель стала сильно мощнее, поэтому OpenAI делает поэтапный релиз и более жёсткие safeguards. Но по их оценке Sol не пересекает Cyber Critical threshold. Доступ пока limited preview в API и Codex для select trusted partners. Цены за 1M токенов: Sol $5 input / $30 output Terra $2.5 / $15 Luna $1 / $6. И еще Sol на Cerebras до 750 tokens/sec планируют в июле, сначала тоже ограниченно. https://openai.com/index/previewing-gpt-5-6-sol/

3 695

Вот и Cursor как раз тизерят новую модель. - модель на 1.5Т параметров - тренировали с нуля, никаких файнтюнов Kimi - использовали 100k+ GPU - на Колосусе тренировали, в общем - презентуют, как агентскую модель - beyond just coding - доступна станет через пару недель Очень интересно, что у них получилось, Composer выходили неплохие. Вот тут есть видео, если кому-то интересно.

3 695

SpaceX покупают Cursor за $60 миллиардов. Сделка еще не закрыта, но они уже подписали соглашение о покупке. https://techcrunch.com/2026/06/16/spacex-to-acquire-cursor-for-60b-in-stock-days-after-blockbuster-ipo/ P.S. Ну не получилось у xAI, бывает.

3 695

Artificial Analysis обновили свой Intelligence Index. Его заметно сдвинули в сторону agentic workloads и выкинули старые уже насыщенные бенчи. Некоторые конкретно поменяли: - Terminal-Bench Hard заменили на Terminal-Bench 2.1 - более свежий и сложный набор задач для агентских сценариев. - τ²-Bench Telecom заменили на τ³-Bench Banking - тоже более реалистичные и тяжёлые агентские задачи. - GDPval-AA обновили до GDPval-AA v2: подтянули расчеты Elo под длинные агентские цепочки, а не только короткие ответы - IFBench убрали из Intelligence Index, потому что он насытился и перестал хорошо разделять frontier-модели Ещё добавили новые per-task метрики: cost per task, time per task и tokens per task. Теперь можно смотреть не только “насколько модель умная”, но и сколько в среднем стоит одна задача, сколько она занимает времени и сколько токенов модель тратит. Короче можно взвешивать в зависимости от ваших приоритетов. Плюс теперь отдельно учитывают cached input tokens и их влияние на стоимость, потому что в реальных агентских сценариях кэш может сильно менять экономику. Понятно, что лидерборды немного изменились. Из интересного по результатам: - Claude Opus 4.8 max сейчас выглядит как самая сильная доступная модель, GPT-5.5 xhigh идёт почти рядом, но заметно дешевле. - Sonnet 4.6 max оказался выше Gemini 3.1 Pro. - DeepSeek V4 Flash max встал примерно на уровне GPT-5.4-mini xhigh, но дешевле в 8 раз. Очень сильный cost/performance. - Mistral, к сожалению, совсем утонули: их лучшая модель Medium 3.5 набрала всего 30 очков - примерно на уровне Claude 4.5 Haiku. Ждем, Le Chaton Fat %) Если вас, как и меня, интересуют небольшие модели с хорошими агентскими способностями, то тут с большим отрывом лидируют Qwen 3.6 27B и Qwen 3.6 35B A3B. Остальные даже не рядом, хотя по coding index Qwen, Gemma и Cohere выглядят примерно сопоставимо. В целом хороший апдейт. Бенчи быстро стареют и насыщаются, поэтому индекс надо постоянно чистить и двигать ближе к реальным задачам. Плюс очень удобно смотреть на другие индексы вроде костов, скорости и токенов. основной индекс маленькие агентские модели

3 695

Это, если что, лидер крайне правой партии, которая выиграла позапрошлые выборы в Нидерландах и показала себя абсолютно никакой далее.

3 695

Один из самых интересных моментов в релизе Claude Fable/Mythos 5 - не кодинг и даже не Pokémon. Самое любопытное для меня - биология. Anthropic пишет, что Mythos-class модели смогли предсказывать, как генетические изменения влияют на сборку оболочки AAV-вируса - крошечного, безопасного для человека ДНК-вируса, не вызывающего заболеваний. AAV это важный курьер для генной терапии: его используют, чтобы доставлять генетический материал в клетки. И вот тут занятное. Если я правильно их понимаю, то это не просто “модель запустила AlphaFold” или “выбрала правильный bio-tool”. Оно звучит сильнее: модель якобы использовала собственное биологическое рассуждение и обошла специализированные protein language модели. То есть речь уже не только об agentic workflow, где LLM оркестрирует инструменты. Речь о том, что general-purpose LLM начинает иметь что-то похожее на биологическую интуицию. Но, к сожалению - или к счастью - Anthropic сделали ограничение: публичная версия Fable 5 откатывается на более безопасный Opus 4.8 для большинства biology/chemistry запросов. Потому что граница стала размытой. Запрос вроде: “Как улучшить стабильность вирусного вектора?” для исследователя может быть нормальной задачей. А для злодея бондианы - частью плана по уничтожению мира. Раньше safety можно было строить вокруг явных запросов про биооружие. Теперь этого, похоже, недостаточно. Если модель реально умеет помогать с биологическим дизайном на таком уровне, то “обычные” научные вопросы тоже могут быть dual-use. Ждем пост от Юдковского с новым призывом бомбить датацентры.

3 695

О как https://www.anthropic.com/news/claude-fable-5-mythos-5

3 695

🇳🇱 Согласно статистике: Все, кто учит нидерландский / голландский язык, делятся на две категории: ❌ Первые — годами учат слова, но не могут связать и пары фраз. Бросают Duolingo, курсы, репетиторов и надежду заговорить. Живут в Амстердаме уже несколько лет, а голландский — всё ещё на уровне «Goedemorgen» и «Dankjewel». ✅ Вторые — подписаны на канал «Нидерландский | Голландский с Еленой Бурмаковой» и уже через месяц: — Свободно поддерживают повседневные диалоги; — Больше не переходят на английский; — Сдают экзамены inburgering без стресса 🎓 📖 Проверенная методика с акцентом на разговорную речь. Авторские песни для запоминания слов и грамматики. Фразы для жизни, а не для учебника. Истории тех, кто был на твоем месте. Всё это на канале «Нидерландский и Голландский с Еленой Бурмаковой» Хватит учить язык — пора на нём жить! Подписывайтесь ⬇️ https://t.me/+XooFv2QywoBhN2I6 #промо

3 695

новая экономика

3 695

Я уже какое-то время активно пользуюсь классным скиллом и промптом для брейншторма дизайна лендингов. По сути это хорошее использование ChatGPT Image 2, который генерирует просто лютые скрины страниц возможного сайта. Вот, например, я нагенерил сайт о лунной базе. Дальше уже нужен img2ui и перевод картинок в код, что уже не так уж и просто, но не невозможно. Промпт и скилл в комментах.

3 695

Маск пишет, что Grok V9-Medium на 1.5T закончил фазу претрейна, и внутренние оценки выглядят хорошо. В модель уже добавили много данных от Cursor на этапе дополнительного обучения, и, похоже, это только начало. Сейчас идет fine-tuning, а RL стартует в ближайшие дни. Публичный релиз обещают примерно через 2–3 недели - ну с поправкой на масковский энтузиазм. Вообще это должен быть большой апгрейд относительно текущей 0.5T v8-small, которая сейчас обслуживает весь production-трафик Grok. Особенно Маск выделяет сложные coding-задачи - то есть Grok явно хотят серьезно прокачать как инструмент для разработки, думаю тут у Илона жестокое fomo. Напомню, Cursor здесь не случайно: у SpaceX есть опцион купить Cursor за ~$60B позже в 2026, а если не покупают — остается крупное партнерство примерно на $10B. Cursor при этом получает доступ к инфраструктуре xAI Colossus для обучения своих coding-моделей