ar
Feedback
местный датасасер ☮️

местный датасасер ☮️

الذهاب إلى القناة على Telegram

Пишу всякое о технологиях и моих проектах, @egorvoron

إظهار المزيد
1 865
المشتركون
لا توجد بيانات24 ساعات
-37 أيام
-230 أيام
أرشيف المشاركات
Китайская Moonshot AI выпустила Kimi Code CLI: у нас теперь есть опенсорсный аналог Claude Code

Krea сделала свой Midjourney Своя модель от Krea, натренированная с нуля и заточенная на разные художественные стили. Не ждите фоторил или рендеринг текста, ожидайте креатива в духе Миджорни. Доступна пока на планах Max и Businesses. https://www.krea.ai/krea-2 @cgevent

Сохраним Android открытым https://keepandroidopen.org/ru/

Repost from vc.ru
Глава Nvidia Дженсен Хуанг в ходе конференции GTC презентовал корпоративную платформу NemoClaw. Она представляет собой OpenCl
Глава Nvidia Дженсен Хуанг в ходе конференции GTC презентовал корпоративную платформу NemoClaw. Она представляет собой OpenClaw с дополнительными функциями безопасности, пишет TechCrunch. Компания хочет предложить для бизнеса систему, которая позволит использовать ИИ-агентов с соблюдением требований к конфиденциальности и возможностью контролировать их работу vc.ru/ai/2799287

Это было неизбежно: рано или поздно должны были появиться специализированные решения для инференса. И вот, Taalas (бывшая ком
Это было неизбежно: рано или поздно должны были появиться специализированные решения для инференса. И вот, Taalas (бывшая команда из Tenstorrent) выкатили то, чего я так ждал — настоящий Direct-to-Silicon. Ребята не стали мелочиться и буквально «запекли» модель в кремний. Никакой внешней памяти, никакого HBM, никакой сложной упаковки. Веса модели и архитектура — это и есть сам чип. Цифры выглядят дико: 17,000 токенов в секунду на Llama 3.1 8B. Это на порядок быстрее текущей SOTA GPU, при этом чип стоит в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии. Самое крутое, что это не просто красивые слайды для инвесторов. Железо уже существует, и его можно «потрогать» (ссылка на демо внизу). Конечно, это ASIC, и тут есть нюанс: чип заточен под одну конкретную модель. Но Taalas продумали этот момент — они оставили поддержку LoRA-адаптеров и изменяемого контекстного окна. То есть это не совсем уж «кирпич», гибкость для файн-тюнинга остается. Сейчас у них готов чип с Llama 8B (HC1). Весной обещают выкатить что-то среднеразмерное с ризонингом, а к зиме грозятся показать фронтир-модель на втором поколении кремния. У меня голова идет кругом от мыслей к чему это может привести. Ссылки: • АнонсДемо (скорость реально впечатляет)

Repost from TechSparks
После перепалки Anthropic и OpenAI на тему допустимости рекламы в ИИ-чатботах решила высказаться и Perplexity. Руководство компании приняло сторону Anthropic и заявило, что недолгие эксперименты с рекламой решено свернуть. Доверие пользователя слишком дорогого стоит при общении с ИИ, и компания решила им не рисковать. А монетизацию обеспечить подпиской: компания сфокусируется на развитии сервисов, "за которые людям захочется платить". Похожим спорам о монетизации больших интернет-сервисов лет почти столько же, сколько и интернету. Попытки сделать поиск или почту, “за которые захочется платить”, на b2c рынке не привели к появлению сколь-нибудь крупных игроков. Интересно, как здесь разрешится спор моделей. Все-таки за последние годы подписочная модель в стримингах, например, вполне доказала свою состоятельность, так что привычка платить потихоньку у людей вырабатывается https://www.theverge.com/ai-artificial-intelligence/880562/perplexity-ditches-ai-ads

О, война платежных стандартов в ИИ! 3 месяца назад OpenAI совместно со Stripe (крупнейший карточный процессинг с фокусом на р
О, война платежных стандартов в ИИ! 3 месяца назад OpenAI совместно со Stripe (крупнейший карточный процессинг с фокусом на разработчиков) разработали свой протокол для покупок внутри ChatGPT — Agentic Commerce Protocol (ACP). И вот вчера Google совместно с Shopify (крупнейшая платформа для создания интернет-магазинов) представили Universal Commerce Protocol (UCP). Совсем упрощая, это чтобы можно было покупать товары прямо на странице результатов поиска, не переходя на страницу интернет-магазина. Протокол гораздо более открытый, чем ACP. Хотелось бы поставить эмоджи 🍿, но мне кажется и так понятно, кто выиграет. Это как со государством соревноваться.

слоп в моих ушах - это значит я слышу слоп слоп на моих глаза - это значит я вижу слоп слоп на моей обуви - это значит я иду к слопу слоп на моей одежде - это значит я в слопе https://techcrunch.com/2025/11/19/warner-music-settles-copyright-lawsuit-with-udio-signs-deal-for-ai-music-platform/

Мы решили задачу омографов и ударений в русском языке Мы опубликовали библиотеку silero-stress для расстановки ударений в обычных словах и омографах: 1️⃣ Расставляет ударения, решает омографы, ставит букву ё; 2️⃣ "Знает" порядка 4М русских слов и словоформ и порядка 2K омографов; 3️⃣ Простановка ударения в обычном 1 слове занимает где-то 0.5 ms, а в предложении на 400 символов с 2 омографами - порядка 30 ms; 4️⃣ Общий размер библиотеки составляет порядка 50 мегабайт (архив весит порядка 30 мегабайт), что является сжатием словарей и всех датасетов примерно в 400 раз; 5️⃣ Опубликована под популярной и простой лицензией (MIT); 6️⃣ Не содержит раздутого кода, лишних библиотек, гигабайтов академических артефактов; 7️⃣ Зависит только от стандартной библиотеки питона и работает на всех последних версиях PyTorch. Ставим ⬆️ habr.com/ru/articles/955130/ Ставим ⭐️ https://github.com/snakers4/silero-stress

Repost from эйай ньюз
Wan 2.5 — китайский нейрокомбайн с генерацией видео по аудио Вышла моделька Wan 2.5, продолжение всеми любимой в опенсорсе 2.
+3
Wan 2.5 — китайский нейрокомбайн с генерацией видео по аудио Вышла моделька Wan 2.5, продолжение всеми любимой в опенсорсе 2.2 версии. Можно было бы написать просто про её релиз сразу, но после него выкатили ещё кучу фич. Оказалось, что платформа теперь моделька мультимодальная и чуть ли не единственная в своём роде. Считайте сами, Wan 2.5 поддерживает вход и выход в следующих форматах: Text, Image, Video, Audio. Только запах осталось добавить. Причём видео и картинки можно редактировать промптом, и, судя по всему, всё это можно комбинировать. Например, только что появилась возможность генерации видео по аудиовходу. Что это значит? Персонажи и окружение в видео теперь могут двигаться в такт музыке! Ну и наивный липсинк, конечно же. Кроме того, обновили интерфейс и добавили удобный редактор. Полноценно монтировать там, конечно, не получится, но генерацию в целом это упрощает. В опенсорс, как и ожидалось, пока не выложили. Анонс @ai_newz

А ведь гугл еще весной заанонсил протокол для взаимодействия агентов https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/ github

Repost from Сиолошная
Вышло вышло вышло https://www.anthropic.com/news/claude-4
Вышло вышло вышло https://www.anthropic.com/news/claude-4

Repost from ML physicist
Кажется вайбкодинг зашел слишком далеко, что даже claude-3.7 отказывается кодить, пытаясь сбагрить это на ChatGPT
+1
Кажется вайбкодинг зашел слишком далеко, что даже claude-3.7 отказывается кодить, пытаясь сбагрить это на ChatGPT

Repost from ML physicist
Кажется вайбкодинг зашел слишком далеко, что даже claude-3.7 отказывается кодить, пытаясь сбагрить это на ChatGPT
Кажется вайбкодинг зашел слишком далеко, что даже claude-3.7 отказывается кодить, пытаясь сбагрить это на ChatGPT

Repost from эйай ньюз
Релиз Gemini 2.5 Flash Gemini 2.5 Flash - это дистиллят из Gemini 2.5 Pro размером поменьше и побыстрее. По качеству она дале
Релиз Gemini 2.5 Flash Gemini 2.5 Flash - это дистиллят из Gemini 2.5 Pro размером поменьше и побыстрее. По качеству она далеко ушла от 2.0 Flash, да даже от январского Flash Thinking отрыв гигантский. Но по сравнению с o4-mini модель меркнет — у OpenAI и модель сильнее, и нет странных ограничений, вроде невозможности подрубить и поиск и исполнение кода одновременно. Но у Gemini 2.5 Flash всё же есть что-то, чего нет у o4-mini — детальный бюджет на размышления в токенах, прямо как в Sonnet 3.7 (но в 2.5 Pro не добавили). Попробовать модельку можно прямо сейчас в AI Studio. Если вы не гоняете тысячи запросов по API, то Gemini 2.5 Pro для вас доступна бесплатно, которая, хоть и уступает o3, остаётся лучшей бесплатной моделью. Даже по скорости она не сильно медленнее версии Flash — на моих промптах 2.5 Pro думает всего на 10-20% дольше, при сильно лучше ответах. Всё равно, пока ждёшь, можно погенерить что-то в Veo 2, которую недавно добавили и туда. Но крышку в гвоздь гроба забивает цена — для обычного не-ризонинг режима она в полтора раза выше чем у 2.0. Но главная проблема в ризонинг режиме — за него просят $3.5 за миллион токенов, что немногим ниже чем $4.4 за o4-mini. Но даже эту разницу в цене может легко съесть разница в длине размышлений модели, но без тестов тут сложно судить. С уверенностью можно сказать одно — не будь таких драконовских цен на размышления, модель была бы сильно интереснее. Но все же для некоторых задач при вызовах по API, она может конкурировать с o4-mini. @ai_newz

https://www.docker.com/blog/introducing-docker-model-runner/ Docker сделал llama.cpp + хранилище моделей в Docker Hub + OpenA
https://www.docker.com/blog/introducing-docker-model-runner/ Docker сделал llama.cpp + хранилище моделей в Docker Hub + OpenAI API из коробки, в общем докеризация моделей от докера

Repost from Сиолошная
Пост с выжимкой трансляции: — модель будет в API вместе с выпуском в Pro-подписку (сегодня) — Модель будет доступна разработчикам в API ВСЕХ ТИРОВ (не только тем, кто потратил $100+ или $250+). У меня уже появился доступ. В теории завтра-послезавтра появятся независимые бенчмарки... если авторы наскребут денег на тесты ;) новая модель ОЧЕНЬ дорогая — в остальные тиры (Plus за $20) попадёт уже на следующей неделе — появился блог: https://openai.com/index/introducing-gpt-4-5/ — модель уже работает с Canvas и поиском (инструменты в ChatGPT), а самое главное поддерживает загрузку файлов — «GPT-4.5 демонстрирует более сильную эстетическую интуицию и креативность» (прилагаются результаты слепого тестирования на пользователях, как часто они предпочитали ответ одной модели другой). Новая модель побеждает в 57%-63% чатов (более высокий процент достигается на «профессиональных» запросах, что бы это не значило). — модель тренировалась на нескольких датацентрах одновременно (как Gemini 1.0 год назад) — как я писал, сделали акцент на том, что новая модель будет очень крутой базой для обучения рассуждающих моделей. Второй акцент — на существенном уменьшении галлюцинаций и улучшении надёжности. UPD: появились цены! — $75 долларов за миллион токенов на входе, $150 за миллион на выходе — существенно дороже, чем на релизе была GPT-4. Сейчас GPT-4o стоит $2.5/$10 — в 30 и 15 раз дешевле соответственно (а ведь это ещё и не самая дешёвая модель на рынке DeepSeek стоит значимо дешевле). Страшно представить, сколько будут рассуждалки стоить.. — модель похоже реально ОГРОМНАЯ, скорость генерации ну очень маленькая. Даже простых ответов приходится ждать... как будто вернулся в март '23-го и свежую GPT-4. Длина контекста остаётся 128k токенов, но почти для всех кейсов этого хватает. Всё равно длинный контекст не так надёжен сам по себе :) UPD2: модель имеет знания до Октября 2023-го года, согласно документации, то есть как o1/o3/GPT-4o. Это очень не здорово( хотелось хотя бы плюс 8-10 месяцев данных получить...

еще 1000 tiktoks, остальное верно

Repost from Futuris
DeepSeek наносит ответный удар, за сегодня американский айти рынок уже потерял 1 трлн долларов и начал DDOS атаку на дипсик,
DeepSeek наносит ответный удар, за сегодня американский айти рынок уже потерял 1 трлн долларов и начал DDOS атаку на дипсик, а тут от них новая модель генерации картинок Janus-Pro-7B, которая бьёт DALL-E 3 и Stable Diffusion 🤯 https://huggingface.co/deepseek-ai/Janus-Pro-7B