Generative Ai

رفتن به کانال در Telegram

Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT По рекламе писать @miralinka, Created by @life2film

نمایش بیشتر

روسيا146 800 فناوری و برنامه‌ها23 255

3 590

مشترکین

-224 ساعت

-47 روز

+1230 روز

711

نمایش های پست

~ 27524 ساعت

~ 31448 ساعت

19.81%

نرخ مشارکت

اطلاعاتی وجود ندارد

پست های در روز

Ads index

beta

آرشیو پست ها

3 590

Repost from LLM под капотом

Кейс с LLM под капотом - поиск видео для монтажа рекламы Давайте расскажу вам еще про один кейс достаточно необычного использования LLM в продуктовых целях. Итак, компания - это производитель популярной на рынке продукции, что-то вроде Red Bull. Они производят и публикуют очень много видео-рекламы. Для этого у них есть гигантская библиотека всякого рода заготовок - в виде отснятых в прошлом роликов или сгенерированных заставок. Когда создается новый рекламный ролик, его обычно монтируют из старых и новых записей. Если чего-то подходящего в архивах нет, то приходится тратить время и ресурсы на запись нового. Либо можно подойти творчески и как-то интересно обыграть и обработать старую запись. Соответственно, компании хочется, чтобы создатели новых роликов в компании могли лучше искать и переиспользовать существующий материал. Сейчас поиск работает немного похоже на Elastic Search - ролики помечаются тэгами и вручную “украшаются” свойствами с описаниями. Это долгая и муторная работа. Команда реализации сначала сделала достаточно простую и очевидную вещь (пусть и дорогую, но всяко более дешевую, чем запись нового ролика) - они “скармливают” видео из архива в мощной LLM с video input и просят заполнить описание. Потом поиск ищет по этому описанию используя обычный векторный поиск и Query Expansion (когда просим LLM-ку “развернуть” запрос пользователя в нормальный запрос напрямую к БД, используя терминологию, в которой данные там проиндексированы). Целевая метрика у компании - уменьшить количество времени, которое было потрачено на запись новых видео при монтаже рекламы. А что тут можно сделать еще лучше? (1) Начать со сбора данных - обвязать систему поиска интерфейсами так, чтобы можно было собирать телеметрию о том, какие результаты были использованы пользователями (2) Построить пайплайн для извлечения структурированных данных о записи прошлых видео (какие видео люди искали, и какие элементы потом были использованы ими при монтаже). Благо все эти данные у них хранятся. (3) Сделать так, чтобы разработчики могли быстро тестировать гипотезы и выкатывать их на проду с обратной связью, чтобы видеть - стали результаты поиска лучше или нет. А дальше начинается самое интересное. Можно посмотреть на подход к реализации проекта “Кейс про агента-писателя” и переиспользовать подход к анализу оттуда в связке с идеей из кейса "про товары, которые невозможно найти". Пусть агент берет в качестве вводных данных не конкретное описание видео куска, а саму тему для рекламного ролика. И потом проходится по Schema-Guided Reasoning процессу: (1) формулируем общую концепцию ролика (2) ищем все потенциально подходящие ролики (3) если нужно, прогоняем их через VLM с дополнительными запросами (эти метаданные сохраним в базе на будущее) (4) прорабатываем outline финального ролика со скриптом и ссылками на ролики (5) полуавтоматически “нарезаем” эти ролики прямо в timeline и грузим в проект для быстрого просмотра и редактирования Тут две забавные вещи: (1) Даже если человеку не понравится идея, он ее полностью выкинет и переделает, оставив только найденные материалы, то миссия уже выполнена. Целевая метрика - облегчить людям поиск подходящего видео. (2) Эта концепция не нова. Ее уже используют в Amazon Prime для генерации кратких выжимок серий сериалов на платформе. В принципе, команда и так уже двигалась в данном направлении, но им хотелось услышать независимое экспертное мнение и подтверждение того, что они двигаются правильно и не упустили какое-то секретное супер-решение. Плюс видение того, как можно контроллировать качество и развивать продукт дальше. Ваш, @llm_under_hood 🤗 PS: Пост со списком всех кейсов

3 590

Ноябрь — месяц One Day Offer в GigaChat и Kandinsky 📆 В ноябре команды двух топовых IT-продуктов Сбера планируют обрести новых классных коллег — DL Engineers и Researchers, чтобы вместе работать над GigaChat и Kandinsky: развивать, обучать и дообучать модели. Смотрите расписание One Day Offer и не упустите шанс присоединиться к крупнейшему AI-комьюнити. Целых восемь мероприятий, чтобы изменить свою карьеру и жизнь — выбирайте то, что подходит под навыки и цели, и регистрируйтесь!

3 590

Собираем AI-помощника с RAG для точных и быстрых ответов 🫡 Чтобы настроить RAG, не нужно быть экспертом в ML или дата-сайентистом в третьем поколении. С сервисом Evolution Managed RAG от Cloud.ru вы можете легко и быстро создать AI-помощника для семантического поиска по документам, сайту или базе знаний.

Все уже готово к использованию. Просто загрузите ваши документы в объектное хранилище — сервис автоматически обработает их, создав базу знаний для AI-помощника. А после интегрируйте помощника в ваш сайт или внутренний портал с помощью API.

Попробуйте

3 590

Algebras AI - новый уровень дубляжа с искусственным интеллектом! Месяцы работы ради одной цели, чтобы ИИ говорил естественно: с эмоцией, интонацией и уважением к языку. Теперь каждое слово звучит по-настоящему. Используйте код VIDEO15PH и получите 15 бесплатных минут дубляжа - убедитесь сами, как сильно может звучать ваш контент. Оцените проект на Product Hunt: https://www.producthunt.com/products/algebras-ai?launch=video-localization-by- Будем благодарны вашей поддержке и комментариям.

3 590

Repost from Data Secrets

О, Гарвард опубликовал отличную книгу по ML-системам Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне. Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой. В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные. pdf-ка и онлайн версия доступны здесь, репозиторий тут

3 590

Repost from Библиотека баз данных

🔥 Hugging Face снова выкатили полезные материалы. Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели. Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд. Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM. Что внутри: • Логика построения модели: зачем → что → как • Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их) • Архитектура: ключевые выборы и trade-offs • Искусство подбора и очистки данных • Как проходит обучение моделей • Пост-тренинг и RLHF в 2025 • Инфраструктура больших моделей По первым страницам - уровень деталей как в Ultra-scale playbook. Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture Видео: https://www.youtube.com/watch?v=LGzO-Mn0DJQ #AI #LLM #MachineLearning #HuggingFace @sql_lib - библиотека МЛ и ИИ книг

3 590

Repost from Neurogen

OpenEnv Meta и Hugging Face запустили отрытое сообщество и платформу для создания и обмена агентными средами Агенты могут автономно выполнять тысячи задач, но как правило одной lm мало. Агентам нужен доступ к правильным инструментам, но предоставлять доступ к миллионам инструментов напрямую небезопасно и нерационально. Решение: Агентные Среды Агентные среды - это защищённые песочницы, которые определяют всё необходимое для выполнения задачи: Инструменты и API - только то, что нужно для конкретной задачи Безопасность - изолированное выполнение с гарантиями Аутентификация - безопасный доступ к внешним сервисам Чёткая семантика - понимание требований задачи OpenEnv Hub интегрируется в новый пост-тренинговый стек от Meta вместе с библиотеками TRL, SkyRL и Unsloth. Возможности для разработчиков: ✅Создавать и делиться средами, совместимыми с OpenEnv ✅Взаимодействовать с средами как человек-агент ✅Тестировать модели на решении задач в контролируемых условиях ✅Изучать доступные инструменты и структуру наблюдений Спецификация и RFCs Выпущена OpenEnv 0.1 Spec (RFC) для сбора отзывов сообщества. В разработке находятся: RFC 001 - архитектура основных компонентов (Environment, Agent, Task) RFC 002 - базовый интерфейс окружения, упаковка и изоляция RFC 003 - поддержка MCP инструментов RFC 004 - расширенная поддержка вызовов инструментов Применение RL пост-тренинг - обучение RL-агентов с TRL, TorchForge, VeRL Создание сред - разработка и тестирование собственных окружений Воспроизведение SOTA - репликация методов вроде Code World Model Развёртывание - единая среда для тренировки и инференса Интеграции OpenEnv уже поддерживается: TRL от Hugging Face Unsloth Lightning.AI Ссылки на openenv Hugging Face GitHub репозиторий с примерами Google Colab обсуждение в Discord

3 590

Repost from Machinelearning

⚡️ Glyph: масштабирование контекста через визуально-текстовую компрессию В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель. Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью. Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста. При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B. При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM. Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой. 📄 Подробности: arxiv.org/abs/2510.17800 🧩 Веса: huggingface.co/zai-org/Glyph 👉 Репозиторий: github.com/thu-coai/Glyph @ai_machinelearning_big_data #AI #LLM #Multimodal #Research #DeepLearning

3 590

Repost from Технологии | Нейросети | Боты

👍 Google мощно прокачали AI Studio. Тут появились целые пресеты, с которыми готовое приложение можно создать в пару кликов: — Выбираем, что подключить к проекту: Veo 3, Nano Banana, поиск, чат-бот и др; — Пишем свой промпт или жмем "I’m Feeling Lucky", чтобы получить случайную идею проекта, которую сервис реализует; — Ждем пару минут, чтобы Gemini сгенерил полноценную тулзу которую можно затестить и внести любые правки. • Попробовать #neural #нейросети @aiaiai

3 590

Repost from Life2film

Эволюционное программирование! Я до сих пор помню как на 1 курсе физмата… пробовали писать игру жизнь на паскаль. Вы тоже пробовали? И вот, открытие последних недель для меня работа где скрестили подход LLM+эволюция! ShinkaEvolve - https://sakana.ai/shinka-evolve/, помогает найти решение создавая мутации начального решения. Вы даете ему начальное состояние программы… и он перебирает разные и ищет лучшее, выращивая поколения вашей программы…. наши дети будут лучше чем мы)) Это можно применять к разным областям и есть аналоги, закрытый вариант от Google AlphaEvolve и открый openevolve. Но мне больше всего полюбилась Shinka. Что это такое, я попросил еще обяснить notebooklm и сделать видео-подкаст (да да сам удивлен что в 1 клик удобно сделали).

3 590

Repost from Поляков считает

SGR-паттерн: как заставить маленькие модели работать как большие В конце августа 2025 Валерий Ковальский (автор канала NeuralDeep) запилил готовую либу для SGR-паттерна на GitHub. Репозиторий быстро собрал звезды и оброс контрибьюторами — теперь его упоминают даже в самых неожиданных местах. Сам Валерий считает, что на базе этого подхода появятся стартапы на миллион долларов. И я с ним соглашусь: если даже на банальном Structured Output по всему миру уже заработаны миллионы, то SGR открывает ещё больше возможностей.

💡 Проблема: я всё чаще встречаю, как SGR путают с альтернативой Structured Output. Это не так. Давайте разберемся, в чем реальный прорыв технологии.

🔍 Боль разработчиков: когда LLM пропускает шаги Обычно нам недостаточно просто текста от модели. Нужно, чтобы она выполняла задачи: вызывала функцию расчета, искала в интернете или уточняла запрос у пользователя. Привычные паттерны вроде ReAct это делают, но есть проблема: на маленьких моделях они пропускают шаги. Модель может не вызвать нужный инструмент, хотя должна была. На больших моделях это тоже бывает, но реже. Хуже всего то, что это ломает пользовательский опыт. Разработчикам приходится городить костыли, а решения получаются слабыми и некрасивыми. 📊 Конкретные цифры провала Function Calling Вот реальные данные из бенчмарка BFCL для семейства Qwen3 в режиме Agentic Web Search (когда модель сама решает, вызывать ли инструмент): 🔸 Qwen3-8B: только 15% точности 🔸 Qwen3-4B: всего 2% точности 🔸 Qwen3-1.7B: лишь 4.5% точности Даже при нативной поддержке Function Calling маленькие модели не понимают, когда нужно вызывать инструменты. Типичный результат: {"tool_calls": null, "content": "Текст вместо вызова функции"}. ⚡ Как SGR решает проблему SGR фактически разделяет два этапа: reasoning (рассуждения) и execution (исполнение). На этапе reasoning модель через Structured Output жёстко описывает, какие инструменты нужно вызвать и почему. Затем эти инструменты вызываются программно, без участия LLM. Такой подход формализует бизнес-логику вызова инструментов и делает эту задачу удобной для отладки. Все шаги рассуждений видны, проверяемы и воспроизводимы.

🎯 Буст точности 5-10% — это стандартный результат для SGR. А на маленьких моделях разница ещё выше.

🛠️ Готовая библиотека от комьюнити Репозиторий SGR Deep Research — это не просто концепция, а готовая система с OpenAI-совместимым API. Можно отнаследоваться от BaseTool и передать свой кастомный набор инструментов в параметре toolkit агенту. В либе реализовано 5 типов агентов: от чистого SGR до гибридных подходов с Function Calling. Есть поддержка стриминга, прерывания агента для уточнений и автоматическое сохранение отчетов. 🔐 Концепция гарантирующих паттернов SGR можно назвать гарантирующим паттерном в работе с LLM. В данном случае он гарантирует вызов определённого инструмента даже на маленьких моделях. Structured Output — тоже гарантирующий паттерн, но другой: он гарантирует, что ответ будет в чёткой структуре и полноте. Это не альтернативы, а комплементарные техники. SGR использует SO для этапа рассуждений, а затем добавляет детерминированное исполнение. 🚀 Пушка для локальных моделей Особенно важен SGR для локальных моделей, которые работают на приватных серверах. Они менее "умные" чем облачные GPT-5 или Claude Sonnet 4, но SGR помогает компенсировать это ограничение. Если материал оказался полезным — ставьте реакции, пишите комментарии. --- 🔗 Оригинальная концепция SGR: https://abdullin.com/schema-guided-reasoning/ 🔗 Репозиторий SGR Deep Research: https://github.com/vamplabAI/sgr-deep-research ---- Поляков считает — про ИИ, рекламу и аналитику.

3 590

Repost from Russian OSINT

📄 alphaXiv использовали ❗️DeepSeek OCR, чтобы превратить хаотичный океан научных знаний в упорядоченную библиотеку

С помощью технологии DeepSeek OCR мы извлекли все наборы данных из таблиц и диаграмм, содержащихся в более чем 500 000 научных работ по искусственному интеллекту на портале arXiv. Затраты на реализацию проекта составили 1000 долларов США. Теперь вы можете отслеживать наиболее актуальные бенчмарки и находить наборы данных, о существовании которых ранее не было известно. Для сравнения: выполнение аналогичной задачи с использованием технологии Mistral OCR обошлось бы в 7500 долларов США На следующей неделе мы опубликуем набор данных статей arXiv в формате markdown, обработанных с помощью DeepSeek OCR. Создан, чтобы предоставить преподавателям LLM высококачественный предварительный учебный ресурс, который не нагружает серверы arXiv ботами для сбора данных. Посмотрите наши наборы данных и бенчмарки, проиндексированные DeepSeek OCR: https://www.alphaxiv.org/?datasets=true

— делятся впечатлениями alphaXiv. Особенность DeepSeek OCR в том, что технология не читает текст традиционным способом, а как бы фотографирует его, превращая в компактное изображение, затем анализирует изображение. Такой подход позволяет ИИ-решениям обрабатывать огромные объемы документов намного эффективнее. Главное новшество это способность сжимать текстовую информацию в 10, а иногда и в 20 раз. Модель преобразует тысячи текстовых токенов в несколько сотен визуальных токенов. Таким образом, снижается вычислительная нагрузка при обработке длинных документов, позволяя ИИ анализировать контекст быстрее и дешевле. DeepSeek OCR умеет не просто распознавать текст, но и проводить глубокий синтаксический анализ, а также извлекать структурированную информацию из сложных элементов, таких как: ▪️Графики и диаграммы. ▪️Химические формулы. ▪️Простые геометрические чертежи. ▪️Читать текст почти на 100 разных языках. https://github.com/deepseek-ai/DeepSeek-OCR ✋ @Russian_OSINT

3 590

Repost from Life2film

На той неделе решил поучаствовать в конкурсе - https://wundernn.io - предсказания для алгоритмической высокочастотной торговли на биржах. (В датасете нет подробностей что за данные и тп, просто рандомные названия для 32 сталбцов) И добился для себя офигенных результатов! Из 2000 участников уже 11… А было вначале 200, потом 150, 140, 80, 40, 15, 11… Чем ближе тем выше спортивный интерес)) Я использую для себя новые подходы, изучаю нейронки для предсказания на timeseries данных. Если интересно, то за основу взял эту архитектуру… и ее развивал, ансамбли и тп. https://github.com/ditschuk/pytorch-tsmixer пытался более мощные и новые, типа этой https://github.com/SamsungSAILMontreal/TinyRecursiveModels но пока из старичков хочу выжать… Тк ограниченные условия: 1. Решение в архиве zip не более 20мб! 2. Время выполнения на 1 цпу не более часа… И это жестко все ограничивает, но и делает интересным решением. В итоге получаются нейронки небольшие которые на цпу могут предсказывать рынок!) PS. Но подробности уже после конкурса 1 декабря, после результатов.

3 590

Внедряйте AI в свои проекты —дешево и без боли с инфраструктурой 🧠 До 31 октября Cloud․ru раздает бесплатный доступ к мощным LLM и AI-моделям в сервисе Evolution Foundation Models.

Что особенно круто: ➡️OpenAI-совместимый API для легкой интеграции в пайплайны ➡️Доступно больше 20 популярных LLM ➡️Модели уже развернуты и готовы к использованию ➡️Простая интеграция в популярные инструменты: Chatbox, VS Code и другие

Успейте попробовать 🖱

3 590

Repost from Neurogen

OpenAI выпустили недавно гайд по промптингу Sora 2. Нашел для вас готовый, собранный шаблон, по сути главный и самый лучший. Свое видео сгенерированное по шаблону прикрепил к посту Шаблон

[Prose scene description in plain language. Describe characters, costumes, scenery, weather and other details. Be as descriptive to generate a video that matches your vision.]

Cinematography:
Camera shot: [framing and angle, e.g. wide establishing shot, eye level]
Mood: [overall tone, e.g. cinematic and tense, playful and suspenseful, luxurious anticipation]

Actions:
- [Action 1: a clear, specific beat or gesture]
- [Action 2: another distinct beat within the clip]
- [Action 3: another action or dialogue line]

Dialogue:
[If the shot has dialogue, add short natural lines here or as part of the actions list. Keep them brief so they match the clip length.]

Мой промпт к видео в посте:

[Prose scene description in plain language] A young woman stands on the rooftop of a neon-lit Tokyo building at night. Her silver jacket reflects the glow of digital billboards, and rain gently falls around her. The city stretches infinitely below — cars, lights, and holographic ads painting the skyline. Steam rises from nearby vents as wind blows strands of her wet hair across her face. Cinematography: Camera shot: Medium close-up, slowly dolly out to reveal the cityscape behind her. Mood: Cinematic and melancholic, with a sense of quiet determination. Actions: She looks down at a glowing holographic wrist display, scanning incoming data. She exhales, closes her eyes briefly, and lifts her head toward the horizon. She whispers softly, “It’s time.” Dialogue: “It’s time.”

И вот вам еще один сайт на котором можно получить код https://formbiz.biz/ Гайд по промпту

3 590

Repost from Нейронавт | Нейросети в творчестве

Tiny Recursive Model (TRM) Samsung придумал новую архитектуру рекурсивного мышления для построения языковых моделей, которая при размере всего 7М параметров (!!!) — оказалась круче DeepSeek-R1, Gemini 2.5 Pro и o3-mini в тестах на логику и мышление. Работает так: 1. Делает первый черновой ответ. 2. Думает над ним внутри себя. 3. Проверяет и исправляет свои мысли. 4. Перерабатывает ответ, чтобы он был точнее. 5. Повторяет, пока не будет уверен в своем решении. * Маленькая: всего 7 миллионов параметров, это в 10 000 раз меньше, чем у современных LLM * Эффективная: работает лучше больших моделей, но требует меньше ресурсов. * Логика важнее всего: TRM показывает, что хорошая архитектура важнее объема данных. * Доступная: может работать на слабых устройствах, не нужны мощные сервера. Неплохо, в следующем году будем пользоваться модельками уровня DeepSeek локально на телефоне? Гитхаб Препринт #research #llm #TRM

3 590

Repost from Machinelearning

🧠 Новый курс от Andrew Ng - Agentic AI! Создание AI-агентов становится одной из самых востребованных профессий на рынке. Теперь вы можете научиться этом на курсе. Курс научит вас реализовывать четыре ключевых паттерна дизайна агентов: - Reflection - как агент анализирует свои ответы и улучшает их - Tool use - модель выбирает, какие инструменты использовать (поиск, почта, календарь, код и т.д.) - **Planning**- ИИ планирует и разбивает задачу на подзадачи - Multi-agent collaboration - взаимодействие нескольких агентов, как сотрудников в команде Andrew Ng делает акцент на оценке (evals) и анализе ошибок - ключевых навыках для успешной отладки агентных систем. В курсе есть практика, где можно создадите deep research-агента, который умеет искать, синтезировать и формировать отчёты, применяя все эти паттерны. 🟢Особенности курса: - Все уроки и код на Python - Очень подробно и пошагало объяснены все вунтренности - В курсе рассматриваются для самые популярные фреймворками для создания ИИ агентнов 🟢Формат: self-paced (проходите курс в удобном для себя темпе) Требование для учащихся - базовые знания Python 🟠 Записаться: https://deeplearning.ai/courses/agentic-ai/ @ai_machinelearning_big_data #AI #AgenticAI #AndrewNg #DeepLearningAI #AIagents

3 590

Repost from Machinelearning

🔥 Главное с OpenAI DevDay 2025 ✔️ App SDK Позволяет создать нативные приложенийяпрямо внутри ChatGPT. Идея простая: теперь не нужно выходить из ChatGPT, чтобы делать привычные вещи. Можно прямо в чате работать с дизайном в Figma, создавать презентации в Canva, искать жильё на Booking или смотреть курсы на Coursera — всё в одном окне. Платформа поддерживает авторизацию, оплату и подключение внешних сервисов, а значит, ChatGPT становится центром, где совмещаются ИИ, приложения и автоматизация задач. Скоро разработчики (вайбкодеры) смогут добавлять свои приложения и зарабатывать на них через ChatGPT SDK. ✔️Agent Builder По сути это убийца n8n и Zapier. Это интуитивно понятный**визуальный конструктор**, где можно создавать своих ИИ-агентов без единой строчки кода. Просто перетаскиваешь блоки, подключаешь MCP и ChatKit — и агент сам ищет файлы, анализирует данные и выполняет задачи. Инструмент уже доступен всем. OpenAi умеют в дизайн, должно быть удобно. Можно уже попробовать: https://platform.openai.com/agent-builder ✔️ Обновили Codex Вышел из беты, получил интеграцию со Slack и собственный SDK. На демо агент управлял светом и экраном голосом - без кода. На презентации заявили, что теперь почти весь их код пишется с помощью Codex Благодаря Codex разработчики OpenAI стали отправлять на 70% больше pull-request’ов в неделю, чем раньше. Теперь у кодекса появляется интеграция со Slack и SDK, чтобы разработчики могли встраивать его в свои рабочие процессы. Прямо в эфире Codex написал код для управления камерой, сам собрал интерфейс и **запустил готовое при ✔️ GPT-5 Pro - доступна по API $15 за ввод и $120 за вывод за 1M токенов Gpt-realtime-mini - на 70% дешевле, подходит для мгновенных ответов и потоковых задач ✔️ Sora 2 - будет доступна по API. Можно будет генерировать видео прямо из кода PS: Agent Builder выглядит действительно интересно - интуитивный, гибкий, инструмент с большим потенциало м. А вот насколько полезными окажутся приложения внутри ChatGPT, не особо понятно. OpenAI не боится экспериментировать. Они развивают ChatGPT как платформу, ищут новые варианты захвата рынка и пробуют смелые идеи. Это дорогого стоит. Их интерфейс просто топ: минимализм, аккуратность, почти в духе Apple. UX - на уровне искусства. У OpenAI уже более 800 млн активных пользователей в неделю и они обрабатывают 6 миллиардов токенов в минуту! К концу года число пользователей, похоже, вплотную подойдёт к 1 миллиарду. Но гонка только начинается. Google явно готовит ответ - Gemini 3 обещает быть топом. Другие игроки тоже не дремлют. @ai_machinelearning_big_data #openai #chatgpt #llm #ml #ai

3 590

Repost from XOR

Anthropic опубликовали бесплатный гайд, как выжать из ИИ-агентов максимум Спойлер — всё дело в эффективном контекст-инженеринге: надо правильно структурировать, задавать агенту роль, дробить задачи. Внутри много советов по работе и примеров. Вайбкодеры, сохраняем ☕️ @xor_journal

3 590

Repost from эйай ньюз

Sora 2: Новая SOTA и AI-TikTok Sora 2 вышла и, похоже, это новая SOTA. Хотя чем дальше развиваются видеомодели, тем меньше становятся различия между ними. Как и в прошлый раз, Sora вышла с опозданием — после Veo 3 и Kling 2.5 она уже не вызывает такого вау-эффекта. Интересно, что будет на практике и как у неё с пониманием промпта. Чтобы привнести хоть какую-то инновацию, OpenAI выкатили отдельное приложение для Sora — по сути, свой генеративный TikTok. Кто такое будет смотреть, не совсем понятно, хотя ленты и так уже наполовину генеративные. Вместе с этим челы переизобрели Elements, которые уже почти год являются стандартом индустрии. Но здесь обещают большую консистентность и, что действительно ново, — генерацию голоса. Теперь можно создать полноценного AI-аватара, который ходит по кадру, а не просто говорящую голову. На стриме сказали, что работает с животными и предметами, правда, там же ещё сказали, что в целях безопасности нужно будет пройти серию испытаний. Интересно, как очередной продукт с WB будет зачитывать аудиокод. Качество генераций в черри-пиках, конечно, бомбическое: физика на уровне, картинка крайне реалистичная — полноценный ответ Veo 3. Но во время теста с аватаром Сэма на стриме лицо всё ещё выглядело жутковато. Зловещую долину пока не перешагнули. Возможно, дело в мешках под глазами Сэма, который, видимо, не спит и пилит AGI. Судя по промо-роликам, в датасете было очень много видео, снятых на телефон. Может, поэтому и решили сделать AI-соцсеть? Видео выглядят более реалистично, но как у них с киношностью — большой вопрос. Хигсфилд уже открыли вейтлист пишут, что Sora генерит видео в 1080p (там же правда, видео от комьюнити для презентации, но почему-то от wan 2.2). Если это идёт вкупе с хорошей физикой и коллизиями, и есть шанс, что Sora слушается промпта так же хорошо, как Veo, то это, конечно, разнос. Однако упор OpenAI в продуктовость настораживает, для них это нехарактерно. Скачать Sora App можно будет уже сегодня, но только на iOS в США и Канаде. Схема доступа: сначала вейтлист, затем можно пригласить 4 друзей. @ai_newz