Generative Ai
الذهاب إلى القناة على Telegram
Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT По рекламе писать @miralinka, Created by @life2film
إظهار المزيد3 675
المشتركون
+1224 ساعات
+797 أيام
+9030 أيام
أرشيف المشاركات
3 676
Repost from эйай ньюз
Codex — агент для кодинга от OpenAI
Внутри модель codex-1, версия o3 для агентного кодинга. Она генерирует код, близкий к человеческому стилю, точно следует инструкциям и может итеративно запускать тесты до получения положительного результата. codex-1 будет доступна лишь в специальном огороженном энвайрнменте от OpenAI. Но есть и версия поменьше — codex-mini, основанная на o4-mini. Она будет доступна в API по цене $1.5/$6 за миллион токенов.
В Codex CLI, которая работает на вашем компьютере доступна будет лишь codex-mini. Но теперь можно заходить с аккаунтом ChatGPT, а Plus и Pro пользователям ещё и дают бесплатных API кредитов для codex-mini на 30 дней — $5 и $50. Акция, надеюсь, не разовая.
Доступ к полноценному Codex осуществляется через ChatGPT, куда теперь можно подключать свои гитхаб репозитории, в которых Codex будет открывать пулреквесты. Codex даёт подтверждения своих действий (логи, результаты тестов), его работу можно направлять файлами AGENTS.md, а безопасность обеспечивается исполнением кода в изолированном контейнере и отказом от выполнения вредоносных запросов. Доступен будет уже сегодня для Pro, Team и Enterprise пользователей, а Plus и Edu нужно подождать.
А ещё они опубликовали системный промпт
Блогпост
Попробовать (только Pro, Team и Enterprise подпискам)
@ai_newz
3 676
Repost from Метаверсище и ИИще
ACE-Step: Новый опен-сорсный генератор музыки. Stable Diffusion moment для музыки.
Существующие методы сталкиваются с присущим им компромиссом между скоростью генерации, музыкальной связностью и управляемостью. Например, модели на основе LLM (например, Yue, SongGen) отлично справляются с текстами, но страдают от медленного инференса и структурных артефактов. Диффузионные модели (например, DiffRhythm), с другой стороны, обеспечивают более быстрый инференс, но часто не имеют структурной связности на больших длительностях.
Вместо того чтобы создавать еще один сквозной генератор для преобразования текста в музыку, мы хотим создать базовую модель для музыкального ИИ: быструю, универсальную, эффективную, но гибкую архитектуру, которая позволяет легко обучать подзадачи поверх нее. Это открывает путь для разработки мощных инструментов, которые легко интегрируются в творческие рабочие процессы музыкальных исполнителей, продюсеров и создателей контента. Одним словом, мы стремимся создать Stable Diffusion moment для музыки.
Есть демо, можно погенерить, а на странице проекта есть примеры.
Это, конечно, не Суно, но сам замысел и амбиции мне нравятся. Сделать Stable Diffusion для музыки, чтобы потом увешать его лорами и файнтюнами - звучит круто.
Смотрите, что у них в планах:
Release RapMachine lora
Release ControlNet training code
Release Singing2Accompaniment controlnet
https://ace-step.github.io/
Код?
Апажалста: https://github.com/ace-step/ACE-Step
Попробовать?
Тут: https://huggingface.co/spaces/ACE-Step/ACE-Step
@cgevent
3 676
🗣️🎬 VideoLingo: генерация видеороликов из текста с озвучкой на нескольких языках
Что это такое
[VideoLingo](https://github.com/Huanshere/VideoLingo) — это фреймворк для автоматической генерации видео по текстовому описанию, включая озвучку на разных языках, анимированные аватары, и видео с говорящими головами. Разработка ориентирована на мультиязычное TTS и синтез лицевых движений под аудио.
Ключевые возможности
🌍 Multilingual TTS: поддержка нескольких языков, включая английский, китайский, японский, французский и т.д.
🧠 Text-to-Video pipeline: от ввода текста до финального видео (TTS → Audio2Face → FaceVid2Vid)
🎭 Аватары и говорящие головы: визуальный рендер лицевых движений по аудиотреку
📦 Модульная архитектура: легко подключаются или заменяются компоненты пайплайна
🧪 Поддержка предварительно обученных моделей (VITS, SadTalker, FaceVid2Vid и др.)
Пример запуска пайплайна:
python inference.py \
--text "Hello world!" \
--lang en \
--avatar ./data/avatar.jpg \
--output ./results/output.mp4
https://github.com/Huanshere/VideoLingo3 676
Как запустить стартап в 10× быстрее с помощью AI агентов, Cursor и MCP на стеке Next.js + Tailwind CSS + shadcn/ui.
В этом видео вы узнаете:
✅ Как настроить Cursor Agent для автогенерации PRD и кода лендинга
✅ 3 AI‑агента для анализа конкурентов, глубинного ресёрча и маркетинга
✅ Пошаговый live‑coding: от пустого репозитория до деплоя
https://www.youtube.com/watch?v=i2mFvjE3zJY
3 676
Repost from DevOps для ДевоПсов
Docker MCP: Новый стандарт для AI-интеграции
Docker запускает MCP Catalog и Toolkit, чтобы упростить взаимодействие с AI-агентами. Это поможет разработчикам находить инструменты и обеспечит безопасность и совместимость. Совместно с такими лидерами, как Stripe и Elastic, Docker формирует новую экосистему AI. Инновации начинаются уже в мае!
Подробности: https://www.docker.com/blog/introducing-docker-mcp-catalog-and-toolkit/
#en
@devo_pes | Другие наши каналы
3 676
🎧 Amphion: универсальная платформа для генерации мультимодального аудио от OpenMMLab
Зачем нужен Amphion
Amphion — это модульная open-source библиотека для создания и обработки аудио с помощью генеративных моделей. Поддерживает TTS, звуковые эффекты, музыку, шумы, аудио редактирование и многое другое. Построена для работы с PyTorch.
Особенности
🔌 Модульная архитектура — ядро разделено на три уровня: backend (обработка аудио), frontend (UI/API/CLI) и pipeline (инференс).
🎙️ Мультимодальность — поддержка как TTS, так и генерации SFX, музыки, редактирования и конверсии речи.
🧩 Богатая экосистема — можно использовать собственные модели или готовые пайплайны, включая TTS, voice conversion, аудиоредакторы.
📦 Поддержка разных форматов — WAV, MP3 и др.
💡 Интеграция с HuggingFace — загрузка моделей и конфигов прямо из Model Hub.
Поддерживаемые модели
- TTS: FastSpeech2, VITS, Grad-TTS
- VC: ContentVec + DiffVC
- SE/Enhancement: MetricGAN, Diffusion-based models
- AudioLM и DiffSound в разработке
🛠 Пример использования:
python tools/infer.py \
--pipeline tts \
--input_text "Привет, мир!" \
--output output.wav
https://github.com/open-mmlab/Amphion3 676
Repost from Data Secrets
Anthropic выкатили гайд по вайб-кодингу 😎
23 страницы посвящены тому, как программировать с агентами (в частности, с Claude Code). Собраны советы, best practices, примеры, антипримеры и даже готовые промпты.
Отдельное внимание уделяется безопасности данных и мульти-агентным процессам.
Полезно, если пользуетесь каким-нибудь подобным инструментом каждый день
PDF
3 676
Repost from Denis Sexy IT 🤖
У OpenAI вышел классный гайд для бизнеса, на тему того как внедрять GenAI в бизнесс процессы:
https://openai.com/business/guides-and-resources/
Внутри 3 части:
– АИ на предприятии: Опыт семи передовых компаний
– Практическое руководство по созданию агентов ИИ: Что агенты АИ могут сделать для ваших сотрудников?
– Определение и масштабирование сценариев применения АИ: На чём концентрируются компании, первыми внедрившие АИ
Я полистал и там внутри много вещей на которых лично я набивал шишки в практике с GenAI, очень рекомендую корпоративным менеджерам
3 676
Repost from e/acc
OpenAI анонсировал новую модель. После 4.5, очевидно, идет... 4.1
Модель дешевле и при этом умнее и быстрее, чем 4o и даже 4.5. Поддерживает до миллиона токенов контекста и стоит сильно дешевле для кешированных запросов.
Идет в трех вариантах: 4.1, mini и nano. Результаты для кодинга можно оценить на картинке. Это НЕ reasoning модель, поэтому с o1-о3 справедливее будет сравнивать грядущую o4.
Уже доступна в API!
3 676
Repost from Denis Sexy IT 🤖
Google выпустил манул по промпт инженерингу на 68 страниц – в нем все существующие стратегии составления промптов:
https://www.kaggle.com/whitepaper-prompt-engineering
Все кто хотели вкатиться в LLM-парселтанг, время пришло
3 676
Repost from Machinelearning
🖥 Google не шутку разошлись сегодня!
Они выкатили Firebase Studio - новую облачную агенсткую среду разработки, в которой есть весь инструментарий для быстрого создания полнофункциональных приложений с искусственным интеллектом, и все это в одном месте.
Вы можете создавать приложения на естественном языке, тестить их и развертывать в одном месте 🔥
По сути, это бесплатная альтернатива
Cursor, Bolt или v0, прямо в браузере.
https://goo.gle/4cvcUzY
Апдейт: Еще Google дропнули Agent Development Kit (ADK) — новую среду с открытым исходным кодом работы с мульит-агентами!
- открыли доступ к Veo 2 через Gemini API!
- и запускать свой новый MCP протокол Agent2Agent Protocol
@ai_machinelearning_big_data
#GoogleCloudNext #FirebaseStudio3 676
Repost from Агенты ИИ | AGI_and_RL
+3
Тут толпа исследователей из разных компаний и универов сделалил большую обзорку по современным компонентам агентов
Обучение, ризонинги, память, world models, много про RL, реварды, действия и вызов тулов, эволюционные системы, самоулучшение, сейфти и вообще куча всего
190 страниц текста и 74 страницы ссылок
красота, стоит обратить внимание
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
https://arxiv.org/abs/2504.01990
Листик со ссылками
https://github.com/FoundationAgents/awesome-foundation-agents
3 676
🦙 Llama 4 от Meta: мульти-модальный ИИ нового поколения
Meta представила Llama 4 — модель с поддержкой текста, изображений и аудио, ориентированную на агентные сценарии и улучшенное рассуждение.
Что нового
- 🔀 Мультимодальность: единая модель для текста, аудио и изображений
- 🧠 Лучшие reasoning-навыки: сложные задачи и многошаговые запросы
- ⚙️ Mixture-of-Experts: активация только части модели для эффективности
- 🦾 Агентные функции: выполнение последовательных действий по команде
Meta вложит $65 млрд в инфраструктуру и обучила модель с 10× большим compute, чем Llama 2. Внедрение — в продуктах вроде Facebook и Ray-Ban Smart Glasses.
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
3 676
Repost from Data Secrets
Бывший исследователь OpenAI Даниэль Кокотаджило предсказал, что случится с ИИ в 2026–2027
В 2024 Дэниэль вошел в список топ-100 самых влиятельных людей в ИИ по версии журнала TIME. Он известен двумя вещами.
Во-первых, в том же 2024 он с шумом ушел с высокой позиции в OpenAI, отказавшись подписать NDA. За подпись ему предлагали примерно $2 миллиона в виде акций, но он выбрал свободу слова.
Во-вторых, в 2021, еще до прихода в OpenAI и задолго до успеха ChatGPT, он написал статью, в которой описал свое виденье того, как будет выглядеть ИИ до 2026, и пока оказался необыкновенно прав. Представьте: он предсказал и массовый хайп, и венчурный бум, и даже ограничение экспорта чипов из США в Китай еще до того, как кто-либо вообще хотя бы единожды поговорил с чат-ботом.
Так вот, на днях Дэниэль показал свой новый прогноз до 2028. Его он разрабатывал уже не один, а с командой его собственной лаборатории AI Futures Project. Вот этот документ, вот подкаст по нему. Основное:
⭐️ 2025: агенты развиваются, но их эффективность все еще ограничена. Тем не менее, внутри компаний уже начинают разворачивать узкоспециализированных агентов, автоматизирующих некоторые задачи.
⭐️ Конец 2025: GPT-3 moment для агентов. Появляется система, действительно способная действовать автономно.
⭐️ Начало 2026: флагмагманские агенты дают 50%-ное ускорение алгоритмического прогресса в компаниях. Китай объединяет все свои ведущие AI-компании в единый центр, чтобы догнать США.
⭐️ Конец 2026: массовые увольнения и перестройка рынка труда.
⭐️ Начало 2027: новые прорывы, полная автоматизация разработки, экономика растет, но разрыв между классам увеличивается.
⭐️ Конец 2027: оказывается, что агенты не вполне безопасны, и вот тут возникает развилка. Либо в этот момент человечество решит приостановить разработку и поработать над элайментом, либо гонка продолжается.
Ну а дальше вы поняли. Либо суперинтеллект поглощает власть над всеми сферами жизни и людям каюк, либо развитие немного притормаживается и больше внимания мы начинаем уделять безопасности и жесткому международному мониторингу.
Что сказать. Сохраняйте, проверим через 3 года.
3 676
Model Context Protocol – незаменимый инструмент для ML-соревнований, где нужно использовать всю мощь LLM. С помощью нового стандарта подключения AI-ассистентов к бизнес-приложениям от Anthropic ты сможешь интегрировать ИИ в свой проект – идеальное решение для хакатона, где время ограничено.
В новой статье разбираемся, как устроен протокол, как поднять собственный MCP-сервер и использовать его в IT-соревнованиях. Ты узнаешь про:
1. Архитектуру Model Context Protocol.
2. Основные возможности стандарта.
3. Примеры реализации: от простых к сложным.
Сосредоточься на создании уникального AI-ассистента. Как это сделать? Ответ в статье: https://cnrlink.com/mcpitonecupgenerativeai
А проверить всю мощь MCP можно на IT_ONE Cup. ML Challenge. Зарегистрируйся, выбери один из трех треков и раздели призовой фонд в 1 500 000 рублей.
MCP станет одним из важных инструментов для разработки ИИ-помощников в задачах соревнования:
1. Динамические контекстные подсказки для системного аналитика.
2. AI-генератор дизайн-макетов по описанию требований.
3. Система визуализации BPMN-диаграмм.
MCP позволит использовать локальные модели, которые сделают решения более автономными и безопасными – их будет легче адаптировать под задачи соревнования.
Регистрация открыта до 11 апреля включительно: https://cnrlink.com/itonecupmlgenerativeaimcp
3 676
Repost from Data Secrets
OpenAI официально запустили свою OpenAI Academy для всех
Помните, мы рассказывали, что OpenAI открывает OpenAI Academy для помощи ИИ-разработчикам и бизнесу в развивающихся регионах? Так вот теперь они расширились, и их курсы и вебинары стали доступны бесплатно абсолютно всем.
В основном это курсы по промпт-инжинерингу и тому, как использовать продукты OpenAI, но для разработчиков тоже что-то добавили.
Например, вот – курс с практическими уроками по дистилляции, файн-тюнингу, разворачиванию Realtime API и оркестрации мульти-агентных систем. А 8 апреля пройдет стрим про построение GraphRAG.
Стоит заглянуть, в общем: academy.openai.com
3 676
Repost from Machinelearning
🌟 VideoMind - это агент для анализа видео, разработанный для точного понимания контента с привязкой ко времени.
Основная цель инструмента - обеспечить "
temporal-grounded video understanding", то есть способность отвечать на вопросы о видео, точно указывая на конкретные моменты (визуальные доказательства) в видеоряде, что является сложной задачей для стандартных больших языковых моделей.
Как работает:
🟢 Внутри использует ролевой агентный подход (role-based agentic workflow), который включает специализированные компоненты (роли), такие как планировщик (planner) для координации, локализатор (grounder) для привязки ко времени, верификатор (verifier) для оценки точности временных интервалов и ответчик (answerer) для формулировки ответа.
🟢 Разработчики использовали очень интересную стратегию "Chain-of-LoRA", которая позволяет эффективно переключаться между различными ролями с помощью легковесных адаптеров LoRA (Low-Rank Adaptation) без необходимости загружать несколько отдельных моделей, оптимизируя баланс между гибкостью и вычислительной эффективностью.
✔️ Результаты: демонстрирует SOTA производительность на 14 бенчмарках для различных задач понимания видео, включая ответы на вопросы с привязкой ко времени (Grounded VideoQA), временную локализацию событий (VTG) и общие ответы на вопросы по видео (VideoQA).
🟡Github
🟡Demo
🟡Paper
🟡Dataset
🟡Checkpoints
@ai_machinelearning_big_data
#agent #ai #ml #video3 676
Repost from Life2film
Обновили GPT4o и он теперь умеет фотошопить!) Или рисовать новые или стилизовать… теперь для обычных задач может и не нужны сложности с comfyui или flux…
Консистентные персонажи (сохраняет персонажа), смена стиля, работа с текстом (даже с кирилицей), прозрачные фоны….
Мне точно пригодиться. Особенно если появиться в апи.
https://openai.com/index/introducing-4o-image-generation/
3 676
Repost from Data Secrets
OpenAI выкатили в API три новые аудио-модели
🔷 Первые две – speech2text. Лучше Whisper, и вообще заявляют SOTA, которые к тому же хорошо работают с акцентами, шумом и быстрой речью.
Отличие между двумя – в размерах (ну и цене): первая gpt-4o-transcribe, вторая – gpt-4o-mini-transcribe. Разницу в метриках и приросты оцените сами 👆
🔷 Третья моделька – gpt-4o-mini-tts – позанятнее. Это, наоборот, text2speech, то есть модель, проговаривающая текст. Но не просто проговаривающая, а с той интонацией и тем голосом, которые зададите вы. Поиграться уже можно здесь www.openai.fm/
🔷 Ну и новая либа для агентов Agents SDK теперь тоже поддерживает аудио, так что с этого дня там можно создавать говорящих агентов.
openai.com/index/introducing-our-next-generation-audio-models/
3 676
ИИ вчера, сегодня и завтра
Какой была работа с искусственным интеллектом 10 лет назад, как она выглядит сейчас и как будет меняться в будущем? Об этом в подкасте «Деньги любят техно» рассказал Максим Коновалихин, руководитель департамента анализа данных и моделирования, старший вице-президент банка ВТБ.
В сезоне «Лица Data Fusion» ведущий подкаста Денис Суржко беседует с гостями за чаем, приправляя вопросы о современных технологиях китайской мудростью. О китайских нейросетях, конечно, тоже вспомнили: в выпуске обсудили феномен DeepSeek и гонку ИИ между странами. Кто станет в ней лидером? Слушайте эпизод, чтобы сделать выводы.
> Подкаст доступен в видео
> И на подкаст-платформах
متاح الآن! بحث تيليغرام 2025 — أهم رؤى العام 
