uk
Feedback
Generative Ai

Generative Ai

Відкрити в Telegram

Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT По рекламе писать @miralinka, Created by @life2film

Показати більше
3 675
Підписники
+424 години
+827 днів
+9130 день
Архів дописів
+6
Magic 1-For-1: Generating One Minute Video Clips within One Minute Новый опенсорсный китайский видеогенератор Чего-то там наоптимизировали чтобы минутный ролик создавался за одну минуту в несколько шагов Ест 30GB VRAM для 540x960 Веса будут на днях Код #text2video #image2video

+6
Magic 1-For-1: Generating One Minute Video Clips within One Minute Новый опенсорсный китайский видеогенератор Чего-то там наоптимизировали чтобы минутный ролик создавался за одну минуту в несколько шагов Ест 30GB VRAM для 540x960 Веса будут на днях Код #text2video #image2video

Сэм Альтман рассказал о дальнейших планах OpenAI. Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель. Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API. GPT-5 заменит o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию, включающую голос, canvas, поиск, deep research и другие функции (какие?). GPT-4.5 – через несколько недель! GPT-5 – через несколько месяцев!

🗣 Стартап Zyphra выпустил модель для клонирования голоса. Бесплатная бета-версия Zonos обещает мгновенное клонирование, безупречное качество и полный контроль над звучанием. — Для этого нужно загрузить фрагмент длиной от 10 до 30 секунд или записать аудио. — Есть настройка скорости речи, высоты тона, частоты и эмоций. — Может скопировать голос с записи на русском языке, но пока не озвучивает русскоязычный текст. • Попробовать • Github #neural #нейросети @aiaiai

Lumina-Video-f24R960 Новая модель убийцы всего Генератор видео со звуком (без звука тоже может) по тексту #text2video #text2audio #multimodal

🔥Хочешь узнать, как нейросети могут улучшить твою жизнь?🔥 Меня зовут Влад, я — AI-маркетолог. В своём Telegram-канале простым языком рассказываю о нейросетях и о том, как правильно писать промпты. В моём канале ты найдёшь: ✔️Реальные кейсы внедрения AI: Узнай, как компании используют нейросети для автоматизации задач и повышения эффективности. ✔️Обзоры топовых AI-инструментов: Открой для себя лучшие решения для анализа данных, прогнозирования спроса и улучшения клиентского сервиса. ✔️Пошаговые гайды по интеграции нейросетей: Получай подробные инструкции по внедрению AI в твои бизнес-процессы. Почему это важно? Внедрение нейросетей помогает: Автоматизировать рутинные задачи: Сократи время на выполнение однообразных операций и сосредоточься на стратегических задачах. Улучшить обслуживание клиентов: Используй AI для персонализации предложений и быстрого реагирования на запросы клиентов. Принимать обоснованные решения: Анализируй большие объемы данных и получай инсайты для развития бизнеса. Не упусти шанс быть впереди конкурентов! Подписывайся прямо сейчас! 🔗 Лямин о нейросетях

🖥 Разрабы запустили бесплатный аналог OpenAI Operator! Называется он - Browser Use. Новый ИИ-агент в открытом доступе на GitHub: ▸ Автоматизирует задачи по одному запросу, как у OpenAI ▸ Работает с ChatGPT-4o, Claude 3, Deepseek-R1 ▸ Бесплатно + доступ в РФ. На первый взгляд выглядит круто, но больше подойдёт для программистов/кодеров, для обычных людей может поставить напоминания в календарик не более. А прогуглить мы и сами можем 😄 Качайте тут, если заинтересовало пишите че как ⬇️

🦢 Goose: автономный AI-агент для автоматизации инженерных задач Goose — это локально работающий AI-ассистент для программистов, способный автономно выполнять сложные задачи: от отладки до деплоя. Инструмент гибко настраивается, поддерживает кастомные LLM-модели и интеграцию с внешними API. ### 🔹 Возможности: - Локальный запуск — все вычисления выполняются на вашей машине - Автономность — сам справляется с разными инженерными задачами - Расширяемость — можно подключать свои модели и API - Открытый исходный код — настраивайте и модифицируйте под себя ### ⚡ Применение: ✔️ Генерация и исправление кода ✔️ Автоматизация тестирования и отладки ✔️ Создание API-запросов и документации ✔️ Интеграция с CI/CD 📌 Репозиторий: [github.com/block/goose](https://github.com/block/goose)

Repost from эйай ньюз
OpenAI выпустили o3-mini - бесплатно Лимиты бесплатным пользователям пока непонятные, Pro подписчикам дают безлимит, Team и P
OpenAI выпустили o3-mini - бесплатно Лимиты бесплатным пользователям пока непонятные, Pro подписчикам дают безлимит, Team и Pro - 150 сообщений в день. Также к o3-mini, в качестве эксперимента, прикрутили поиск. Модель доступна одновременно как и в чате так и в API, куда добавили поддержку function calling и structured output для этой модели. Цену скинули в три раза - стоит новая модель $1.10/$4.40 за миллион токенов, что лишь немногим дороже R1 с официального API (и дешевле многих неофициальных). У новой модели есть три режима работы: (1) быстрый режим low compute, (2) обходящий o1-mini режим medium (всё равно на 24% быстрее), (3) и опережающий o1 на большинстве бенчей, более медленный режим high compute. Есть и нюансы - как и оригинальная o1-mini, o3-mini не поддерживает мультимодальный ввод, а одну из требующих агентности задач модель полностью провалила - использовала bash вместо питона не смотря на все попытки уговорить её это не делать. Модель очень интересная, классно что бесплатным пользователям наконец-то дали reasoning модель. Ощущается как OpenAI задвигались, когда появилась конкуренция - и цены сбрасывают, и доступ бесплатным юзерам дают, и поиск прикручивают. @ai_newz

В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1 https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

Админ трогал траву как не в себя, но наконец добрался рассказать вам про самую поразительную работу за 2024. Я считаю, что про неё недостаточно говорят, а про решателей шокльной математики (o1/o3) и агентов слишком много. Ваша любимая 400b VLM плохо рисует bounding boxes, а эта 770m шутка делает их отлично хоть на CPU. При этом VLM обучалась на немыслимом количестве данных, а у этой штуки было меньше примеров, чем у CLIP. Да что далеко ходить: у меня друг делает стартап по CV, мы с ним обсуждали эту модель, он её попробовал и перестал обучать свои YOLO детекторы: потому что эта штука просто работает. Причем несмотря на необходимость обнаруживать строительные машины на фотографиях с плохих камер в родной атмосфере слякоти и грязи. #обзор_статьи # Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks Скачивайте и играйтесь на HF. Что если я скажу, что есть модель, которая умеет хорошо делать Zero-Shot детекцию, сегментацию, captioning и OCR? Что при этом её можно промптить, например требуя найти на картинке всех собак или сделать сегментацию объекта внутри ббокса? Вы наверное подумаете, что это новая огромная VLM. Но нет, эта модель размером всего 770M, то есть как большой ViT. Можно запускать хоть на CPU. Более того, её можно дообучать, в том числе легко сделать из неё supervised детектор прикрутив ей свою любимую голову, скажем от DETR. В Computer Vision у всех комплексы по поводу foundational models. Мы завидуем ребятам из NLP. Стало модно выпускать большие модели и говорить: "теперь у нас тоже фаундейшнл!" Однако что такого foundational, скажем, в Segment Anything? Это просто сегментатор обученный на большом количестве качественной синтетики. В моем понимании foundational это когда ты в свободной форме даешь модели любую задачу и она её решает, как GPT-4o, а не когда тебе нужно определенным образом зампромптить модель, чтобы получить решение задачи сегментации. Florence-2 это первая модель в CV которую я действительно готов назвать foundational. С одной стороны из-за её широкой полезности, так как она позволяет решать все популярные задачи в CV. Но так же из-за того, каким образом она сделала. Минимум костылей, как вы сейчас увидите. Перейдем к сути, благо статья простая и благодаря этому очень красивая. Авторы рассуждают последовательно. Чего мы хотим от универсальной CV модели? 1. Image-level understanding: понимание высокоуровневой семантики. Например, на картинке кошка или собака? Можно так же сказать, что это способность связать изображение и текстовое описание. Эту задачу отлично решает CLIP. 2. Region/pixel-level recognition: обнаружение объектов на изображениях и понимание их расположения. С этим отлично справляются supervised классификаторы, детекторы и сегментаторы. 3. Fine-grained visual-semantic alignment: связь между областями изображения, в том числе совсем маленькими, и текстом. Обнаружение частей изображений которые относятся к фразам, объектам, атрибутам и отношениям. Это способность обнаружить и отличить "нос собаки", "нос собаки слева", "нос рыжей собаки", "коричневый нос собаки" и так далее. Когда желания определены дело за малым: выбрать данные, функцию ошибки и архитектуру. Через эти компоненты мы по факту формируем оптимизационную задачу. Авторы решили, что для получения трех компонент понимания изображений нужно много разных аннотаций, которые можно распределить по двум осям: 1. Spatial hierarchy: аннотации должны включать разные масштабы изображений, чтобы модели требовалось понимание и на уровне изображения, и на уровне пикселей. 2. Semantic granularity: в текстах (описаниях, промптах, лейблах) должны встречаться разные уровни абстракции, требующие от модели как понимания общих концептов, так и небольших деталей и нюансов.

Repost from Data Secrets
Пока OpenAI начинают раскатывать Operator на Pro юзеров (похоже релиз действительно будет сегодня вечером!), китайская ByteDance подгадала момент и выкатила своего такого же агента в опенсорс Он называется UI-TARS и вышел под лицензией Apache 2.0 (репозиторий). Основан агент на VLM (есть варианты на 2B, 7B и 72B, вот тут веса), на вход принимает картинки аля кадры экрана, а на выход генерирует человекоподобные действия, то есть движения мыши или нажатия на клавиатуру. Самое интересное: в агенте есть ризонинг! Его обучали как на простых "интуитивных" сценариях, так и на CoT, так что для сложных задач он может поключать размышление и какое-то подобие планирования. Датасеты там, конечно, огромные, и собранные самими ByteDance. На бенчмарках выглядит ничего. Учитывая, что Operator, вероятно, будет доступен только за 200 долларов, довольно приятный релиз. Статья здесь

🔺 DeepSeek-R1 и DeepSeek-R1-Zero Как было сказано ранее, модели от китайских исследователей выложены в открытый доступ и пок
🔺 DeepSeek-R1 и DeepSeek-R1-Zero Как было сказано ранее, модели от китайских исследователей выложены в открытый доступ и показывают результаты на уровне o1. 🔸 Например, в отчете пишут, что модель пробивает рейтинг в 2000 на Codeforces (хорошие соревнования по программированию с довольно сложными задачками), это лучше 96% участников. 🔸 Локальный запуск: запустить эти модели будет непросто из-за их размера, поэтому авторы сделали ряд моделей поменьше, используя дистилляцию. От 1.5B до 70B. 🔸 Попробовать: полная R1 доступна на официальном сайте в режиме DeepThink. 🔸 Приложение: мобильное приложение работает бесплатно, ссылки есть тут. 🔸 Мини-обзор: https://hfday.ru/u/2501.12948.html

Repost from Machinelearning
🖥 Google опубликовали один из лучших официальных гайдов по ИИ-агентам. И его действительно стоит прочитать. В нем содержится
🖥 Google опубликовали один из лучших официальных гайдов по ИИ-агентам. И его действительно стоит прочитать. В нем содержится все, что вам нужно знать: > Описание агентов, компонентов и когнитивных архитектур. > Разобраны инструменты по работе с агентами: расширения, написании функций и хранилища данных. > Описываются методы обучения для повышения производительности агентов. > Описываются методы создания агентов с использованием LangChain и LangGraphЧитать гайд @ai_machinelearning_big_data #aiagents #ai #llm #ml #machinelearning

🎓 Бесплатный сертифицированный курс по агентам от Hugging Face! - Понимание агентов: Изучение основ работы AI-агентов, включ
🎓 Бесплатный сертифицированный курс по агентам от Hugging Face! - Понимание агентов: Изучение основ работы AI-агентов, включая восприятие окружающей среды, логические рассуждения и выполнение действий. - Работа с фреймворками: Освоение популярных инструментов, таких как LangChain, LlamaIndex и smolagents, для создания сложного поведения агентов. - Реальные приложения: Примеры использования агентов для автоматизации SQL-запросов, генерации кода и суммаризации сложных документов. - Сертификация: Получение сертификата после завершения курса, реализации практического кейса и прохождения итоговой оценки. Курс предназначен для разработчиков, дата-сайентистов и всех, кто интересуется будущим AI. Начало курса запланировано на февраль. 🔗 [Записаться на курс](https://bit.ly/hf-learn-agents)

Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Diffusion Transformer Networks Новое поколение липсинка от Baidu Работает и с головными уборами. Анимирует не только лицо но и фон. Все потому что внутри претрейн Cogvideox-5b-i2v Код Веса #lipsync #talkinghead #humananimation #portraitanimation

ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Оценка позы по изображению и по видео Код Веса Демо по картинке Демо по видео/картинке Колаб #poseestimation #image2pose #video2pose

🎬 TransPixar: генерация видео с прозрачным фоном от Adobe TransPixar — новый open-source проект, разработанный Adobe, предназначенный для генерации видео с прозрачным фоном. Он построен на основе генератора CogVideoX и позволяет создавать RGBA-видео из текстовых описаний, что особенно полезно для визуальных эффектов и композитинга. 🔗 [GitHub репозиторий](https://github.com/wileewang/TransPixar)

Cosmos-1.0-Diffusion: A Suite of Diffusion-based World Foundation Models NVIDIA выпустила семейство видеогенераторов с пониманием физического мира. Они предпочитают о них говорить как о генераторах мира по тексту и изображению. Хронометра; 121 кадр Позиционируется для разработчиков, в помощь в симуляции мира. Лицензия на бесплатное коммерческое использование. Нужно 80GB VRAM Дают попробовать! Примеры видео спрятаны в демо Гитхаб Веса Демо #text2video #image2video #simulation #text2world #image2world

Repost from Machinelearning
🖥 nv-ingest - NVIDIA Ingest NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис дл
🖥 nv-ingest - NVIDIA Ingest NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера. Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях. NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON. После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus. 📌GitHub 📌Документация @ai_machinelearning_big_data #NVIDIA #parsing #embedding