Generative Ai

رفتن به کانال در Telegram

Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT По рекламе писать @miralinka, Created by @life2film

نمایش بیشتر

روسيا143 928 فناوری و برنامه‌ها22 853

3 675

مشترکین

+1224 ساعت

+797 روز

+9030 روز

608

نمایش های پست

اطلاعاتی وجود ندارد24 ساعت

اطلاعاتی وجود ندارد48 ساعت

16.56%

نرخ مشارکت

اطلاعاتی وجود ندارد

پست های در روز

Ads index

beta

آرشیو پست ها

3 675

Repost from e/acc

OpenAI презентовал новые продукты для разработки агентов 1. Web Search. Любой ваш агент через OAI может искать и использовать информацию из интернета. 2. File Search. Поиск по локальным файлам. 3. Computer Use. Вы можете сделать агента, который управляет компьютером автономно. 4. Multi-agent framework! Swarm теперь называется Agents SDK, который позволяет передавать беседы между агентами сохраняя контекст. 5. Observability, tracing — удар в сторону Ланграфа. Стрим еще идет, буду обновлять пост: https://www.youtube.com/live/hciNKcLwSes

3 675

Repost from Machinelearning

🚀🚀🚀 HunyuanVideo I2V - новая версия одной из лучших опенсорс моделей преобразования изображения в видео! Код обучения I2V здесь! 🛩️🛩️🛩️🛩️🛩️🛩️ Китайский зверь с 13B-параметрами. Единственная модель, которая может сравниться с Runway Gen-3 и Wan 2.1. Генерации выглядит хорошо! ▪Github: https://github.com/Tencent/HunyuanVideo-I2V ▪HF: https://huggingface.co/tencent/HunyuanVideo-I2V @ai_machinelearning_big_data #Imagetovideo #diffusionmodels #videogeneration #imagetovideo #generation

3 675

Repost from Нейронавт | Нейросети в творчестве

LTX-Video v0.9.5 Обновка видеогенератора - Поддержка ключевых кадров и продолжения видео - нативная поддержка в #ComfyUI - Поддержка более высоких разрешений - Улучшенное понимание промптов - Улучшенный VAE - Новое интерактивное веб-приложение в LTX-Studio - Автоматическое улучшение промптов Кому интересно, оно без цензуры Гитхаб ComfyUI Попробовать на офсайте (притворитесь что вы не в России)

3 675

Repost from Нейронавт | Нейросети в творчестве

CogView4-6B Генератор картинок Конкурент flux Поддерживает очень длинный контекст, хорошо следует промпту Выходное разрешение от 512 до 2048 пикселей с шагом 32 По потреблению памяти терпимо. Главный вопрос что с кастомизацией? Гитхаб Демо #text2image

3 675

Repost from ИИшница • Нейрожарница

🚨 Только что Стэнфордский университет представил новый бесплатный инструмент искусственного интеллекта - Storm! Это удобный сервис, который за секунды генерирует отчёты, по качеству сопоставимо с материалами Википедии. Автоматически вставляет точные ссылки на источники. Полезы масса, не только исследователям и журналистам, но и всем, кто хочет быстро получить качественный и проверенный отчёт по интересующей теме. Storm - пробуйте

3 675

Скоро прямой эфир - презентация GPT4.5 https://www.youtube.com/watch?v=cfRYp0nItZ8

3 675

Repost from Denis Sexy IT 🤖

Deep Research стал доступен всем платным пользователям (10 запросов в месяц если у вас Plus), поэтому ловите практические советы как лучше его использовать: — Неважно какую модель вы выбрали в ChatGPT, у Deep Research своя модель во время поиска, он проигнорируют выбор модели (UI-костыли, привет) — Указывайте на каком языке писать отчет и на каком языке искать материалы — Попросите его «не дублировать одну и ту же мысль много раз в тексте, если она уже описана», по умолчанию он так делает — Deep Research не умеет смотреть на картинки — не ожидайте от него исследований где что-то нужно визуально исследовать — Просите научные источники если хотите максимально научный отчет на фактах, можете также указать год с которого искать релевантные данные — Поставьте приложение 11 labs — каждый такой отчет, это примерно 30-40 минут прослушивания, идеально для поездок (встроенная в ChatGPT фича глючит с длинным текстом) — Deep Research основан на рассуждающей модели, это значит что вам все еще нужно очень детально описать, что вы хотите видеть, что не хотите, что считается банальным — иначе получите поверхностный отчет — Deep Research имеет доступ к написанию кода, то есть он может генерировать графики, таблицы и тп тд, и включать их в финальный отчет — Можете подсказать ключевые слова на которых стоит сделать акцент, модель же ищет в интернете и там иногда много ненужного — Deep Research поддерживает файлы (и ссылки), можете сказать ему что в них смотреть, он может их сделать как частью контекста отчета, так и построить поиск на основе файлов (но из-за UI костылей OpenAI, сначала нужно выбрать 4o или любую модель, что поддерживает файлы на входе) — Это все еще нейрока — ответы могут содержать ошибки и требует верификации человеком, например в тестах видел как модель делала отчет на основе картинок ПО НАЗВАНИЯМ картинок, bruh — Это все еще лучший автономный ресечер что у нас есть, никто не может конкурировать — и Perplexity, и Google — Deep Research не умеет смотреть за пейволл, такие статьи нужно прикладывать самим к чату И напоследок, когда использовать Deep Research: Когда вы начинаете исследовать какую-то тему — это быстрый и легкий способ погрузиться во что-то, дальше вы можете строить свое исследование на базе знаний из прошлых отчетов, углубляясь в тему с каждым запросом все глубже — от бизнеса до науки, пока не нашел сферу где нельзя было бы применить такой инструмент

3 675

Repost from эйай ньюз

Alibaba Wan 2.1 - новая SOTA опенсорс видео модель Скорее всего это та самая загадочная модель, которая уже месяц доступна в Qwen Chat. На лидерборде VBench она занимает первое место, но там нет нескольких сильных конкурентов, вроде Veo 2 от гугла. Больше бенчей никаких нет, так что ждём полноценного техрепорта и тем временем вайбчекаем модель по генерациям). По ним, например, видно что модель очень хорошо генерирует текст, как на английском, так и на китайском, с чем другие модели справляются куда хуже. Идёт в двух размерах — 1.3B и 14B и в нескольких разных вариантах для разных разрешений (поддерживаются 480p и 720p). Маленькой 1.3B модели нужно всего 8,2 гигабайта VRAM для запуска, а на генерацию видео уходит всего 4 минуты на 4090. Большая моделька потребляет заметно больше — вплоть до 77 гигабайт. Но модели совсем не оптимизированные (замеры по памяти делали с fp32 моделями), так что есть много простора для оптимизации. Посмотрите на тот же Hunyuan, который при ~таком же количестве параметров неплохо запускается на консьюмерских видяхах. Умельцы за пару недель ещё оптимизируют эти модели, чтобы запускалось на каждом холодильнике. Веса Код wanxai.com @ai_newz

3 675

Repost from Machinelearning

🔥Google сделали Gemini Code Assist бесплатным. 🌐 Поддержка всех языков программирования в открытом доступе 💡 Окно контекста 128K токенов https://blog.google/technology/developers/gemini-code-assist-free/ https://codeassist.google/products/individual @ai_machinelearning_big_data

3 675

Repost from Life2film

Еще один агент-инструмент для разработчиков и не только. Goose https://block.github.io/goose/ Установить можно как десктоп-приложение, так и в терминал CLI. Позволяет работать с помощью любой LLM доступной модели, например, даже локальной. Умеет работать сразу из коробки с управлением компьютером, IDE JetBrains и т. п. Самое главное преимущество — он работает с использованием нового протокола для агентов MCP - https://modelcontextprotocol.io/. Это возможность подключить к вашему агенту более 1000 различных инструментов (базы данных, внешние сервисы) и даже легко написать свой сервис. И главное, вы можете поделиться этим инструментом, и любой другой агент сможет с ним работать… Это что-то вроде маркетплейса и SAAS децентрализованный. Есть даже удобный каталог всех серверов и клиентов https://mcp.so/ И тут https://github.com/modelcontextprotocol/servers/ Старт этому протоколу дал Anthropic в конце ноября https://www.anthropic.com/news/model-context-protocol Полетели!

3 675

Repost from Life2film

Еще один агент-инструмент для разработчиков и не только. Goose https://block.github.io/ Установить можно как десктоп-приложение, так и в терминал CLI. Позволяет работать с помощью любой LLM доступной модели, например, даже локальной. Умеет работать сразу из коробки с управлением компьютером, IDE JetBrains и т. п. Самое главное преимущество — он работает с использованием нового протокола для агентов MCP - https://modelcontextprotocol.io/. Это возможность подключить к вашему агенту более 1000 различных инструментов (базы данных, внешние сервисы) и даже легко написать свой сервис. И главное, вы можете поделиться этим инструментом, и любой другой агент сможет с ним работать… Это что-то вроде маркетплейса и SAAS децентрализованный. Есть даже удобный каталог всех серверов и клиентов https://mcp.so/ И тут https://github.com/modelcontextprotocol/servers/ Старт этому протоколу дал Anthropic в конце ноября https://www.anthropic.com/news/model-context-protocol Полетели!

3 675

Победи DeepFake! Участвуй в Kryptonite ML Challenge и создай решение для распознавания лиц. Призовой фонд – 600 000 рублей. Регистрация до 28 февраля: https://cnrlink.com/kryptonitemlgenerativeai Приглашаем молодых специалистов и профессионалов в областях Data Science, Machine Learning и Computer Vision. Тебе предстоит создать модель, которая умеет: 🔹 распознавать фальшивые изображения; 🔹 сравнивать реальные фотографии одного и того же человека; 🔹 различать снимки разных людей. Участвуй и ты сможешь: 🔸 получить шанс разделить призовой фонд в 600 000 рублей; 🔸 разработать решения в области Machine Learning и Computer Vision; 🔸 прокачать скиллы в Computer Vision, Metric Learning и Face Recognition. Организатор хакатона – ИТ-компания «Криптонит». Подписывайтесь на их телеграм-канал – там много интересного. Этапы Kryptonite ML Challenge: ▪️ 1-28 февраля. Регистрация участников ▪️ 1 марта. Открытие хакатона ▪️ 1-9 марта. Работа над проектами ▪️ 16 марта. Питчинг и награждение победителей Зарегистрируйся сейчас: https://cnrlink.com/kryptonitemlgenerativeai Реклама. АО НПК "Криптонит". ИНН 9701115253. erid: 2W5zFHEk8Bz

3 675

Repost from Machinelearning

🖥 PDF to Podcas- еще один проект преобразования текста в подкасты от NVIDIA Он предназначенный для преобразования PDF-документов в персонализированный аудиоконтент с использованием технологий генеративного ИИ. Ключевые компоненты: - Инструмент преобразования PDF в Markdown: Извлекает содержимое из PDF-файлов и конвертирует его в формат Markdown для дальнейшей обработки. - Сервис создания монологов или диалогов: Обрабатывает Markdown-контент, обогащая или структурируя его для создания естественного аудиоконтента. - Сервис преобразования текста в речь (TTS): Преобразует обработанный контент в высококачественную речь. Преимущества использования: - Персонализация: Возможность адаптации решения под специфические потребности организации, включая брендинг, аналитику, реальное время перевода или интерфейс цифрового человека для повышения вовлеченности. - Конфиденциальность: Решение соответствует требованиям конфиденциальности на всех этапах обработки данных. - Гибкость: Модульная структура позволяет добавлять дополнительные функции, соответствующие потребностям пользователей. - Микросервисы NVIDIA NIM используются для развертывания и масштабирования моделей на GPU. - Модели Llama 3.1 применяются для обработки и генерации текста. - Langchain используется для обработки и интеграции данных. - Docling применяется для парсинга документов. - ElevenLabs предоставляет сервисы преобразования текста в речь. Лицензирование: Использование моделей в этом проекте регулируется NVIDIA AI Foundation Models Community License. ▪ Github: https://github.com/NVIDIA-AI-Blueprints/pdf-to-podcast ▪Project: build.nvidia.com/nvidia/pdf-to-podcast @ai_machinelearning_big_data #nim #tts #pdftopodcast

3 675

Repost from Нейронавт | Нейросети в творчестве

Video Model Studio (VMS) Интерфейс Finetrainers на gradio для тренировки видео лор в несколько кликов Поддерживаемые модели: LTX-Video - протестировано на инстансе A100 HunyuanVideo - теоретически должно работать из коробки с достаточной вычислительной мощностью Код Демо - для работы демоспейс надо скопировать и видимо взять платный GPU Бонус - альтернатива diffusion-pipe-ui #lora #training #finetuning #GUI

3 675

Repost from Нейронавт | Нейросети в творчестве

SkyReels V1: Human-Centric Video Foundation Model Генератор видео по тексту и по картинке на основе Hunyuan Заточен на человеков в кадре, там под капотом помогает 3D реконструкция человеков На 4090 должен вывозить 97 кадров 960px544 Гитхаб Веса SkyReels-V1-Hunyuan-I2V Веса SkyReels-V1-Hunyuan-T2V Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу Их канал на Youtube #text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx

3 675

Repost from Нейронавт | Нейросети в творчестве

Step-Video-T2V Новый опенсорсный китайский видеогенератор 30B параметров 544px992, 204кадров 80gb VRAM Код HF Попробовать - вход по телефону. Мне по российскому телефону код пришел в телеграм #text2video

3 675

🌐 Погружайтесь в мир данных и ИИ вместе с The Data Economy! 📊🚀 Почему вам стоит присоединиться? 🤔 🔮 Ловите тренды будущего: узнавайте первыми о том, как инновации в области искусственного интеллекта трансформируют бизнес и общество. 💡Кейсы и лайфхаки: получайте советы и методики работы с ИИ от признанных экспертов. 🌍 Глобальные инсайты: обзоры и исследования со всего мира, показывающие, как лучшие компании используют ИИ и технологии для роста. 🎁 Бонусы для подписчиков: участники канала получают доступ к материалам с мероприятий, которые недоступны широкой аудитории. 🚀 Станьте частью сообщества The Data Economy получите максимум от ИИ! @TheDataEconomy

3 675

Repost from Метаверсище и ИИще

Ух ты, Микрософт опенсорснул новую версию OmniParser V2. С коннекторами. Нет, это не ответочка Operator-y и не агент для управления вашим компом. Это улучшайзер первой части работы Оператора и ему подобных систем - сильно оптимизированное распознавание содержимого вашего экрана. Так и пишут: OMNIPARSER, метод разбора скриншотов пользовательского интерфейса на структурированные элементы, который значительно повышает способность GPT-4V генерировать действия. Более того, этот парсер-распознаватель экрана может быть пристегнут (опенсорс жеж) как плагин и к другим LLM. И по этому поводу они также релизнули OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. И вот это круто ибо тул может работать с: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) или Anthropic Computer Use Интересно наблюдать за процессом "декомпозиции" мозгов LLM. Помните писал про Глубокую Клодку, что расщепление на рассуждающую и отвечающую часть, приводит к улучшению качества ответов. Теперь можно отщепить "зрение" или воспринимающую часть. И комбинировать разные "восприниматоры" и "отвечаторы". А "восприниматоры" тоже можно разделить по областям: распознаватели экрана, спортивных трансляций, жизни насекомых. Надеваем на LLM разные очки и ну улучшать качество ответов вижен-моделей и не только. В общем мозги для ИИ сделали, пока заняться нервной системой. Код и все дела тут: https://microsoft.github.io/OmniParser/ @cgevent

3 675

Авито нанимает! Ускоренный отбор за выходные и возможность попасть в одну из пяти DS-команд: автомодерация, монетизация, поисковое ранжирование, AI Lab и вертикальные команды DS. Вас ждет: ➡️ конкурентная зарплата и удаленка по всей России; ➡️ реальные задачи на большом масштабе — разработка алгоритмов для проверки объявлений, внедрение ML-моделей, оптимизация процессов и DS-поддержка; ➡️ участие в разработке новых продуктов — предлагаем для этого мощное железо и бюджет на обучение; ➡️ сильное IT-комьюнити, которое любит опенсорс. Регистрируйтесь по ссылке до 27 февраля и развивайте крупнейший в мире сервис объявлений.

3 675

Repost from Нейронавт | Нейросети в творчестве

ComfyUI_PuLID_Flux_ll Обновка ноды персонализатора для #Flux в #ComfyUI #personalization