AI Product | Igor Akimov
Show more
1 741
Subscribers
+524 hours
+197 days
+18330 days
- Subscribers
- Post coverage
- ER - engagement ratio
Data loading in progress...
Subscriber growth rate
Data loading in progress...
А вот тут сейчас опенсорсные ребята презентуют конкурента так и не выпущенного пока GPT-4o с поддержкой эмоционального аудио и видео
https://youtu.be/hm2IJSKcYvo
> Выражает и понимает эмоции, например, говорит с "французским акцентом".
> слушает и генерирует аудио/речь
> думает, во время разговора
> Поддерживает 2 потока аудио, чтобы слушать и говорить одновременно.
> Использовано совместное предварительное обучение на миксе текста и аудио.
> Использовались синтетические текстовые данные из Helium 7B LLM (созданные Kyutai).
> Настроен на 100 тыс. синтетических данных "устного стиля" (разговоров), преобразованных с помощью TTS
> Обучился голосу на основе синтетических данных, сгенерированных отдельной моделью TTS
> Достигнута сквозная задержка в 200 мс.
> Имеется уменьшенный вариант, работающий на MacBook или обычных видюх
> Использует водяные знаки для обнаружения аудио, созданного ИИ
> Будет выпущена с открытым исходным кодом!
Open-Science AI LAB - Kyutai
👍 10🔥 3
Microsoft вроде начал двигаться и двигать всех в сторону графовых RAG и тут возможно и будут максимально полезные прорывные технологии для работы с большими базами знаний.
Если практически занимались этим, то понимаете, что наивный подход "ща мы накидаем ему доков, LLM магия сама там разберется" работает только если файлы у вас непротиворечивые и "плоские", и без ссылок куда-либо еще. Как только начинает быть несколько версий документ, ссылки, еще и более актуальная информация "со встречи последней, там все поменялось", то хоть ты тресни, но AI это все переварить не сможет.
А графовые сети как раз эти взаимоотношения, которые в разных документах прослеживаются, и временные рамки могут учитывать. Понятно, что все это пока утопично, но вроде LLM довольно неплохо умеют понимать, что делать с новой инфой. так что есть шанс, что полетит.
Короче, Microsoft вот выложил библиотечку - https://github.com/microsoft/graphrag
И блог пост - https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/
Прикол, что примеры у них про "Новороссию"...
Что пишут:
В отличие от традиционного RAG, который полагается на простое сопоставление ключевых слов, GraphRAG строит граф знаний на основе ваших текстовых данных, так что LLM может понять взаимосвязи и смысл таким образом, который невозможен при поиске по ключевым словам.
Ключевые особенности:
- Обнаружение скрытых связей - GraphRAG соединяет связанную информацию в наборе данных, даже если она распределена по нескольким документам. Это помогает LLM решать сложные вопросы, требующие понимания взаимосвязей между различными сущностями и событиями.
- Более точные результаты - Вместо подбора ключевых слов GraphRAG использует свой граф знаний для поиска точных и контекстуально релевантных ответов. А для большего доверия и прозрачности каждая часть ответа может быть отслежена до первоисточника.
- Извлечение значимых сведений - GraphRAG не ограничивается поиском отдельных фактов. Он может автоматически определять общие темы, выявлять ключевые тенденции и предлагать идеи, которые было бы крайне сложно обнаружить с помощью традиционных методов.
GitHub - microsoft/graphrag: A modular graph-based Retrieval-Augmented Generation (RAG) system
A modular graph-based Retrieval-Augmented Generation (RAG) system - microsoft/graphrag
👍 8🔥 2❤ 1
Попробовал новый продукт от Antropic - Projects.
https://www.anthropic.com/news/projects
Мне кажется это прям то, куда многие классические продукты, внедряя AI пытались прийти, но пока слишком медленные и неповоротливые.
Такой типа проджект-менеджмент с AI. И улучшение командных GPTs от OpenAI, потому что ни динамически не обновляются.
Накидываешь нужных файлов с описанием компании, проекта, документации, уточняешь промпт и позволяешь в диалоге, еще и вместе с командой, с этим работать. Уточнять, например, чего сделать надо, или переводишь в формат юзер стори, или в соответствении с шаблонами компании преобразовываешь. Все это вместе с интерпретатором кода, поиск в интернете и прочими радостями жизни от Anthropic, так что можно еще и автоматизации делать и новые данные добывать. И все это опять же просто диалогом в чатике. И обычно есть какие-то более опытные товарищи, которые могут с промптом разобраться, есть "хранители знаний", которые документы могут накидать или из головы достать знания. а есть исполнители, которые собственно и мучают всех вопросами, а чего делать-то надо. И эта AI-папочка позволяет всех собрать вместе, не тратя время на то, чтобы это все было в красивом человеко-читаемом виде.
Вот видос с их страницы, объясняет чуть лучше: https://youtu.be/nbG2DO6Xsek
👍 11
Photo unavailableShow in Telegram
Илон обещает существенно более продвинутый Grok 2 в августе, а Grok-3, который сейчас тренится на 100 тысячах видюх H100, в конце года ваще типа "something special" :)
👍 4🥰 1
00:09
Video unavailableShow in Telegram
Если у вас Computer Vision проект, особенно в режиме реального времени (анализ лица какого-нибудь или футбольного матча, поиск курильщиков на стройке или там пиццы кривой на выдаче), обычно вы идете в YOLO или специализированные сетки, но трансформеры добрались и туда.
Baidu зарелизил Transformer-Based Detectors (DETR), который по их уверениям бьет новейший YOLO и по скорости, и по качеству.
Демка и правда крутая - https://youtu.be/TbaLWroPYbo
И можно потыкать здесь - https://huggingface.co/spaces/merve/RT-DETR-tracking-coco
Подробности здесь - https://zhao-yian.github.io/RTDETR/
А статья тут - оhttps://arxiv.org/abs/2304.08069
video (10).mp49.36 KB
🔥 7👍 3
Photo unavailableShow in Telegram
Google зарелизил Gemma 2 27B & 9B 🔥
> Лучше, чем Llama3 70B/ Qwen 72B/ Command R+ на арене LYMSYS Chat, а 9B - лучшая небольшая модель на данный момент. Пора обновлять свои локальные модельки.
> В 2,5 раза меньше, чем Llama 3, и тренировалась 2/3 меньшем количестве токенов - 13Т токенов для 27B параметров и 8T токенов для 9B
> 8192 Длина контекста
Основные обновления Gemma
> Дистиллировали в маленькую модель знания из большой модели
> Чередуют слои локального и глобального внимания для повышения стабильности ответа в длинном контексте (и снижения потребления памяти)
> Мягкое ограничение внимания для более стабильного файнтюнинга. Ну и прочие технические подробности, что просто стало более технически продвинуто и лучше работает для файнтюна.
Короче, для локальной модели очень даже ничего. И как уже писал, гугловые модели очень хороши в переводе и саммаризации.
👍 3🔥 1
ElevenLabs запустил B2C продукт, чтобы рекламировать свои SDK и API для B2B (а я всегда говорил, что широкую технологию лучше всего рекламирует полезный популярный продукт, что мы собственно делали с мобилкой в ABBYY).
Пока только в США, Канаде и Великобритании и только под iOS. Можно закинуть статью, книжку или PDF и он будет ее читать. Выглядит довольно полезно, особенно в дороге.
https://elevenlabs.io/text-reader
Listen to anything on the go with the highest quality voices
The ElevenLabs Reader App narrates articles, PDFs, ePubs, newsletters, or any other text content. Simply choose a voice from our expansive library, upload your content, and listen on the go.
👍 10🔥 2
Photo unavailableShow in Telegram
https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/
OpenAI пишет, что натренировали gpt4 критиковать работу gpt4 и помогать тренерам AI. Специально вставляли ошибки в ответы, а потом писали, в чем ошибка. Назвали его CriticGPT. Помогает людям более точно оценивать результаты модели, особенно если ошибка размазана по диалогу.
Скоро GenAI будет обучать GenAI. А далее и до AGI недалеко.
👍 14
Хороший обзор, как AI продукты зарабатывают - https://www.growthunhinged.com/p/how-ai-apps-make-money
- Стандартное ценообразование - семь из десяти имеют модель подписки, и лишь немногие предлагают оплату на основе использования.
В целом все пытаются найти подходящую цену, которая будет выше ценности, а это тяжело для стартапа, и возможно стоит начать с каким-то единиц, типа минут, вопросов, генераций, включенных в тариф.
Из интересных инноваций - оплата только за успешные кейсы/решения/советы/действия. Например, https://www.chargeflow.io/pricing
- Большинство компаний устанавливают цены в зависимости от количества пользователей, что соответствует представлению о приложениях ИИ как о "вторых пилотах" (помощниках людей), а не цифровых "работниках".
И это не совсем правильно, потому что при должно уровне автоматизации и качества работы ИИ количество людей, пользующихся инструментом, должно уменьшаться, а не расти.
- Бесплатные версии чрезвычайно популярны на начальном этапе внедрения - каждый второй стартап имеет бесплатный план, каждый пятый предлагает бесплатную пробную версию.
AI стартапы быстро доставляют ценность, а значит можно триалы небольшие использовать.
- Обычно есть три уровня "хороший план - лучший план - самый лучший" в плане пакетов подписок
Пакеты обычно делятся по фичам или количеству включенных единиц генерации и лучше начать с 2-3 стандартных групп тарифов, а потом уже адаптировать.
- 2/3 компаний опубликовали цены на сайте
Но большинство enterprise-focused стартапов цены не опубликовало. Видимо чтобы не позволять конкурентам давить ценой, более гибкими быть в тестировании цен и дают возможность включают кастомизации и доп.разработки, которые часто требуются.
👍 5🔥 3
00:59
Video unavailableShow in Telegram
Figma добавила AI-штук в основной продукт. Кажется, довольно полезные.
- Визуальный поиск
- Создание и редактирование контента для макетов
- Удаление фона
- Быстрое создание кликабельных прототипов
- Автоматическое переименование слоев
- Авто-создание дизайна по промпту
https://www.figma.com/blog/introducing-figma-ai/
uBj3bIeMaEMzCoVE.mp43.36 MB
👍 6🔥 1
Choose a Different Plan
Your current plan allows analytics for only 5 channels. To get more, please choose a different plan.