cookie

We use cookies to improve your browsing experience. By clicking «Accept all», you agree to the use of cookies.

avatar

AI Product | Igor Akimov

Advertising posts
1 741
Subscribers
+524 hours
+197 days
+18330 days

Data loading in progress...

Subscriber growth rate

Data loading in progress...

А вот тут сейчас опенсорсные ребята презентуют конкурента так и не выпущенного пока GPT-4o с поддержкой эмоционального аудио и видео https://youtu.be/hm2IJSKcYvo > Выражает и понимает эмоции, например, говорит с "французским акцентом". > слушает и генерирует аудио/речь > думает, во время разговора > Поддерживает 2 потока аудио, чтобы слушать и говорить одновременно. > Использовано совместное предварительное обучение на миксе текста и аудио. > Использовались синтетические текстовые данные из Helium 7B LLM (созданные Kyutai). > Настроен на 100 тыс. синтетических данных "устного стиля" (разговоров), преобразованных с помощью TTS > Обучился голосу на основе синтетических данных, сгенерированных отдельной моделью TTS > Достигнута сквозная задержка в 200 мс. > Имеется уменьшенный вариант, работающий на MacBook или обычных видюх > Использует водяные знаки для обнаружения аудио, созданного ИИ > Будет выпущена с открытым исходным кодом!
Show all...
Open-Science AI LAB - Kyutai

👍 10🔥 3
Microsoft вроде начал двигаться и двигать всех в сторону графовых RAG и тут возможно и будут максимально полезные прорывные технологии для работы с большими базами знаний. Если практически занимались этим, то понимаете, что наивный подход "ща мы накидаем ему доков, LLM магия сама там разберется" работает только если файлы у вас непротиворечивые и "плоские", и без ссылок куда-либо еще. Как только начинает быть несколько версий документ, ссылки, еще и более актуальная информация "со встречи последней, там все поменялось", то хоть ты тресни, но AI это все переварить не сможет. А графовые сети как раз эти взаимоотношения, которые в разных документах прослеживаются, и временные рамки могут учитывать. Понятно, что все это пока утопично, но вроде LLM довольно неплохо умеют понимать, что делать с новой инфой. так что есть шанс, что полетит. Короче, Microsoft вот выложил библиотечку - https://github.com/microsoft/graphrag И блог пост - https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/ Прикол, что примеры у них про "Новороссию"... Что пишут: В отличие от традиционного RAG, который полагается на простое сопоставление ключевых слов, GraphRAG строит граф знаний на основе ваших текстовых данных, так что LLM может понять взаимосвязи и смысл таким образом, который невозможен при поиске по ключевым словам. Ключевые особенности: - Обнаружение скрытых связей - GraphRAG соединяет связанную информацию в наборе данных, даже если она распределена по нескольким документам. Это помогает LLM решать сложные вопросы, требующие понимания взаимосвязей между различными сущностями и событиями. - Более точные результаты - Вместо подбора ключевых слов GraphRAG использует свой граф знаний для поиска точных и контекстуально релевантных ответов. А для большего доверия и прозрачности каждая часть ответа может быть отслежена до первоисточника. - Извлечение значимых сведений - GraphRAG не ограничивается поиском отдельных фактов. Он может автоматически определять общие темы, выявлять ключевые тенденции и предлагать идеи, которые было бы крайне сложно обнаружить с помощью традиционных методов.
Show all...
GitHub - microsoft/graphrag: A modular graph-based Retrieval-Augmented Generation (RAG) system

A modular graph-based Retrieval-Augmented Generation (RAG) system - microsoft/graphrag

👍 8🔥 2 1
Попробовал новый продукт от Antropic - Projects. https://www.anthropic.com/news/projects Мне кажется это прям то, куда многие классические продукты, внедряя AI пытались прийти, но пока слишком медленные и неповоротливые. Такой типа проджект-менеджмент с AI. И улучшение командных GPTs от OpenAI, потому что ни динамически не обновляются. Накидываешь нужных файлов с описанием компании, проекта, документации, уточняешь промпт и позволяешь в диалоге, еще и вместе с командой, с этим работать. Уточнять, например, чего сделать надо, или переводишь в формат юзер стори, или в соответствении с шаблонами компании преобразовываешь. Все это вместе с интерпретатором кода, поиск в интернете и прочими радостями жизни от Anthropic, так что можно еще и автоматизации делать и новые данные добывать. И все это опять же просто диалогом в чатике. И обычно есть какие-то более опытные товарищи, которые могут с промптом разобраться, есть "хранители знаний", которые документы могут накидать или из головы достать знания. а есть исполнители, которые собственно и мучают всех вопросами, а чего делать-то надо. И эта AI-папочка позволяет всех собрать вместе, не тратя время на то, чтобы это все было в красивом человеко-читаемом виде. Вот видос с их страницы, объясняет чуть лучше: https://youtu.be/nbG2DO6Xsek
Show all...
👍 11
Photo unavailableShow in Telegram
Илон обещает существенно более продвинутый Grok 2 в августе, а Grok-3, который сейчас тренится на 100 тысячах видюх H100, в конце года ваще типа "something special" :)
Show all...
👍 4🥰 1
00:09
Video unavailableShow in Telegram
Если у вас Computer Vision проект, особенно в режиме реального времени (анализ лица какого-нибудь или футбольного матча, поиск курильщиков на стройке или там пиццы кривой на выдаче), обычно вы идете в YOLO или специализированные сетки, но трансформеры добрались и туда. Baidu зарелизил Transformer-Based Detectors (DETR), который по их уверениям бьет новейший YOLO и по скорости, и по качеству. Демка и правда крутая - https://youtu.be/TbaLWroPYbo И можно потыкать здесь - https://huggingface.co/spaces/merve/RT-DETR-tracking-coco Подробности здесь - https://zhao-yian.github.io/RTDETR/ А статья тут - оhttps://arxiv.org/abs/2304.08069
Show all...
video (10).mp49.36 KB
🔥 7👍 3
Photo unavailableShow in Telegram
Google зарелизил Gemma 2 27B & 9B 🔥 > Лучше, чем Llama3 70B/ Qwen 72B/ Command R+ на арене LYMSYS Chat, а 9B - лучшая небольшая модель на данный момент. Пора обновлять свои локальные модельки. > В 2,5 раза меньше, чем Llama 3, и тренировалась 2/3 меньшем количестве токенов - 13Т токенов для 27B параметров и 8T токенов для 9B > 8192 Длина контекста Основные обновления Gemma > Дистиллировали в маленькую модель знания из большой модели > Чередуют слои локального и глобального внимания для повышения стабильности ответа в длинном контексте (и снижения потребления памяти) > Мягкое ограничение внимания для более стабильного файнтюнинга. Ну и прочие технические подробности, что просто стало более технически продвинуто и лучше работает для файнтюна. Короче, для локальной модели очень даже ничего. И как уже писал, гугловые модели очень хороши в переводе и саммаризации.
Show all...
👍 3🔥 1
ElevenLabs запустил B2C продукт, чтобы рекламировать свои SDK и API для B2B (а я всегда говорил, что широкую технологию лучше всего рекламирует полезный популярный продукт, что мы собственно делали с мобилкой в ABBYY). Пока только в США, Канаде и Великобритании и только под iOS. Можно закинуть статью, книжку или PDF и он будет ее читать. Выглядит довольно полезно, особенно в дороге. https://elevenlabs.io/text-reader
Show all...
Listen to anything on the go with the highest quality voices

The ElevenLabs Reader App narrates articles, PDFs, ePubs, newsletters, or any other text content. Simply choose a voice from our expansive library, upload your content, and listen on the go.

👍 10🔥 2
Photo unavailableShow in Telegram
https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/ OpenAI пишет, что натренировали gpt4 критиковать работу gpt4 и помогать тренерам AI. Специально вставляли ошибки в ответы, а потом писали, в чем ошибка. Назвали его CriticGPT. Помогает людям более точно оценивать результаты модели, особенно если ошибка размазана по диалогу. Скоро GenAI будет обучать GenAI. А далее и до AGI недалеко.
Show all...
👍 14
Хороший обзор, как AI продукты зарабатывают - https://www.growthunhinged.com/p/how-ai-apps-make-money - Стандартное ценообразование - семь из десяти имеют модель подписки, и лишь немногие предлагают оплату на основе использования. В целом все пытаются найти подходящую цену, которая будет выше ценности, а это тяжело для стартапа, и возможно стоит начать с каким-то единиц, типа минут, вопросов, генераций, включенных в тариф. Из интересных инноваций - оплата только за успешные кейсы/решения/советы/действия. Например, https://www.chargeflow.io/pricing - Большинство компаний устанавливают цены в зависимости от количества пользователей, что соответствует представлению о приложениях ИИ как о "вторых пилотах" (помощниках людей), а не цифровых "работниках". И это не совсем правильно, потому что при должно уровне автоматизации и качества работы ИИ количество людей, пользующихся инструментом, должно уменьшаться, а не расти. - Бесплатные версии чрезвычайно популярны на начальном этапе внедрения - каждый второй стартап имеет бесплатный план, каждый пятый предлагает бесплатную пробную версию. AI стартапы быстро доставляют ценность, а значит можно триалы небольшие использовать. - Обычно есть три уровня "хороший план - лучший план - самый лучший" в плане пакетов подписок Пакеты обычно делятся по фичам или количеству включенных единиц генерации и лучше начать с 2-3 стандартных групп тарифов, а потом уже адаптировать. - 2/3 компаний опубликовали цены на сайте Но большинство enterprise-focused стартапов цены не опубликовало. Видимо чтобы не позволять конкурентам давить ценой, более гибкими быть в тестировании цен и дают возможность включают кастомизации и доп.разработки, которые часто требуются.
Show all...
👍 5🔥 3
00:59
Video unavailableShow in Telegram
Figma добавила AI-штук в основной продукт. Кажется, довольно полезные. - Визуальный поиск - Создание и редактирование контента для макетов - Удаление фона - Быстрое создание кликабельных прототипов - Автоматическое переименование слоев - Авто-создание дизайна по промпту https://www.figma.com/blog/introducing-figma-ai/
Show all...
uBj3bIeMaEMzCoVE.mp43.36 MB
👍 6🔥 1
Choose a Different Plan

Your current plan allows analytics for only 5 channels. To get more, please choose a different plan.