Derp Learning
Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Mostrar más11 412
Suscriptores
+1324 horas
+427 días
+31730 días
- Suscriptores
- Cobertura postal
- ER - ratio de compromiso
Carga de datos en curso...
Tasa de crecimiento de suscriptores
Carga de datos en curso...
Repost from AI Для Всех
Gazelle - первая open source VoiceToLLM модель
TincansAI объявил о выпуске Gazelle v0.2, инновационной речевой модели, которая может может обрабатывать устные запросы и длинные аудиофайлы напрямую, без их транскрипции или распознавания речи.
Благодаря прямой обработке аудио данных, модель быстрее, точнее, а также способна интерпретировать эмоции и даже сарказм в речи.
Код "из коробки", с абсолютно нулевой оптимизацией и работающий с полной точностью, достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход. По оценкам авторов, задержка более сложной системы с синтезом составит менее 300 миллисекунд, что меньше воспринимаемой человеком задержки в реальном времени
Насколько известно авторам, данная модель является первой и единственной open source моделью, способной вести диалог в реальном времени. Кроме того, разработчики публично проводят оценку безопасности и сообщают об успешных атаках на речевую модель. Наконец, это первая речевая модель, в которой применяется мультимодальная оптимизация предпочтений.
Производительность Gazelle оптимизирована для реальных приложений, таких как поддержка клиентов, телефонные звонки и общение в чате.
🌐 Сайт
🤗 HuggingFace
👨💻Демо1
✖️ Демо2
🏆 15👍 6🔥 5🫡 3
Repost from эйай ньюз
ElevenLabs тизерит конкурента Suno
Пока есть только пара демо-треков, по первым впечатлениям - выносят Suno по качеству. И не удивительно - ElevenLabs лучше всех умеют в клонирование голоса, что, надеюсь, они прикрутят и сюда.
Главная проблема тут, как и со всей ИИ музыкой — копирайт. Если не понятно на чём модель тренировали, то при использовании в чём-либо серьёзном есть нехилые шансы нарваться на многомилионный иск, музыкальная индустрия их любит. Решается это лишь полным лицензированием трейнинг сета, что сделали пока что лишь для Stable Audio (которая не умеет генерить вокал).
Как вы думаете, когда увидим первые судебные иски?
@ai_newz
🔥 13
Repost from AbstractDL
StoryDiffusion: генерация консистентных наборов изображений без дообучения
Если вам нужно сгенерировать последовательную историю из фотографий, чтобы везде чётко прослеживалась единая локация, а главные персонажи не меняли одежду и причёску от фото к фото, то StoryDiffusion — именно то, что вам нужно.
Идея гениальна в своей простоте — ничего даже учить не нужно, только заменить блок self-attention на версию, которая "смотрит" на соседние фотографии в батче. Оказалось, этого более чем достаточно, чтобы генерации стали согласованными между собой.
StoryDiffusion идеально подходит для создания комиксов и даже видео (нужно только интерполировать сгенерированные ключевые кадры, что авторы и делают). Код уже в открытом доступе! Должно работать почти с любыми обученными диффузионными моделями.
Статья, GitHub, HuggingFace
⚡ 19🔥 13👍 2❤ 2🤩 1
What the hell happened here.jpg
Интересно что ответит издатель в понедельник.
😁 27👍 5😢 2😱 1
Repost from эйай ньюз
😗llm.c теперь быстрее PyTorch - запускаем GPT-2 на рисоварке экстра быстро!
Андрей Карпатый и комьюнити показывают чудеса продуктивности – за 3 недели проект из игрушки (https://t.me/ai_newz/2557) превратился в настоящего зверя: добавили поддержку CUDA, FlashAttention, тренировку на нескольких видеокартах и кучу оптимизаций. Результат – llm.c тренирует GPT-2 на 46% быстрее чем текущий релиз PyTorch. Это возможно подстегнуло разрабов торча оптимизировать фреймворк и значительно сократить отставание - Nightly билды всего на 7% медленнее llm.c.
С большим функционалом код стал комплекснее, теперь там 3 тысячи строк кода и компилируется он заметно дольше изначальной секунды.
Не смотря на головокружительный прогресс нужно ещё много чего сделать:
* сейчас использование нескольких видеокарт лишь ускоряет тренировку, но размер модели всё ещё ограничен памятью одной видяхи
* подготовить кодбазу к полноценному воспроизведению GPT-2 (модели всех размеров на нормальном датасете)
* добавить поддержку моделей кроме GPT-2.
* ещё больше оптимизаций
Всё это на самом деле сложные задачи, но после наблюдения за темпами разработки у меня возникло впечатление что всё это мы увидим ещё в этом месяце.
https://github.com/karpathy/llm.c
@ai_newz
🔥 27👍 2
Repost from Dankest Memes // Данкест Мемы
Нас ждут в скором времени безумные игрушки
😁 29😱 16👀 7❤ 3👍 1