Deep Dive 2 Deep Learning

@ddtodl

Канал про глубокое машинное обучение: кейсы, новости, открытия и факапы из мира нейросетей и не только

Ko'proq ko'rsatish

Rossiya381 269Rus398 842Texnologiyalar & Aralashmalar45 019

Reklama postlari

379

Obunachilar

Ma'lumot yo'q24 soatlar

+17 kunlar

+230 kunlar

Post ko'rishlar

~ 3224 soatlar

~ 3648 soatlar

18.42%

Muloqot nisbati

8.4%24 soatlar

9.5%48 soatlar

Izohlarni

Ma'lumot yo'q7 kunlar

Ma'lumot yo'q30 kunlar

Ma'lumot yo'q

Kuniga postlar

~ 1

Reaksiyalar

Ma'lumot yo'q

Izohlari

~ 1

Qaytarishlar

Kanalning o'sishi
Post qamrovi
ER - jalb qilish nisbati

Ma'lumot yuklanmoqda...

😎🤖Принципиально новый метод машинного обучения Test-Time Training RNN (ТТТ) - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения. Основная особенность TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат. Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.

Hammasini ko'rsatish...

GitHub - test-time-training/ttt-lm-pytorch: Official PyTorch implementation of Learning to (Learn at Test Time): RNNs with Expressive Hidden States

Official PyTorch implementation of Learning to (Learn at Test Time): RNNs with Expressive Hidden States - test-time-training/ttt-lm-pytorch

🤖💡Свежая модель на базе Qwen2-7B Недавно Arcee AI выпустила свою последнюю инновацию – Arcee Agent, современную модель языка с 7 миллиардами параметров. Эта модель предназначена для вызова функций и использования инструментов, предоставляя разработчикам, исследователям и бизнесу эффективное и мощное решение искусственного интеллекта. Несмотря на свой более небольшой размер по сравнению с более крупными моделями языка, Arcee Agent превосходит их в производительности, что делает его идеальным выбором для сложных приложений, использующих AI, без значительных вычислительных затрат. Arcee Agent построен на архитектуре Qwen2-7B, известной своей эффективностью и скоростью. Эта модель обучена с использованием спектрального фреймворка, с вычислительными ресурсами, предоставленными CrusoeAI. Основное преимущество Arcee Agent заключается в его продвинутых возможностях вызова функций. Он без проблем интерпретирует, выполняет и объединяет вызовы функций, что позволяет ему эффективно взаимодействовать с различными внешними инструментами, API и сервисами. Arcee Agent обладает совместимостью с различными форматами использования инструментов. Он оптимально работает с форматом VLLM OpenAI FC, но также умело обрабатывает решения, основанные на запросах, и другие специфические потребности инфраструктуры. Кроме того, он предлагает функциональность двойного режима: в качестве маршрутизатора инструментов, который эффективно направляет запросы к соответствующим инструментам или более крупным моделям, и в качестве автономного чат-агента, способного вести беседы, похожие на человеческие, и самостоятельно выполнять разнообразные задачи. Возможности модели распространяются на различные бизнес-приложения. В сфере обслуживания клиентов он может автоматизировать сложные запросы и рутинные задачи, такие как сброс пароля и отслеживание заказов, взаимодействуя с системами управления взаимоотношениями с клиентами для персонализированных взаимодействий. В сфере продаж и маркетинга Arcee Agent может автоматизировать квалификацию потенциальных клиентов, генерировать динамический контент и анализировать отзывы клиентов для формирования стратегий. Операционная эффективность повышается благодаря автоматизации административных задач, интеллектуальному поиску данных и оптимизации управления проектами. Однако, несмотря на свои специализированные возможности, Arcee Agent имеет некоторые ограничения. Его общие знания и возможности вне области вызова функций и использования инструментов ограничены. Он может не так хорошо справляться с задачами, не связанными с его основными функциональностями, и пользователи должны проверять его результаты, особенно в критических приложениях. Дата обрезки знаний модели также может повлиять на ее осведомленность о последних событиях.

Hammasini ko'rsatish...

arcee-ai/Arcee-Agent · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

⚡️MInference 1.0 by Microsoft Microsoft опубликовала результаты исследования проекта MInference. Этот метод ускоряет обработку длинных последовательностей благодаря разреженным вычислениям и использованию уникальных шаблонов в матрицах. Методика MInference не требует изменений в настройках предварительного обучения. Проведенные исследователями Microsoft синтетические тесты метода на моделях LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K и Qwen2-128K показывают сокращение задержек и ошибок при предварительном заполнении до 10 раз на A100 с сохранением точности.

Hammasini ko'rsatish...

GitHub - microsoft/MInference: To speed up Long-context LLMs' inference, approximate and dynamic sparse calculate the attention, which reduces inference latency by up to 10x for pre-filling on an A100 while maintaining accuracy.

To speed up Long-context LLMs' inference, approximate and dynamic sparse calculate the attention, which reduces inference latency by up to 10x for pre-filling on an A100 while maintaining a...

🤖🔬ИИ-помощник в научных исследованиях SciSpace Copilot - это искусственный интеллект, помощник в научных исследованиях, разработанный для помощи пользователям в понимании научной литературы, предоставляя объяснения для текстов, математических уравнений и таблиц, найденных в научных статьях, технических блогах и отчетах. Пользователи могут упростить технический язык, задавать уточняющие вопросы, понимать математику и таблицы, а также переключаться между несколькими языками для более полного чтения. Ключевые особенности сервиса: Упрощенные объяснения: простые объяснения для технической жаргонной лексики, аббревиатур и сложных параграфов научных работ. Интерактивное обучение: можно общаться с Copilot, задавая предустановленные или настраиваемые вопросы, чтобы улучшить понимание во время чтения. Понимание математики и таблиц: анализ математических уравнений или таблиц, чтобы получить понимание их значения. Гибкость языка: взаимодействие с Copilot на 13 языках и получайте объяснения на предпочитаемом языке.

Hammasini ko'rsatish...

SciSpace: Do hours of research in minutes

Your AI research assistant for understanding scientific literature.

😎🤖Высокоточный Instruct pix2pix по текстовому запросу Navve Wasserman с коллегами представили усовершенствованную версию Instruct pix2pix под названием "Paint by Inpaint". Процесс усовершенствования включал следующие этапы: — Создание конвейера обработки изображений с помощью модели inpaint, которая добавляла объекты на изображения. Сравнивая исходное изображение с модифицированным, вычислялась разница, что позволило создать датасет PIPE. — Датасет PIPE был аннотирован крупной моделью VLM и обработан для устранения артефактов маскирования объектов, что привело к созданию набора высокодетализированных объектов для вычитания. — Эти два противоположных процесса — удаление и добавление объектов — были объединены с применением более точного контроля (по аналогии с GAN), что в итоге позволило создать модель, очень точно добавляющую объекты на изображения по текстовому запросу. 🖥Страница проекта Paint by Inpaint

Hammasini ko'rsatish...

GitHub - RotsteinNoam/Paint-by-Inpaint: Paint by Inpaint: Learning to Add Image Objects by Removing Them First

Paint by Inpaint: Learning to Add Image Objects by Removing Them First - RotsteinNoam/Paint-by-Inpaint

🤖🔉Подборка библиотек и моделей для работы со звуком AudioCraft — это библиотека PyTorch для исследований в области глубокого обучения генерации звука. AudioCraft содержит код вывода и обучения для двух современных генеративных моделей искусственного интеллекта, создающих высококачественный звук: AudioGen и MusicGen. Qwen-Audio — это мультимодальная версия большой серии моделей Qwen, предложенной Alibaba Cloud. Qwen-Audio принимает разнообразный звук (человеческую речь, естественный звук, музыку и песни) и текст в качестве входных данных и выводит текст. SEE-2-SOUND — новая разработка университета Торонто, передовой метод генерации пространственного звука из изображений, анимации и видео. Модель состоит из трех основных компонентов: оценка источника звука, генерация звука и пространственная генерация объемного звука. Hallo - подход в анимации портретных изображений на основе аудио. Он объединяет генеративные диффузионные модели, денойзер на основе UNet, методы временного согласования отдельных движений и опорную нейросеть, а также даёт возможность контролировать выражение и движения лица. Audio Seal - это SOTA для добавления метаданных на аудио и распознавания их, предназначенная для локального распознавания речи, сгенерированной искусственным интеллектом. SALMONN — это новая мультимодальная модель машинного обучения с открытым исходным кодом, предназначенная для обработки аудиоданных любого типа: речи, музыки и различных звуков.

Hammasini ko'rsatish...

GitHub - facebookresearch/audiocraft: Audiocraft is a library for audio processing and generation with deep learning. It features the state-of-the-art EnCodec audio compressor / tokenizer, along with MusicGen, a simple and controllable music generation LM with textual and melodic conditioning.

Audiocraft is a library for audio processing and generation with deep learning. It features the state-of-the-art EnCodec audio compressor / tokenizer, along with MusicGen, a simple and controllable...

👍 1

💡🤖Мультимодальная LLM с продвинутыми возможностями работы с визуальной информацией Буквально недавно ребята из Шанхайского университета выкатили MG-LLaVA — MLLM, которая расширяет возможности обработки визуальной информации за счет использования дополнительных компонентов: специальных компонентов, которые отвечают за работу с низким и высоким разрешением. В MG-LLaVA интегрирован дополнительный визуальный энкодер высокого разрешения для захвата мелких деталей, которые затем объединяются с базовыми визуальными признаками с помощью сети Conv-Gate. По словам разработчиков, эта модель обучалась исключительно на общедоступных мультимодальных данных.

Hammasini ko'rsatish...

GitHub - PhoenixZ810/MG-LLaVA: Official repository for paper MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning(https://arxiv.org/abs/2406.17770).

Official repository for paper MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning(

https://arxiv.org/abs/2406.17770).

- PhoenixZ810/MG-LLaVA

🤖💡Небольшая подборка моделей для различных задач обработки видео VideoLLaMA 2 — логическое развитие прошлых моделей, включает в себя специализированный компонент пространственно-временной свертки (STC), который эффективно улавливает сложную динамику на видео. EvTexture - новый метод апскейлинга видео. Он использует отдельный итеративный модуль улучшения текстуры, который позволяет получать информацию о событиях с высоким временным разрешением. Этот модуль позволяет постепенно в несколько итераций уточнять текстуру заданных областей и повышать их разрешение. MorpheuS - это метод, который может воссоздать 360° поверхности из случайно снятого RGB-D видео. Ненаблюдаемые области пространства достраиваются с помощью диффузионной модели. ExVideo — техника тюнинга, позволяющая улучшить возможности моделей генерации видео. Она позволяет модели генерировать в 5 раз больше кадров, при этом требуется всего 1.5 тыс. часов обучения на GPU на датасете из 40 тыс. видео.

Hammasini ko'rsatish...

GitHub - DAMO-NLP-SG/VideoLLaMA2: VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs - DAMO-NLP-SG/VideoLLaMA2

🤖Управление компьютером при помощи запросов на естественном языке Open Interpreter - это интерфейс естественного языка для управления компьютером. Можно общаться с Open Interpreter через ChatGPT-подобный интерфейс прямо в терминале. При помощи Open Interpreter можно на естественном языке выполнять такие действия как: — создание и редактирование фотографий, видео, PDF-файлов и т. д. — управление браузером — анализ данных, построение графиков и т.д. Для работы в Python необходимо установить через pip: pip install open-interpreter interpreter 🖥 GitHub 🟡 Документация

Hammasini ko'rsatish...

GitHub - OpenInterpreter/open-interpreter: A natural language interface for computers

A natural language interface for computers. Contribute to OpenInterpreter/open-interpreter development by creating an account on GitHub.

🤖Домашний ИИ-бармен Barsys 360 - это портативное устройство для смешивания коктейлей. В девайс нужно загрузить до 6 ингредиентов и подождать несколько секунд до полного смешивания. AI-станция выполнена в футуристическом Dyson-стиле и имеет собственное приложение с рецептами всемирно известных рецептов и коктейлей. Решение состоит из базы, на которую устанавливается стакан для будущего напитка, и кольцеобразного купола со светодиодной подсветкой. Устройство одинаково хорошо подходит для использования как на кухне, так и в гостиной. Роботизированный бармен имеет габариты 43 × 43 см и весит приблизительно 4,5 кг. Аппарат способен приготовить более тысячи различных коктейлей — в зависимости от начальных ингредиентов. Для загрузки компонентов доступны шесть резервуаров. Для приготовления того или иного напитка достаточно указать имеющиеся ингредиенты через мобильное приложение, после чего система самостоятельно предложит возможные варианты. Пользователь также может скорректировать рецепт, изменив пропорции определенных компонентов в соответствии с собственными предпочтениями. В случае нехватки составляющих, из которых можно приготовить определенный коктейль, робот автоматически создаст новый напиток на основе имеющихся ингредиентов. Алгоритмы Barsys 360 на основе искусственного интеллекта изучают вкусы пользователей и со временем предлагают наиболее предпочтительные миксы. Для обмена данными со смартфоном или планшетом применяется подключение Bluetooth 5.0. Сопутствующее приложение доступно для операционных систем Android и iOS. После создания коктейля пользователи могут вручную добавить в стакан кусочки фруктов или лед. Приобрести робота-бармена Barsys 360 можно по ориентировочной цене $500.

Hammasini ko'rsatish...

Boshqa reja tanlang

Joriy rejangiz faqat 5 ta kanal uchun analitika imkoniyatini beradi. Ko'proq olish uchun, iltimos, boshqa reja tanlang.