Generative Ai
Открыть в Telegram
Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT По рекламе писать @miralinka, Created by @life2film
Больше3 677
Подписчики
+424 часа
+827 дней
+9130 день
Архив постов
3 677
Repost from эйай ньюз
Там Карпатый опять отжигает. Он выпустил часовую лекцию «Интро в большие языковые модели».
Образовательный контент от Карпатого всегда топовый. Нужно смотреть! #ликбез
Часть 1: LLMs
00:00:00 Intro: Large Language Model (LLM) talk
00:00:20 LLM Inference
00:04:17 LLM Training
00:08:58 LLM dreams
00:11:22 How do they work?
00:14:14 Finetuning into an Assistant
00:17:52 Summary so far
00:21:05 Appendix: Comparisons, Labeling docs, RLHF, Synthetic data, Leaderboard
Часть 2: Future of LLMs
00:25:43 LLM Scaling Laws
00:27:43 Tool Use (Browser, Calculator, Interpreter, DALL-E)
00:33:32 Multimodality (Vision, Audio)
00:35:00 Thinking, System 1/2
00:38:02 Self-improvement, LLM AlphaGo
00:40:45 LLM Customization, GPTs store
00:42:15 LLM OS
Часть 3: LLM Security
00:45:43 LLM Security Intro
00:46:14 Jailbreaks
00:51:30 Prompt Injection
00:56:23 Data poisoning
00:58:37 LLM Security conclusions
Слайды
@ai_newz
3 677
Repost from Kali Novskaya
🌸Альтернативы OpenAI API🌸
#nlp #про_nlp
Если после последних событий вы задумываетесь о том, не начать ли подбирать запасной вариант помимо chatGPT, GPT-4 от OpenAI, то вот несколько альтернатив.
🟣Anthropic
Пожалуй, основной конкурент сейчас (ключевая команда — выходцы из OpenAI).
Есть 2 версии модели — Claude Instant и Claude 2, преподносятся как аналоги GPT-3.5 и GPT-4 (одна модель быстрее, вторая — умнее)
Языков заявлено много, основные метрики и безопасность — сравнимо высокие.
Из очевидных плюсов:
— цены дешевле OpenAI
— для большого траффика есть инференс через Amazon Bedrock
Из недостатков — все промты придется мигрировать специальным образом, с упором на XML (так устроено структурирование запросов к моделям).
Документация
🟣Cohere
Ассистенты Coral и Command на основе RAG (retrieval-augmented generation) — хорошо решает задачи, связанные с извлечением информации, поиском, чтением документов, меньше галлюцинирует. Есть готовые интенты для продолжения чата, написания текстов, суммаризации, поиска.
Есть готовое API, много документации и готовых юз-кейсов.
Но в основном только английский язык.
Документация
🟣Inflection AI
Основной продукт стартапа — ассистент Pi. Заявленные функции почти такие же как у OpenAI, есть все стандартные ожидаемые функции — персональная поддержка, планирование календаря, креативные задачи, помощь в написании текстов со сложной структурой.
Для получения API надо становиться в waitlist
🟣Stability AI
Stability AI (Stable Diffusion) в основном продает API моделей генерации изображений и апскейлинга, но совсем недавно к семейству их разработок добавились и языковые модели Stable LM.
Самая последняя разработка — модель Stable Beluga с 70 млрд параметров — пока по API напрямую недоступна, ждем ее добавления в линейку доступных по API.
🟣Perplexity AI
Готовый API-сервис для оптимизированного быстрого инференса открытых LLM: Mistral 7B, Llama2 13B, Code Llama 34B, Llama2 70B, replit-code-v1.5-3b
Своей модели среди доступных нет.
🟣Amazon Bedrock (AWS)
Дешево и сердито — подключиться к моделям, уже доступным на AWS. Готовый инференс большого числа моделей, в том числе вышеупомянутых стартапов — а также Llama 2 (Meta), Jurassic (A21 labs), Titan (Amazon research).
Документация
3 677
Repost from тоже моушн
обработка в стейбле потихоньку подбирается к реалтайму. а виной всему LCM, который лихо ускоряет генерацию без потери качества
Олег Чомп записал мега полезный гайд о том как используя ComfyUI и Touchdesigner обрабатывать любой видео сигнал на лету
я и сам сейчас в работе активно использую патч Олега для комфи, так что рекомендую!
оригинальный пост
гайд на ютуб
lora LCM
патч для Тача
@тоже_моушн
3 677
Repost from 🗞 Виз Ньюз
Больше обновление Космографа 🪐
Если вы вдруг не знаете, что такое Космограф — это самый быстрый веб-инструмент для визуализации больших графов, а теперь еще двумерных эмбеддингов (расчитанных, например, UMAP или другим алгоритмом уменьшения размерности).
Итак, в новой версии Космографа теперь можно открывать CSV-файлы с двумерными эмбеддингами ваших данных и делиться вашими визуализациями с другими, отправив им ссылку. Вот, например, 7 тысяч статей The New York Times опубликованных между январем и апрелем 2022.
Помимо этого Космограф теперь показывает подписи ко всем точкам динамически по мере приближения и отдаления. А еще мы добавили отдельную вкладку с гистограммами для каждой числовой колонки из файла данных, и улучшили поиск, что бы можно было искать точки по разным полям из данных и выделять их.
Если вы разрабочик, то модули из Космографа теперь можно интегрировать в ваше веб-приложение (у нас есть пакеты для React и обычного JavaScript).
Но и это еще не все! Мы обновили сайт и добавили туда подробную документацию с примерами, чтобы вам было еще проще использовать Космограф и интегрировать его в ваши собственные инструменты.
https://cosmograph.app — пользуйтесь! Будем рады вашим вопросам и комментариям.
@dataviznews
3 677
Repost from AI для Всех
Anthropic представляет Claude 2.1: Новый уровень AI для бизнеса
🔥 Claude 2.1 значительно улучшает работу с большими данными и уменьшает количество галлюцинаций.
Компания Anthropic (пока что главные конкуренты OpenAI) разработала обновлённую модель AI, Claude 2.1, которая превосходит предыдущие версии своей эффективностью и точностью.
Claude 2.1 вдвое увеличивает объём обрабатываемой информации – до 200 тысяч токенов. Также модель стала на 50% точнее, уменьшив количество ошибок и неверных утверждений. А еще так же как и ChatGPT, у Claude теперь есть доступ к внешним API (actions).
Эти улучшения делают Claude 2.1 отличным выбором для предприятий, стремящихся использовать AI для анализа больших объёмов данных и повышения эффективности своей работы.
Подробнее о модели
3 677
Repost from эйай ньюз
🔥Stable Video Diffusion
Друзья из Stability.AI наконец-то зарелизили image-to-video модель! Работает на базе весов SD v2.1.
Есть две версии
- SDV, генерит 14 фреймов 576x1024
- SDV-XT, которая зафайнтюнена с SDV, чтобы генерить 25 кадров.
Фрейм рейт можно менять во время инференас от 3 fps до 30 fps, то есть можно получить видео длиной от 1 до 8 сек. Достигается это за счет дополнительного кондишенинга на фрейм-рейт, также как в SDXL был добавлен кондишенинг на разрешение выходной картинки.
По представленным бенчмаркам, SDV обходит Gen-2 и Pika.
Количество фреймов, генерируемых за раз, конечно, меньше чем у EMU-Video, но зато полный опен-соурс, и веса тоже уже доступны!
Статья с деталями.
@ai_newz
3 677
Repost from Machinelearning
💥 Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
Простая, но надежная модель зрительного языка LVLM - Video-LLaVA, который обучается на смешанном наборе данных изображений и видео, взаимно усиливая друг друга. LLM выполнять визуальные рассуждения одновременно о изображениях и видео.
Video-LLaVA превосходит Video-ChatGPT, MSRVTT, MSVD, TGIF и ActivityNet на 5,8%, 9,9%, 18,6% и 10,1% на соответственно. Многочисленныйе эксперименты показывают, что Video-LLaVA превосходит модели, разработанные специально для изображений или видео.
🐱Github: https://github.com/PKU-YuanGroup/Video-LLaVA
🤗Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA
📕Paper: https://arxiv.org/abs/2311.10122v1
⏩Dataset: https://paperswithcode.com/dataset/mmbench
@ai_machinelearning_big_data
3 677
https://github.com/BerriAI/litellm
LiteLLM - это библиотека для работы с различными API крупных языковых моделей (LLM) в формате OpenAI. Она позволяет интегрировать и использовать модели от таких провайдеров, как Bedrock, Azure, OpenAI, Cohere, Anthropic, Ollama, Sagemaker, HuggingFace и Replicate. Основные возможности LiteLLM включают:
Перевод входных данных для endpoints completion и embedding различных провайдеров.
Гарантированное получение текстовых ответов в одном формате, независимо от используемой модели.
Exceptions- общие исключения от различных провайдеров преобразуются в типы исключений OpenAI.
Поддержка streaming.
Балансировка нагрузки между несколькими развертываниями (например, между Azure и OpenAI), выбирая развертывание с наименьшим количеством использованных токенов и находящееся в пределах лимита запросов.
Возможность использования моделей, не связанных с OpenAI, в кодовой базе OpenAI с помощью прокси LiteLLM
3 677
Repost from Dmitry Legchikov
Один из лучших отчетов об AI который я встречал
Компания Coatue в своем отчете затрагивает развитие AI и сранивает с другими прорывными технологиями: интернет и смартфоны.
Огромное количество интересных графиков и аналитики.
Одним постом невозможно описать многообразие затронутых тем.
Самое основное:
- Много уделяется сравнению скорости роста.
Сколько дней потребовалось ChatGPT чтобы набрать миллион юзеров.
- Сколько человек покинули корпорации чтобы основать стартапы? (Inflection, Anthropic, Mistral)
- Рост размера моделей.
- Роль опен-соурса и закрытость OpenAI.
- Запуск Iphone породил Uber, Airbnb, Instagram.
Какие еще революционные компании породит GenAI?
Согласен с авторами что революция AI только начинается и все самое интересное еще впереди.
Пока просмотрел отчет бегло, по мере продвижения буду делиться еще интересными моментами.
3 677
Repost from gonzo-обзоры ML статей
С генерацией картинок и текстов уже давно всё хорошо и мейнстрим, а музыка с видео пока отставали. Вот теперь Deepmind взялся за музыку:
https://deepmind.google/discover/blog/transforming-the-future-of-music-creation/
3 677
Repost from N/a
Microsoft проводят свою конференцию для разработчиков Ignite, главный месседж: «мы теперь Copilot Company». Работают над этим на всех уровнях:
- Hardware и инфраструктура. Анонсировали свои чипы для ИИ-вычислений, чтобы поконкурировать с Nvidia.
- Foundation models. Все последние модели OpenAI доступны в Azure. Также запустили «Models as a service» — можно файнтюнить Llama 2 и Mistral через их облако. Выкатили и свою модель Phi-2 в опенсорс, только для исследовательских целей.
- Софт для разработчиков ИИ-моделей. Объединили все инструменты разработки в Azure AI studio.
- Софт для конечных пользователей. Copilots в ближайшее время появятся везде — в самой винде, продуктах Microsoft Office, Teams и другом корпоративном софте. Также запустили свой заметочник Loop — конкурент Notion на ИИ-стероидах. Можно создавать своих копилотов без кода, используя внешние данные и плагины.
3 677
X-LLM. Новая библиотека для обучения LLM в экосистеме Huggingface.
Она поддерживает все современные методы (QLoRA, Flash Attention 2, Gradient checkpointing, GPTQ квантизацию, W&B, обучение на нескольких GPU с помощью DeepSpeed, даже каждый чекпоинт сохраняет сразу в Huggingface Hub). Подходит как для быстрого прототипирования, так и для production-ready решений.
Репозиторий, внутри много примеров: https://github.com/BobaZooba/xllm
Colab с обучением 7B модели: ссылка
Open source модель: https://huggingface.co/BobaZooba/Shurale7B-v1
Интерактивная текстовая игра (с моделью выше) с динамическими персонажами и историями: @TaleQuestBot (да, бот в телеграм)
3 677
Repost from N/a
Быстрый Whisper
Huggingface на днях опенсорснули Distil-Whisper — пожатую версию модели OpenAI для распознавания речи. Получилось в 6 раз быстрее, в 2 раза меньше объёмом и всё это без потери качества распознавания. Но пока только для английского, мультиязычность обещают добавить позднее.
Другие умельцы уже умудрились засунуть Whisper прямо в браузер, благодаря инструментам WebGPU.
3 677
Data-аналитики, отметьте в календаре 18 ноября!
Всего за один день вы сможете пройти все этапы отбора, познакомиться с будущей командой и даже получить оффер. Какие задачи будут в вашем планере?
● Взаимодействовать с бизнес-заказчиками, анализировать и структурировать бизнес-требования.
● Разрабатывать функциональные требования в области построения витрин.
● Разрабатывать код витрин с использованием SQL, Scala, Java, Python.
● Разрабатывать алгоритмы и скрипты тестирования.
● Документировать разрабатываемые компоненты ПО.
Присоединяйтесь к команде, которая развивает прикладную аналитическую платформу блока «Риски». У нас более 120 витрин, 800+ потоков загрузки данных, более 400 нод, 11 200 ядер и 25+ петабайт данных.
В работе используем Hive, Spark, Scala, Jenkins, Bitbucket, Jira.
Работа фултайм в современных офисах Сбера в Москве ждёт вас!
Регистрируйтесь на One Day Offer
3 677
Бесплатный, очень короткий, но познавательный курс пр промтингу.
Курс "ChatGPT Prompt Engineering for Developers" обучает использованию больших языковых моделей (LLM) через OpenAI API для быстрого создания приложений. Ведущие, Isa Fulford (OpenAI) и Andrew Ng (DeepLearning.AI), раскрывают принципы LLM, делятся лучшими практиками запросов и демонстрируют применение LLM API в разнообразных задачах.
https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/
3 677
Repost from Machinelearning
🎧 Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model
Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model.
Многочисленные исследования в области генерации музыки продемонстрировали впечатляющую производительность, однако практически ни одна модель не способна напрямую генерировать музыку для сопровождения видео.
В данной работе представлен генеративный музыкальный ИИ-фреймворк
Video2Music, который может генерировать музыку под предоставленное видео.
Сначала была собрана уникальная коллекцию музыкальных клипов. Затем проанализированы музыкальные видеоролики, чтобы получить семантические характеристики, характеристики смещения сцены, движения и эмоций.
Эти отличительные признаки используются в качестве исходных данных для модели генерации музыки.
Затем транскрибируются аудиофайлы в MIDI и аккорды, а также извлекаются такие характеристики, как плотность нот и громкость.
В результате был собран набор мультимодальных данных под названием MuVi-Sync, на котором обучена модель для генерации музыки на основе видео. Эта модель включает в себя новый механизм, обеспечивающий сходство между видео и музыкой. Наконец, выполняется постобработка на основе регрессионной модели на базе biGRU для оценки плотности и громкости нот на основе характеристик видео.
Это обеспечивает динамическую визуализацию генерируемых аккордов с изменяющимся ритмом и громкостью.
В ходе экспериментов показано, что фреймворк позволяет генерировать музыку, соответствующую видеоконтенту с точки зрения эмоций. Музыкальное качество, а также качество согласования музыки и видео подтверждается в ходе исследования.
Модель AMT, а также новый датасет MuVi-Sync представляют собой перспективный шаг для задачи генерации музыки для видео.
🖥 Github: https://github.com/amaai-lab/video2music
📕 Paper: https://arxiv.org/abs/2311.00968v1
⏩ Demo: https://llmrec.github.io/
🌐 Dataset: https://zenodo.org/records/10057093
@ai_machinelearning_big_data
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
