ru
Feedback
Generative Ai

Generative Ai

Открыть в Telegram

Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT По рекламе писать @miralinka, Created by @life2film

Больше
3 677
Подписчики
+424 часа
+827 дней
+9130 день
Архив постов
Repost from эйай ньюз
Там Карпатый опять отжигает. Он выпустил часовую лекцию «Интро в большие языковые модели». Образовательный контент от Карпатого всегда топовый. Нужно смотреть! #ликбез Часть 1: LLMs 00:00:00 Intro: Large Language Model (LLM) talk 00:00:20 LLM Inference 00:04:17 LLM Training 00:08:58 LLM dreams 00:11:22 How do they work? 00:14:14 Finetuning into an Assistant 00:17:52 Summary so far 00:21:05 Appendix: Comparisons, Labeling docs, RLHF, Synthetic data, Leaderboard Часть 2: Future of LLMs 00:25:43 LLM Scaling Laws 00:27:43 Tool Use (Browser, Calculator, Interpreter, DALL-E) 00:33:32 Multimodality (Vision, Audio) 00:35:00 Thinking, System 1/2 00:38:02 Self-improvement, LLM AlphaGo 00:40:45 LLM Customization, GPTs store 00:42:15 LLM OS Часть 3: LLM Security 00:45:43 LLM Security Intro 00:46:14 Jailbreaks 00:51:30 Prompt Injection 00:56:23 Data poisoning 00:58:37 LLM Security conclusions Слайды @ai_newz

Repost from Kali Novskaya
🌸Альтернативы OpenAI API🌸 #nlp #про_nlp Если после последних событий вы задумываетесь о том, не начать ли подбирать запасной вариант помимо chatGPT, GPT-4 от OpenAI, то вот несколько альтернатив. 🟣Anthropic Пожалуй, основной конкурент сейчас (ключевая команда — выходцы из OpenAI). Есть 2 версии модели — Claude Instant и Claude 2, преподносятся как аналоги GPT-3.5 и GPT-4 (одна модель быстрее, вторая — умнее) Языков заявлено много, основные метрики и безопасность — сравнимо высокие. Из очевидных плюсов: — цены дешевле OpenAI — для большого траффика есть инференс через Amazon Bedrock Из недостатков — все промты придется мигрировать специальным образом, с упором на XML (так устроено структурирование запросов к моделям). Документация 🟣Cohere Ассистенты Coral и Command на основе RAG (retrieval-augmented generation) — хорошо решает задачи, связанные с извлечением информации, поиском, чтением документов, меньше галлюцинирует. Есть готовые интенты для продолжения чата, написания текстов, суммаризации, поиска. Есть готовое API, много документации и готовых юз-кейсов. Но в основном только английский язык. Документация 🟣Inflection AI Основной продукт стартапа — ассистент Pi. Заявленные функции почти такие же как у OpenAI, есть все стандартные ожидаемые функции — персональная поддержка, планирование календаря, креативные задачи, помощь в написании текстов со сложной структурой. Для получения API надо становиться в waitlist 🟣Stability AI Stability AI (Stable Diffusion) в основном продает API моделей генерации изображений и апскейлинга, но совсем недавно к семейству их разработок добавились и языковые модели Stable LM. Самая последняя разработка — модель Stable Beluga с 70 млрд параметров — пока по API напрямую недоступна, ждем ее добавления в линейку доступных по API. 🟣Perplexity AI Готовый API-сервис для оптимизированного быстрого инференса открытых LLM: Mistral 7B, Llama2 13B, Code Llama 34B, Llama2 70B, replit-code-v1.5-3b Своей модели среди доступных нет. 🟣Amazon Bedrock (AWS) Дешево и сердито — подключиться к моделям, уже доступным на AWS. Готовый инференс большого числа моделей, в том числе вышеупомянутых стартапов — а также Llama 2 (Meta), Jurassic (A21 labs), Titan (Amazon research). Документация

обработка в стейбле потихоньку подбирается к реалтайму. а виной всему LCM, который лихо ускоряет генерацию без потери качества Олег Чомп записал мега полезный гайд о том как используя ComfyUI и Touchdesigner обрабатывать любой видео сигнал на лету я и сам сейчас в работе активно использую патч Олега для комфи, так что рекомендую! оригинальный пост гайд на ютуб lora LCM патч для Тача @тоже_моушн

Больше обновление Космографа 🪐 Если вы вдруг не знаете, что такое Космограф — это самый быстрый веб-инструмент для визуализа
+2
Больше обновление Космографа 🪐 Если вы вдруг не знаете, что такое Космограф — это самый быстрый веб-инструмент для визуализации больших графов, а теперь еще двумерных эмбеддингов (расчитанных, например, UMAP или другим алгоритмом уменьшения размерности). Итак, в новой версии Космографа теперь можно открывать CSV-файлы с двумерными эмбеддингами ваших данных и делиться вашими визуализациями с другими, отправив им ссылку. Вот, например, 7 тысяч статей The New York Times опубликованных между январем и апрелем 2022. Помимо этого Космограф теперь показывает подписи ко всем точкам динамически по мере приближения и отдаления. А еще мы добавили отдельную вкладку с гистограммами для каждой числовой колонки из файла данных, и улучшили поиск, что бы можно было искать точки по разным полям из данных и выделять их. Если вы разрабочик, то модули из Космографа теперь можно интегрировать в ваше веб-приложение (у нас есть пакеты для React и обычного JavaScript). Но и это еще не все! Мы обновили сайт и добавили туда подробную документацию с примерами, чтобы вам было еще проще использовать Космограф и интегрировать его в ваши собственные инструменты. https://cosmograph.app — пользуйтесь! Будем рады вашим вопросам и комментариям. @dataviznews

Repost from AI для Всех
Anthropic представляет Claude 2.1: Новый уровень AI для бизнеса 🔥 Claude 2.1 значительно улучшает работу с большими данными
Anthropic представляет Claude 2.1: Новый уровень AI для бизнеса 🔥 Claude 2.1 значительно улучшает работу с большими данными и уменьшает количество галлюцинаций. Компания Anthropic (пока что главные конкуренты OpenAI) разработала обновлённую модель AI, Claude 2.1, которая превосходит предыдущие версии своей эффективностью и точностью. Claude 2.1 вдвое увеличивает объём обрабатываемой информации – до 200 тысяч токенов. Также модель стала на 50% точнее, уменьшив количество ошибок и неверных утверждений. А еще так же как и ChatGPT, у Claude теперь есть доступ к внешним API (actions). Эти улучшения делают Claude 2.1 отличным выбором для предприятий, стремящихся использовать AI для анализа больших объёмов данных и повышения эффективности своей работы. Подробнее о модели

Repost from эйай ньюз
🔥Stable Video Diffusion Друзья из Stability.AI наконец-то зарелизили image-to-video модель! Работает на базе весов SD v2.1. Есть две версии - SDV, генерит 14 фреймов 576x1024 - SDV-XT, которая зафайнтюнена с SDV, чтобы генерить 25 кадров. Фрейм рейт можно менять во время инференас от 3 fps до 30 fps, то есть можно получить видео длиной от 1 до 8 сек. Достигается это за счет дополнительного кондишенинга на фрейм-рейт, также как в SDXL был добавлен кондишенинг на разрешение выходной картинки. По представленным бенчмаркам, SDV обходит Gen-2 и Pika. Количество фреймов, генерируемых за раз, конечно, меньше чем у EMU-Video, но зато полный опен-соурс, и веса тоже уже доступны! Статья с деталями. @ai_newz

Repost from Machinelearning
💥 Video-LLaVA: Learning United Visual Representation by Alignment Before Projection Простая, но надежная модель зрительного
💥 Video-LLaVA: Learning United Visual Representation by Alignment Before Projection Простая, но надежная модель зрительного языка LVLM - Video-LLaVA, который обучается на смешанном наборе данных изображений и видео, взаимно усиливая друг друга. LLM выполнять визуальные рассуждения одновременно о изображениях и видео. Video-LLaVA превосходит Video-ChatGPT, MSRVTT, MSVD, TGIF и ActivityNet на 5,8%, 9,9%, 18,6% и 10,1% на соответственно. Многочисленныйе эксперименты показывают, что Video-LLaVA превосходит модели, разработанные специально для изображений или видео. 🐱Github: https://github.com/PKU-YuanGroup/Video-LLaVA 🤗Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA 📕Paper: https://arxiv.org/abs/2311.10122v1Dataset: https://paperswithcode.com/dataset/mmbench @ai_machinelearning_big_data

https://github.com/BerriAI/litellm LiteLLM - это библиотека для работы с различными API крупных языковых моделей (LLM) в формате OpenAI. Она позволяет интегрировать и использовать модели от таких провайдеров, как Bedrock, Azure, OpenAI, Cohere, Anthropic, Ollama, Sagemaker, HuggingFace и Replicate. Основные возможности LiteLLM включают: Перевод входных данных для endpoints completion и embedding различных провайдеров. Гарантированное получение текстовых ответов в одном формате, независимо от используемой модели. Exceptions- общие исключения от различных провайдеров преобразуются в типы исключений OpenAI. Поддержка streaming. Балансировка нагрузки между несколькими развертываниями (например, между Azure и OpenAI), выбирая развертывание с наименьшим количеством использованных токенов и находящееся в пределах лимита запросов. Возможность использования моделей, не связанных с OpenAI, в кодовой базе OpenAI с помощью прокси LiteLLM

Repost from Dmitry Legchikov
Один из лучших отчетов об AI который я встречал Компания Coatue в своем отчете затрагивает развитие AI и сранивает с другими прорывными технологиями: интернет и смартфоны. Огромное количество интересных графиков и аналитики. Одним постом невозможно описать многообразие затронутых тем. Самое основное: - Много уделяется сравнению скорости роста. Сколько дней потребовалось ChatGPT чтобы набрать миллион юзеров. - Сколько человек покинули корпорации чтобы основать стартапы? (Inflection, Anthropic, Mistral) - Рост размера моделей. - Роль опен-соурса и закрытость OpenAI. - Запуск Iphone породил Uber, Airbnb, Instagram. Какие еще революционные компании породит GenAI? Согласен с авторами что революция AI только начинается и все самое интересное еще впереди. Пока просмотрел отчет бегло, по мере продвижения буду делиться еще интересными моментами.

С генерацией картинок и текстов уже давно всё хорошо и мейнстрим, а музыка с видео пока отставали. Вот теперь Deepmind взялся за музыку: https://deepmind.google/discover/blog/transforming-the-future-of-music-creation/

Repost from N/a
Microsoft проводят свою конференцию для разработчиков Ignite, главный месседж: «мы теперь Copilot Company». Работают над этим
Microsoft проводят свою конференцию для разработчиков Ignite, главный месседж: «мы теперь Copilot Company». Работают над этим на всех уровнях: - Hardware и инфраструктура. Анонсировали свои чипы для ИИ-вычислений, чтобы поконкурировать с Nvidia. - Foundation models. Все последние модели OpenAI доступны в Azure. Также запустили «Models as a service» — можно файнтюнить Llama 2 и Mistral через их облако. Выкатили и свою модель Phi-2 в опенсорс, только для исследовательских целей. - Софт для разработчиков ИИ-моделей. Объединили все инструменты разработки в Azure AI studio. - Софт для конечных пользователей. Copilots в ближайшее время появятся везде — в самой винде, продуктах Microsoft Office, Teams и другом корпоративном софте. Также запустили свой заметочник Loop — конкурент Notion на ИИ-стероидах. Можно создавать своих копилотов без кода, используя внешние данные и плагины.

X-LLM. Новая библиотека для обучения LLM в экосистеме Huggingface. Она поддерживает все современные методы (QLoRA, Flash Attention 2, Gradient checkpointing, GPTQ квантизацию, W&B, обучение на нескольких GPU с помощью DeepSpeed, даже каждый чекпоинт сохраняет сразу в Huggingface Hub). Подходит как для быстрого прототипирования, так и для production-ready решений. Репозиторий, внутри много примеров: https://github.com/BobaZooba/xllm Colab с обучением 7B модели: ссылка Open source модель: https://huggingface.co/BobaZooba/Shurale7B-v1 Интерактивная текстовая игра (с моделью выше) с динамическими персонажами и историями: @TaleQuestBot (да, бот в телеграм)

Repost from N/a
Быстрый Whisper Huggingface на днях опенсорснули Distil-Whisper — пожатую версию модели OpenAI для распознавания речи. Получилось в 6 раз быстрее, в 2 раза меньше объёмом и всё это без потери качества распознавания. Но пока только для английского, мультиязычность обещают добавить позднее. Другие умельцы уже умудрились засунуть Whisper прямо в браузер, благодаря инструментам WebGPU.

Data-аналитики, отметьте в календаре 18 ноября! Всего за один день вы сможете пройти все этапы отбора, познакомиться с будуще
Data-аналитики, отметьте в календаре 18 ноября! Всего за один день вы сможете пройти все этапы отбора, познакомиться с будущей командой и даже получить оффер. Какие задачи будут в вашем планере? ● Взаимодействовать с бизнес-заказчиками, анализировать и структурировать бизнес-требования. ● Разрабатывать функциональные требования в области построения витрин. ● Разрабатывать код витрин с использованием SQL, Scala, Java, Python. ● Разрабатывать алгоритмы и скрипты тестирования. ● Документировать разрабатываемые компоненты ПО. Присоединяйтесь к команде, которая развивает прикладную аналитическую платформу блока «Риски». У нас более 120 витрин, 800+ потоков загрузки данных, более 400 нод, 11 200 ядер и 25+ петабайт данных. В работе используем Hive, Spark, Scala, Jenkins, Bitbucket, Jira. Работа фултайм в современных офисах Сбера в Москве ждёт вас! Регистрируйтесь на One Day Offer

Bill Gates про будущее ИИ и агентов https://www.gatesnotes.com/AI-agents

Бесплатный, очень короткий, но познавательный курс пр промтингу. Курс "ChatGPT Prompt Engineering for Developers" обучает использованию больших языковых моделей (LLM) через OpenAI API для быстрого создания приложений. Ведущие, Isa Fulford (OpenAI) и Andrew Ng (DeepLearning.AI), раскрывают принципы LLM, делятся лучшими практиками запросов и демонстрируют применение LLM API в разнообразных задачах. https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/

Repost from Machinelearning
🎧 Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model Video2Music: Suitable M
🎧 Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model. Многочисленные исследования в области генерации музыки продемонстрировали впечатляющую производительность, однако практически ни одна модель не способна напрямую генерировать музыку для сопровождения видео. В данной работе представлен генеративный музыкальный ИИ-фреймворк Video2Music, который может генерировать музыку под предоставленное видео. Сначала была собрана уникальная коллекцию музыкальных клипов. Затем проанализированы музыкальные видеоролики, чтобы получить семантические характеристики, характеристики смещения сцены, движения и эмоций. Эти отличительные признаки используются в качестве исходных данных для модели генерации музыки. Затем транскрибируются аудиофайлы в MIDI и аккорды, а также извлекаются такие характеристики, как плотность нот и громкость. В результате был собран набор мультимодальных данных под названием MuVi-Sync, на котором обучена модель для генерации музыки на основе видео. Эта модель включает в себя новый механизм, обеспечивающий сходство между видео и музыкой. Наконец, выполняется постобработка на основе регрессионной модели на базе biGRU для оценки плотности и громкости нот на основе характеристик видео. Это обеспечивает динамическую визуализацию генерируемых аккордов с изменяющимся ритмом и громкостью. В ходе экспериментов показано, что фреймворк позволяет генерировать музыку, соответствующую видеоконтенту с точки зрения эмоций. Музыкальное качество, а также качество согласования музыки и видео подтверждается в ходе исследования. Модель AMT, а также новый датасет MuVi-Sync представляют собой перспективный шаг для задачи генерации музыки для видео. 🖥 Github: https://github.com/amaai-lab/video2music 📕 Paper: https://arxiv.org/abs/2311.00968v1Demo: https://llmrec.github.io/ 🌐 Dataset: https://zenodo.org/records/10057093 @ai_machinelearning_big_data

https://langfuse.com/ Open source tracing and analytics for LLM applications
https://langfuse.com/ Open source tracing and analytics for LLM applications