fa
Feedback
Generative Ai

Generative Ai

رفتن به کانال در Telegram

Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT По рекламе писать @miralinka, Created by @life2film

نمایش بیشتر
3 677
مشترکین
+224 ساعت
+837 روز
+9230 روز
آرشیو پست ها
🎞 Generative Fill для видео от Adobe. Новинка Project Fast Fill создана на основе технологии генеративной заливки и позволяет быстро удалять объекты с видео или менять фон по простому текстовому описанию. Изменения автоматически применяются на всё видео, без необходимости покадрового редактирования.

Repost from N/a
ElevenLabs выкатили Dubbing — инструмент для ИИ-перевода видео/аудио между 29 языками (русский также присутствует). При этом сохраняется голос и манера речи говорящего. Липсинка пока нет, но обещают в скором будущем.

🤖 Как изменился NLP Research после выхода GPT-4 И где теперь мы берем новые идеи для исследований — об этом команда Tinkoff
🤖 Как изменился NLP Research после выхода GPT-4 И где теперь мы берем новые идеи для исследований — об этом команда Tinkoff AI расскажет на первом осеннем митапе в Москве. Также на встрече ребята обсудят особенности автоматизации поддержки в банке, подходы классификации интентов и разберут нюансы подготовки датасетов для предобучения foundational-моделей. После докладов останутся на поболтать и познакомиться с участниками ближе! 📆 Tinkoff.AI NLP Monolog Meetup # пройдет 19 октября в БЦ «Водном». Не забудьте позвать с собой коллег! Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673 ERID 2VtzqxCYiyyd

Понравился LiteLLM - LLM Ops здорового человека. TL;DR: тонкий враппер с общим поверх популярных провайдеров LLM, с кэшированием, обработкой ошибок и бюджетированием. Вообще я не спец в LLM, но сделал сколько-то прототипов на коленке, и считаю, что правильный воркфлоу - делать proof of concept поверх самого дорогого и предсказуемого на текущий момент API (читай GPT-4), и держать в уме опцию миграции в будущем. Уже в паблике есть и жирная Falcon-180B 🐪, и крутой для своего размера Mistral 7B 🇫🇷, и разные затюненные Llama-2. Лень сетапить инференс - пожалуйста, есть Replicate или Deepinfra.com под ваш форк Лламы, и Antropic через AWS Bedrock; все они обойдутся дешевле, чем GPT. Если совсем полетит, то на собранном датасете можно будет тюнить свою кастомную модель, если лицензия позволит 🏴‍☠️. Но скорее всего, YAGNI.

🤖 Как изменился NLP Research после выхода GPT-4 И где теперь мы берем новые идеи для исследований — об этом команда Tinkoff
🤖 Как изменился NLP Research после выхода GPT-4 И где теперь мы берем новые идеи для исследований — об этом команда Tinkoff AI расскажет на первом осеннем митапе в Москве. Также на встрече ребята обсудят особенности автоматизации поддержки в банке, подходы классификации интентов и разберут нюансы подготовки датасетов для предобучения foundational-моделей. После докладов останутся на поболтать и познакомиться с участниками ближе! 📆 Tinkoff.AI NLP Monolog Meetup # пройдет 19 октября в БЦ «Водном». Не забудьте позвать с собой коллег! Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673 ERID 2VtzqxCYiyy

Новенькое в сфере GenML Прошлая неделя выдалась насыщенной на релизы: 1. Mistral 7B — опенсорсная языковая модель с открытой лицензией Apache. По отзывам, качество генерации выше чем в Llama 2 и сравнимо с GPT-3.5. Практически не зацензурирована, благодаря чему более полезна. Можно запустить локально. 2. Cohere Chat + RAG — новый чатбот и API от команды Cohere. Позволяет подгрузить в чат любые внешние источники данных (например, pdf-ки или результаты поиска). 3. Claude открыл API для всех. Их киллер-фича — контекстное окно в 100k токенов, в 3 раза выше чем у GPT-4. Также ребята плотно запартнерились с Амазоном и получили от него монстр-раунд инвестиций в $4В. 4. PaLM 2 API от Гугла тоже открыт для всех разработчиков. Ещё Google сделали low-code инструмент MakerSuite для быстрого создания прототипов ИИ-приложений. 5. NexusRaven-13B — опенсорсная LLM, заточенная на function calling. На этой задаче модель сравнима с GPT-3.5. 6. Workers AI от Cloudflare — serverless inference для языковых моделей на базе инфраструктуры Cloudflare. Поддерживают Llama2, Whisper и несколько других опенсорсных моделей.

Сейчас все обсуждают статью от Microsoft "Рассвет больших языковых моделей: предварительные эксперименты с GPT-4V(ision)", где у GPT-4 появилось "зрение". В кругах, которые занимаются Computer Vision легкий шок, от "а что так можно было" и "как же это круто" до "а что теперь делать/чем заниматься, если вдруг 90% планируемых к решению задач вдруг решены"(утрирую, конечно). Но я хочу процитировать один пост, в котором рассматривается влияние этого прорыва на психологию. Как человек, больной на всю голову, я неровно дышу к идее изучения психологического устройства кожаного мешка через издевательства на большими языковыми моделями. "Для нас как психологов особенно важными являются 7 и 8 параграфы, описывающие способность GPT-4V(ision) эффективно решать тесты на невербальный и эмоциональный интеллект, в которых стимулы предъявляются в зрительной модальности – так же, как и человеку. Описывается успешная работа GPT-4V(ision) с тестом Равена, тестом Векслера, тестом на распознавание лицевых экспрессий и др. В целом, когнитивный успех GPT-4V(ision) подтверждает стремительно множащиеся сейчас слухи, что в недрах OpenAI, на самом деле, уже создана сверхмощная мультимодальная модель, гораздо более приближенная к AGI, чем любая из публично представленных версий GPT-4" Подробнее вот тут: https://t.me/andrey_kiselnikov/714 Там же ссылка на саму статью.

Repost from AI Happens
специалисты из микрософта написали 166!! страничный репорт по модели GPT-4V, которая позволит gpt-4 не только писать промпты,
специалисты из микрософта написали 166!! страничный репорт по модели GPT-4V, которая позволит gpt-4 не только писать промпты, но и отправлять изображения читать статью было страшно, так как захват еще одного домена моделью от open ai это прям серьезный шаг, а с прошлого серьезного шага еще не успело пройти пол года)) И вообще я бизнес строю, который работает с картинками. В общем держите выдержку: 1) модель умеет расшифровывать снимки кт, ставить диагнозы по ним. Пример на картинке 2) модель плохо считает объекты на изображении 3) модель умеет делать оср, но с ошибками (конечно, куда ей до нас, у нас ошибок в оср нет вообще) 4) делает выводы по изображения с вероятностью 50/50 да в общем, она пиздец сколько всего понимает) я даже не знаю, как вам описать, что она умеет не умеет. Расшифровывает, что сломалось у тачки в аварии, объясняет, что изображено на кадрах из фильма и что скорее всего будет дальше. (фича еще не доступна всем, ждем на тесты!) @aihappens

Repost from Сиолошная
Поработаю как бесплатный пиарщик OpenAI (у них так все сотрудники делают 🤔 мож поможет?) Открылся набор на OpenAI Residency, 6-ти месячную программу, в рамках которой вы будете работать в одной из исследовательских команд над настоящим рисерчем. Основная цель — помочь выдающимся исследователям и инженерам из других областей заполнить пробел в знаниях, чтобы они могли получить важные навыки для перехода в сферу AI и ML. Если вы исследователь вне ML, или просто крепкий инженер — тогда это предложение для вас. 1) Фуллтайм 2) релокация + спонсорство визы есть 3) работа в офисе в Сан-Франциско, минимум 3 дня в неделю 4) зарплата $210k/year, то есть за 6 месяцев вы получите $105k (так что налог будет не сумасшедший) 5) это не стажировка, у вас должны быть знания, бэкграунд и какой-то рабочий опыт, чтобы потянуть 6) почти наверняка на собеседованиях не будет вопросов про машинное обучение, особенно если ваша деятельность с ним никак не перекликается 7) после программы возможно трудоустройство Страница с информацией: https://openai.com/residency Податься: https://boards.greenhouse.io/openai/jobs/4985193004#app Официальный гайд по подготовке к собеседованиям: https://openai.com/interview-guide На странице написано, что вот эти два исследования вышли с участием Резидентов, то есть потенциально у вас будет возможность поучаствовать в самых передовых работах: — Language models can explain neurons in language models — Improving mathematical reasoning with process supervision Отмечайтесь в комментариях, если будете подаваться!

Repost from Data Science
Крупнейший русскоязычный датасет отзывов на организации от Яндекса 📖 Book @datascienceiot

Repost from Machinelearning
🤖 AutoAgents: A Framework for Automatic Agent Generation Generate different roles for GPTs to form a collaborative entity fo
🤖 AutoAgents: A Framework for Automatic Agent Generation Generate different roles for GPTs to form a collaborative entity for complex tasks. AutoAgents, инновационный фреймворк, который адаптивно генерирует и координирует множество специализированных агентов для создания ИИ-команды в соответствии с различными задачами. 🖥 Github: https://github.com/LinkSoul-AI/AutoAgents 📕 Paper: https://arxiv.org/abs/2309.17288v1 ⭐️ Demo: https://huggingface.co/spaces/LinkSoul/AutoAgents ai_machinelearning_big_data

Repost from AI для Всех
Краткий обзор анонсированных на конференции MetaConnect2023 новых продуктов и исследований в области AI от компании Meta: На
Краткий обзор анонсированных на конференции MetaConnect2023 новых продуктов и исследований в области AI от компании Meta: На MetaConnect2023 был представлен ряд новых продуктов, опирающихся на последние достижения в области искусственного интеллекта. В частности, были анонсированы следующие AI-модели и исследования: - Llama 2 - открытая модель для диалоговых систем - Emu - генеративная нейросеть для картинок - Масштабируемые контекстные модели для диалоговых систем - Code Llama - генерация и обсуждение кода - Segment Anything - сегментация изображений для Instagram Эти разработки лягут в основу таких продуктов Meta, как виртуальные персонажи, стикеры и фильтры в Instagram, умный помощник и др. Более подробно ознакомиться с этими исследованиями можно по ссылкам в посте. Интересно то, что после всех лет и инвестиций в исследования, Meta наконец то заходит в продакшен, и то ли еще будет!

Repost from эйай ньюз
Mistral.ai, стартап, основанный автором LLaMa, разразился новой открытой моделью Mistral 7B Про новый парижский стартап я писал длиннопост несколько месяцев назад (часть 1, часть 2) О модели Mistral 7B: - Обходит Llama-2 13B и Llama-1 34B на всех бенчмарках - Подбирается к CodeLlama 7B на генерации кода, не забывая как выполнять задачи на Английском языке - Apache 2.0 лицензия Скорость достигается за счёт: - Grouped-query attention (GQA) for faster inference - Sliding Window Attention (SWA) для более дешёвого инференса на длинных последовательностях токенов Больше деталей Модель на Hugging Face @ai_newz

Repost from Dealer.AI
Тут нас немножк рассекретили. Мы с коллегами из ai-forever выпустили препринт статьи про семейства nlp моделей для ru домена. Мы участвовали в создании семейства ru-ELECTRA. Впереди вас ждёт более подробный рассказ о том, как мы это делали на хабр. А пока го го в arxiv.

Repost from DL in NLP
Flash Attention 2 завезли прямо в 🤗 трансформеры 🔥🔥 Коротко, это мегаэффективный cuda kernel для рассчета attention, котор
Flash Attention 2 завезли прямо в 🤗 трансформеры 🔥🔥 Коротко, это мегаэффективный cuda kernel для рассчета attention, который делает ваше потребление памяти линейным вместо квадратичного, да и в принципе работает в несколько раз быстрее наивной имплементации к которой мы все привыкли. Flash Attention 1 был в 🤗 Optimum и мой опыт с ним... такой себе. Теперь же Flash 2 встроен в основную библиотеку и чтобы его использовать надо просто указать use flash attention 2 в from pretrained. https://x.com/younesbelkada/status/1705258148045750343

Repost from эйай ньюз
Релизнулась SOTA библиотека для генерации аудио AudioCraft v1.0.0 Я писал раньше о выходе начальной версии AudioCraft, когда
Релизнулась SOTA библиотека для генерации аудио AudioCraft v1.0.0 Я писал раньше о выходе начальной версии AudioCraft, когда Meta AI опубликовали статью MusicGen для генерации музыки по тексту. Почему новый релиз интересен? Это стабильный релиз и в него добавили код для трениновки моделей, в том числе несколько новых: - EnCodec - по сути квантизованый автоэнкодер (VQGAN), который сжимает аудио в серию дискретных токенов. - AudioGen - генерит по тексту повседневные звуки, типа лая собаки и прочих звуковых эффектов (кроме музыки). - MusicGen - text2music и midi2musiс синтез. Есть модели от 300M до 3.3B параметров. На 16Gb влезут. - MultiBandDiffusion - новый декодер, основанный на диффузии, который декодирует токены MusicGen в аудио дорожку. Лучше чем EnCodec. (Ждите серию постов про каждую из этих моделей) Еще добавлены веса AudioGen и MultiBandDiffusion. 🔥А теперь представьте, использование этих моделей при монтировании роликов для ютуба. Блог Код и веса Демо в колабе MusicGen ноутбук @ai_newz

Chain-of-Thought → Tree-of-Thought Техника для повышения качества ответа LLM’ок под названием Chain-of-Thought (CoT), пришедшая, кажется, из работы “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (https://arxiv.org/abs/2201.11903), давно вошла в арсенал промпт инженеров (патентованная технология, между прочим, https://patents.google.com/patent/US20230244938A1/en). В двух словах она заключается в том, чтобы попросить модель не сразу выдать результат, а сначала сгенерировать последовательность промежуточных шагов и лишь затем выдать финальный результат. Можно сочетать с few-shot learning, давая демонстрационные примеры. Неожиданным образом, качество ответа повышается, особенно это заметно на математических задачах, commonsense и symbolic reasoning. Кроме того, дополнительными бонусами являются большая прозрачность принятия решения и интерпретируемость. В оригинальной работе показали, что CoT это эмерджентное свойство, начинающее проявляться с размера модели в районе 100B. Дополнительная техника декодирования под названием Self-Consistency из работы “Self-Consistency Improves Chain of Thought Reasoning in Language Models” (https://arxiv.org/abs/2203.11171) заменяет жадное декодирование на создание нескольких цепочек CoT и в конце выбор наиболее консистентного ответа, который определяется мажоритарным голосованием. Этот подход CoT-SC иногда также называется Multiple CoTs, причём чем больше этих цепочек, тем лучше, в работе доходили до 40 штук. Популярное изложение CoT и немного CoT-SC тут https://blog.research.google/2022/05/language-models-perform-reasoning-via.html. Но это было в начале 2022-го. С тех пор появились более продвинутые подходы. Один из них, это Tree-of-Thoughts (ToT), появившийся с разницей в два дня в двух работах: “Large Language Model Guided Tree-of-Thought” (https://arxiv.org/abs/2305.08291) и “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (https://arxiv.org/abs/2305.10601). Теперь процесс вывода представлен деревом, а не цепочкой. И модель может делать backtracking, если вывод ушёл не туда. Идея этих работ в том, что мыслительный процесс не линеен, это скорее похоже на хождение по дереву -- пробуем одну ветвь, обнаруживаем что не работает, отка(т/з)ываемся и пробуем другую. Это подразумевает множество раундов взаимодействия между LLM и агентом, дающим промпты. Эти подходы уже не чистый промпт инжиниринг, одним текстом тут не обойдёшься, надо писать какие-то программы, управляющие процессом. В этом смысле это уже в парадигме LLM Programs (https://t.me/gonzo_ML/1584). I) Начнём с первой работы от Jieyi Long из Theta Labs. В данной постановке есть LLM, получающая промпты и выдающая ответы. Есть prompter agent, в который прилетает исходная задача от пользователя. Он выдаёт промпты в LLM и пытается получить от неё не финальное решение, а какое-то промежуточное. Специальный проверочный модуль (checker module) проверяет валидность промежуточного решения, полученного от LLM. Если проверка корректности проходит, это промежуточное решение парсится и сохраняется в памяти. Затем в зависимости от содержимого памяти prompter agent генерирует следующий промпт с целью получить от LLM следующий шаг. Если же от LLM приходит невалидный ответ, то ToT controller попросит prompter дать модели нужные подсказки и запросить решение снова. Также ToT controller отслеживает прогресс и решает, не нужно ли откатиться к родительскому узлу дерева или к более далёкому предку. То есть стратегию ToT можно представить как алгоритм поиска по дереву, использующий LLM как эвристику для выбора шагов поиска. LLM используется для задач “short-range reasoning”, получения следующего промежуточного решения. Задачи такого типа в целом решаются LLM неплохо. Возможность откатываться к предыдущим промежуточным решениям улучшает способности к “long-range reasoning”, потому что система может исследовать большее пространство решений. А возможность выполнять многошаговые взаимодействия увеличивает число вычислительных шагов, которые может сделать система.