Generative Ai
Ir al canal en Telegram
Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT По рекламе писать @miralinka, Created by @life2film
Mostrar más3 677
Suscriptores
+224 horas
+837 días
+9230 días
Archivo de publicaciones
3 677
Repost from Технологии | Нейросети | Боты
🎞 Generative Fill для видео от Adobe.
Новинка Project Fast Fill создана на основе технологии генеративной заливки и позволяет быстро удалять объекты с видео или менять фон по простому текстовому описанию.
Изменения автоматически применяются на всё видео, без необходимости покадрового редактирования.
3 677
Repost from N/a
ElevenLabs выкатили Dubbing — инструмент для ИИ-перевода видео/аудио между 29 языками (русский также присутствует). При этом сохраняется голос и манера речи говорящего.
Липсинка пока нет, но обещают в скором будущем.
3 677
🤖 Как изменился NLP Research после выхода GPT-4
И где теперь мы берем новые идеи для исследований — об этом команда Tinkoff AI расскажет на первом осеннем митапе в Москве. Также на встрече ребята обсудят особенности автоматизации поддержки в банке, подходы классификации интентов и разберут нюансы подготовки датасетов для предобучения foundational-моделей.
После докладов останутся на поболтать и познакомиться с участниками ближе!
📆 Tinkoff.AI NLP Monolog Meetup # пройдет 19 октября в БЦ «Водном». Не забудьте позвать с собой коллег!
Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673 ERID 2VtzqxCYiyyd
3 677
Repost from partially unsupervised
Понравился LiteLLM - LLM Ops здорового человека. TL;DR: тонкий враппер с общим поверх популярных провайдеров LLM, с кэшированием, обработкой ошибок и бюджетированием.
Вообще я не спец в LLM, но сделал сколько-то прототипов на коленке, и считаю, что правильный воркфлоу - делать proof of concept поверх самого дорогого и предсказуемого на текущий момент API (читай GPT-4), и держать в уме опцию миграции в будущем. Уже в паблике есть и жирная Falcon-180B 🐪, и крутой для своего размера Mistral 7B 🇫🇷, и разные затюненные Llama-2. Лень сетапить инференс - пожалуйста, есть Replicate или Deepinfra.com под ваш форк Лламы, и Antropic через AWS Bedrock; все они обойдутся дешевле, чем GPT.
Если совсем полетит, то на собранном датасете можно будет тюнить свою кастомную модель, если лицензия позволит 🏴☠️. Но скорее всего, YAGNI.
3 677
🤖 Как изменился NLP Research после выхода GPT-4
И где теперь мы берем новые идеи для исследований — об этом команда Tinkoff AI расскажет на первом осеннем митапе в Москве. Также на встрече ребята обсудят особенности автоматизации поддержки в банке, подходы классификации интентов и разберут нюансы подготовки датасетов для предобучения foundational-моделей.
После докладов останутся на поболтать и познакомиться с участниками ближе!
📆 Tinkoff.AI NLP Monolog Meetup # пройдет 19 октября в БЦ «Водном». Не забудьте позвать с собой коллег!
Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673 ERID 2VtzqxCYiyy
3 677
Repost from Трендоскоп
Новенькое в сфере GenML
Прошлая неделя выдалась насыщенной на релизы:
1. Mistral 7B — опенсорсная языковая модель с открытой лицензией Apache. По отзывам, качество генерации выше чем в Llama 2 и сравнимо с GPT-3.5. Практически не зацензурирована, благодаря чему более полезна. Можно запустить локально.
2. Cohere Chat + RAG — новый чатбот и API от команды Cohere. Позволяет подгрузить в чат любые внешние источники данных (например, pdf-ки или результаты поиска).
3. Claude открыл API для всех. Их киллер-фича — контекстное окно в 100k токенов, в 3 раза выше чем у GPT-4. Также ребята плотно запартнерились с Амазоном и получили от него монстр-раунд инвестиций в $4В.
4. PaLM 2 API от Гугла тоже открыт для всех разработчиков. Ещё Google сделали low-code инструмент MakerSuite для быстрого создания прототипов ИИ-приложений.
5. NexusRaven-13B — опенсорсная LLM, заточенная на function calling. На этой задаче модель сравнима с GPT-3.5.
6. Workers AI от Cloudflare — serverless inference для языковых моделей на базе инфраструктуры Cloudflare. Поддерживают Llama2, Whisper и несколько других опенсорсных моделей.
3 677
Repost from Метаверсище и ИИще
Сейчас все обсуждают статью от Microsoft "Рассвет больших языковых моделей: предварительные эксперименты с GPT-4V(ision)", где у GPT-4 появилось "зрение".
В кругах, которые занимаются Computer Vision легкий шок, от "а что так можно было" и "как же это круто" до "а что теперь делать/чем заниматься, если вдруг 90% планируемых к решению задач вдруг решены"(утрирую, конечно).
Но я хочу процитировать один пост, в котором рассматривается влияние этого прорыва на психологию. Как человек, больной на всю голову, я неровно дышу к идее изучения психологического устройства кожаного мешка через издевательства на большими языковыми моделями.
"Для нас как психологов особенно важными являются 7 и 8 параграфы, описывающие способность GPT-4V(ision) эффективно решать тесты на невербальный и эмоциональный интеллект, в которых стимулы предъявляются в зрительной модальности – так же, как и человеку. Описывается успешная работа GPT-4V(ision) с тестом Равена, тестом Векслера, тестом на распознавание лицевых экспрессий и др. В целом, когнитивный успех GPT-4V(ision) подтверждает стремительно множащиеся сейчас слухи, что в недрах OpenAI, на самом деле, уже создана сверхмощная мультимодальная модель, гораздо более приближенная к AGI, чем любая из публично представленных версий GPT-4"
Подробнее вот тут: https://t.me/andrey_kiselnikov/714
Там же ссылка на саму статью.
3 677
Repost from AI Happens
специалисты из микрософта написали 166!! страничный репорт по модели GPT-4V, которая позволит gpt-4 не только писать промпты, но и отправлять изображения
читать статью было страшно, так как захват еще одного домена моделью от open ai это прям серьезный шаг, а с прошлого серьезного шага еще не успело пройти пол года)) И вообще я бизнес строю, который работает с картинками. В общем держите выдержку:
1) модель умеет расшифровывать снимки кт, ставить диагнозы по ним. Пример на картинке
2) модель плохо считает объекты на изображении
3) модель умеет делать оср, но с ошибками (конечно, куда ей до нас, у нас ошибок в оср нет вообще)
4) делает выводы по изображения с вероятностью 50/50
да в общем, она пиздец сколько всего понимает) я даже не знаю, как вам описать, что она умеет не умеет. Расшифровывает, что сломалось у тачки в аварии, объясняет, что изображено на кадрах из фильма и что скорее всего будет дальше.
(фича еще не доступна всем, ждем на тесты!)
@aihappens
3 677
Repost from Сиолошная
Поработаю как бесплатный пиарщик OpenAI (у них так все сотрудники делают 🤔 мож поможет?)
Открылся набор на OpenAI Residency, 6-ти месячную программу, в рамках которой вы будете работать в одной из исследовательских команд над настоящим рисерчем.
Основная цель — помочь выдающимся исследователям и инженерам из других областей заполнить пробел в знаниях, чтобы они могли получить важные навыки для перехода в сферу AI и ML. Если вы исследователь вне ML, или просто крепкий инженер — тогда это предложение для вас.
1) Фуллтайм
2) релокация + спонсорство визы есть
3) работа в офисе в Сан-Франциско, минимум 3 дня в неделю
4) зарплата $210k/year, то есть за 6 месяцев вы получите $105k (так что налог будет не сумасшедший)
5) это не стажировка, у вас должны быть знания, бэкграунд и какой-то рабочий опыт, чтобы потянуть
6) почти наверняка на собеседованиях не будет вопросов про машинное обучение, особенно если ваша деятельность с ним никак не перекликается
7) после программы возможно трудоустройство
Страница с информацией: https://openai.com/residency
Податься: https://boards.greenhouse.io/openai/jobs/4985193004#app
Официальный гайд по подготовке к собеседованиям: https://openai.com/interview-guide
На странице написано, что вот эти два исследования вышли с участием Резидентов, то есть потенциально у вас будет возможность поучаствовать в самых передовых работах:
— Language models can explain neurons in language models
— Improving mathematical reasoning with process supervision
Отмечайтесь в комментариях, если будете подаваться!
3 677
Repost from Data Science
Крупнейший русскоязычный датасет отзывов на организации от Яндекса
📖 Book
@datascienceiot
3 677
Repost from Machinelearning
🤖 AutoAgents: A Framework for Automatic Agent Generation
Generate different roles for GPTs to form a collaborative entity for complex tasks.
AutoAgents, инновационный фреймворк, который адаптивно генерирует и координирует множество специализированных агентов для создания ИИ-команды в соответствии с различными задачами.
🖥 Github: https://github.com/LinkSoul-AI/AutoAgents
📕 Paper: https://arxiv.org/abs/2309.17288v1
⭐️ Demo: https://huggingface.co/spaces/LinkSoul/AutoAgents
ai_machinelearning_big_data
3 677
Repost from AI для Всех
Краткий обзор анонсированных на конференции MetaConnect2023 новых продуктов и исследований в области AI от компании Meta:
На MetaConnect2023 был представлен ряд новых продуктов, опирающихся на последние достижения в области искусственного интеллекта.
В частности, были анонсированы следующие AI-модели и исследования:
- Llama 2 - открытая модель для диалоговых систем
- Emu - генеративная нейросеть для картинок
- Масштабируемые контекстные модели для диалоговых систем
- Code Llama - генерация и обсуждение кода
- Segment Anything - сегментация изображений для Instagram
Эти разработки лягут в основу таких продуктов Meta, как виртуальные персонажи, стикеры и фильтры в Instagram, умный помощник и др.
Более подробно ознакомиться с этими исследованиями можно по ссылкам в посте. Интересно то, что после всех лет и инвестиций в исследования, Meta наконец то заходит в продакшен, и то ли еще будет!
3 677
Repost from эйай ньюз
Mistral.ai, стартап, основанный автором LLaMa, разразился новой открытой моделью Mistral 7B
Про новый парижский стартап я писал длиннопост несколько месяцев назад (часть 1, часть 2)
О модели Mistral 7B:
- Обходит Llama-2 13B и Llama-1 34B на всех бенчмарках
- Подбирается к CodeLlama 7B на генерации кода, не забывая как выполнять задачи на Английском языке
- Apache 2.0 лицензия
Скорость достигается за счёт:
- Grouped-query attention (GQA) for faster inference
- Sliding Window Attention (SWA) для более дешёвого инференса на длинных последовательностях токенов
Больше деталей
Модель на Hugging Face
@ai_newz
3 677
Repost from Dealer.AI
Тут нас немножк рассекретили. Мы с коллегами из ai-forever выпустили препринт статьи про семейства nlp моделей для ru домена. Мы участвовали в создании семейства ru-ELECTRA.
Впереди вас ждёт более подробный рассказ о том, как мы это делали на хабр. А пока го го в arxiv.
3 677
Repost from DL in NLP
Flash Attention 2 завезли прямо в 🤗 трансформеры 🔥🔥
Коротко, это мегаэффективный cuda kernel для рассчета attention, который делает ваше потребление памяти линейным вместо квадратичного, да и в принципе работает в несколько раз быстрее наивной имплементации к которой мы все привыкли.
Flash Attention 1 был в 🤗 Optimum и мой опыт с ним... такой себе. Теперь же Flash 2 встроен в основную библиотеку и чтобы его использовать надо просто указать use flash attention 2 в from pretrained.
https://x.com/younesbelkada/status/1705258148045750343
3 677
Repost from эйай ньюз
Релизнулась SOTA библиотека для генерации аудио AudioCraft v1.0.0
Я писал раньше о выходе начальной версии AudioCraft, когда Meta AI опубликовали статью MusicGen для генерации музыки по тексту.
Почему новый релиз интересен?
Это стабильный релиз и в него добавили код для трениновки моделей, в том числе несколько новых:
- EnCodec - по сути квантизованый автоэнкодер (VQGAN), который сжимает аудио в серию дискретных токенов.
- AudioGen - генерит по тексту повседневные звуки, типа лая собаки и прочих звуковых эффектов (кроме музыки).
- MusicGen - text2music и midi2musiс синтез. Есть модели от 300M до 3.3B параметров. На 16Gb влезут.
- MultiBandDiffusion - новый декодер, основанный на диффузии, который декодирует токены MusicGen в аудио дорожку. Лучше чем EnCodec.
(Ждите серию постов про каждую из этих моделей)
Еще добавлены веса AudioGen и MultiBandDiffusion.
🔥А теперь представьте, использование этих моделей при монтировании роликов для ютуба.
Блог
Код и веса
Демо в колабе
MusicGen ноутбук
@ai_newz
3 677
Repost from gonzo-обзоры ML статей
Chain-of-Thought → Tree-of-Thought
Техника для повышения качества ответа LLM’ок под названием Chain-of-Thought (CoT), пришедшая, кажется, из работы “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (https://arxiv.org/abs/2201.11903), давно вошла в арсенал промпт инженеров (патентованная технология, между прочим, https://patents.google.com/patent/US20230244938A1/en). В двух словах она заключается в том, чтобы попросить модель не сразу выдать результат, а сначала сгенерировать последовательность промежуточных шагов и лишь затем выдать финальный результат. Можно сочетать с few-shot learning, давая демонстрационные примеры.
Неожиданным образом, качество ответа повышается, особенно это заметно на математических задачах, commonsense и symbolic reasoning. Кроме того, дополнительными бонусами являются большая прозрачность принятия решения и интерпретируемость. В оригинальной работе показали, что CoT это эмерджентное свойство, начинающее проявляться с размера модели в районе 100B.
Дополнительная техника декодирования под названием Self-Consistency из работы “Self-Consistency Improves Chain of Thought Reasoning in Language Models” (https://arxiv.org/abs/2203.11171) заменяет жадное декодирование на создание нескольких цепочек CoT и в конце выбор наиболее консистентного ответа, который определяется мажоритарным голосованием. Этот подход CoT-SC иногда также называется Multiple CoTs, причём чем больше этих цепочек, тем лучше, в работе доходили до 40 штук.
Популярное изложение CoT и немного CoT-SC тут https://blog.research.google/2022/05/language-models-perform-reasoning-via.html.
Но это было в начале 2022-го. С тех пор появились более продвинутые подходы. Один из них, это Tree-of-Thoughts (ToT), появившийся с разницей в два дня в двух работах: “Large Language Model Guided Tree-of-Thought” (https://arxiv.org/abs/2305.08291) и “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (https://arxiv.org/abs/2305.10601).
Теперь процесс вывода представлен деревом, а не цепочкой. И модель может делать backtracking, если вывод ушёл не туда.
Идея этих работ в том, что мыслительный процесс не линеен, это скорее похоже на хождение по дереву -- пробуем одну ветвь, обнаруживаем что не работает, отка(т/з)ываемся и пробуем другую. Это подразумевает множество раундов взаимодействия между LLM и агентом, дающим промпты.
Эти подходы уже не чистый промпт инжиниринг, одним текстом тут не обойдёшься, надо писать какие-то программы, управляющие процессом. В этом смысле это уже в парадигме LLM Programs (https://t.me/gonzo_ML/1584).
I) Начнём с первой работы от Jieyi Long из Theta Labs.
В данной постановке есть LLM, получающая промпты и выдающая ответы. Есть prompter agent, в который прилетает исходная задача от пользователя. Он выдаёт промпты в LLM и пытается получить от неё не финальное решение, а какое-то промежуточное. Специальный проверочный модуль (checker module) проверяет валидность промежуточного решения, полученного от LLM. Если проверка корректности проходит, это промежуточное решение парсится и сохраняется в памяти. Затем в зависимости от содержимого памяти prompter agent генерирует следующий промпт с целью получить от LLM следующий шаг. Если же от LLM приходит невалидный ответ, то ToT controller попросит prompter дать модели нужные подсказки и запросить решение снова. Также ToT controller отслеживает прогресс и решает, не нужно ли откатиться к родительскому узлу дерева или к более далёкому предку.
То есть стратегию ToT можно представить как алгоритм поиска по дереву, использующий LLM как эвристику для выбора шагов поиска. LLM используется для задач “short-range reasoning”, получения следующего промежуточного решения. Задачи такого типа в целом решаются LLM неплохо. Возможность откатываться к предыдущим промежуточным решениям улучшает способности к “long-range reasoning”, потому что система может исследовать большее пространство решений. А возможность выполнять многошаговые взаимодействия увеличивает число вычислительных шагов, которые может сделать система.
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
