Generative Ai
Open in Telegram
Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT По рекламе писать @miralinka, Created by @life2film
Show more3 677
Subscribers
+224 hours
+837 days
+9230 days
Posts Archive
3 679
Repost from эйай ньюз
🔥DeepFloyd IF: новая text-2-image модель
StablityAI выпустили новую модель, которая очень похожа на Imagen от Google, но работает лучше и в open-source.
Архитектура IF, как и у Imagen состоит из трех диффузионных моделей, каждая из которых работает в пространстве RGB и прогрессивно увеличивают картинку. Сначала Text→64×64, затем (Text+64×64)→256×256, и наконец (Text+256×256)→1024×1024. А текст кодируется с помощью текстового энкодера T5.
Почему это круто?
— IF неплохо умеет генерировать текст (я даже генерил в канале ранее), явно лучше чем StableDiffusion XL
— Нормальная открытая имплементация по типу Imagen, которой до сих пор не было. Возможно с какими-то трюками, о которых мы узнаем, когда авторы выпустят блогпост
— FID скор измеряет похожесть снеренированных картинок на реальные. Это чуть ли не основная метрика для качества генерации. У IF FID=6.7, тогда как у Imagen 7.3. Меньше — лучше. Разрыв не космический, но приличный.
Код выложили, веса ждем тут. И ждем подробной статьи от авторов.
@ai_newz
3 679
Repost from Machinelearning
Track anything
Project developed upon Segment Anything, can specify anything to track and segment via user clicks only.
Track-Anything - это гибкий и интерактивный инструмент для отслеживания и сегментации видео.
🖥 Github: https://github.com/gaomingqi/track-anything
⏩ Paper: https://arxiv.org/abs/2304.11968v1
🤗 Hugging face: https://huggingface.co/spaces/watchtowerss/Track-Anything
📌 Dataset: https://paperswithcode.com/dataset/davis-2017
ai_machinelearning_big_data
3 679
Visual Blocks for ML: Accelerating machine learning prototyping with interactive tools
https://ai.googleblog.com/2023/04/visual-blocks-for-ml-accelerating.html?utm_source=substack&utm_medium=email
3 679
Repost from Machinelearning
LLM Zoo: democratizing ChatGPT
Model "Phoenix", achieving competitive performance among open-source English and Chinese models while excelling in languages with limited resources
LLM Zoo - это проект, который предоставляет данные, модели и бенчмарки для больших языковых моделей.
🖥 Github: https://github.com/freedomintelligence/llmzoo
⏩ Paper: https://arxiv.org/abs/2304.10453v1
⭐️ Parameters: https://huggingface.co/FreedomIntelligence/phoenix-chat-7b
ai_machinelearning_big_data
3 679
Repost from gonzo-обзоры ML статей
Looks interesting
https://github.com/google/maxtext
MaxText is a high performance, arbitrarily scalable, open-source, simple, easily forkable, well-tested, batteries included LLM written in pure Python/Jax and targeting Google Cloud TPUs. MaxText typically achieves 55% to 60% model-flop utilization and scales from single host to very large clusters while staying simple and "optimization-free" thanks to the power of Jax and the XLA compiler.
MaxText aims to be a launching off point for ambitious LLM projects both in research and production. We encourage users to start by experimenting with MaxText out of the box and then fork and modify MaxText to meet their needs.
...
MaxText is heavily inspired by MinGPT/NanoGPT, elegant standalone GPT implementations written in PyTorch and targeting Nvidia GPUs. MaxText is more complex but has an MFU more than three times the 17% reported most recently with that codebase, is massively scalable and implements a key-value cache for efficient auto-regressive decoding.
MaxText is more similar to Nvidia/Megatron-LM, a very well tuned LLM implementation targeting Nvidia GPUs. The two implementations achieve comparable MFUs. The difference in the codebases highlights the different programming strategies. MaxText is pure Python, relying heavily on the XLA compiler to achieve high performance. By contrast, Megatron-LM is a mix of Python and CUDA, relying on well-optimized CUDA kernels to achieve high performance.
MaxText is also comparable to Pax. Like Pax, MaxText provides high-performance and scalable implementations of LLMs in Jax. Pax focuses on enabling powerful configuration parameters, enabling developers to change the model by editing config parameters. By contrast, MaxText is a simple, concrete implementation of an LLM that encourages users to extend by forking and directly editing the source code. The right choice depends on your project's priorities.
3 679
Repost from Denis Sexy IT 🤖
Мы все ближе к генеративной сингулярности:
Nvidia показала работу алгоритма text2video, и он работает сильно лучше чем все предыдущие примеры.
Смонтировал примеры в одно видео, тут по ссылке технические детали про архитектуру и больше примеров.
Модель, поиграться, кажется, нам не дадут 🥲
3 679
Repost from Machinelearning
📝 An open, billion-scale corpus of images interleaved with text.
MultimodalC4 is a multimodal extension of c4 that interleaves millions of images with text.
Открытый миллиардный корпус изображений, чередующихся с текстом.
🖥 Github: https://github.com/allenai/mmc4
⏩ Paper: https://arxiv.org/abs/2304.06939v1
⭐️ Dataset: https://paperswithcode.com/dataset/c4
ai_machinelearning_big_data
3 679
Repost from эйай ньюз
🚀Dolly 2.0 – первая открытая 12B Chat-LLM, которую можно использовать в коммерческих продуктах
Databricks удивили! Ребята заметили, что все опен-соурсные ChatGPT-клоны либо используют LLaMA, в которой некоммерческая лицензия, либо используют данные, которые запрещают коммерческое использование (как например датасет инструкций от Alpaca, сгенерированный с помощью GPT-3).
В чем преимущество OpenAI перед опен-суорсом, если не брать в расчет размер GPU кластера? В данных. Чтобы дообучить ChatGPT было собрано много качественных диалогов и иструкций от реальных людей, ну, и плюс RL from Human Feedback (RLHF), где люди оценивали ответы языковой модели.
Было решено собрать свой датасет. В Databricks работает ≈5000 человек, их всех и попросили написать вручную несколько семплов для обучения клона ChatGPT. Нужно было составить качественные пары Вопрос-Ответ, либо Инструкция-Ответ, на которых можно было бы добучить опенсоурсную авторегрессионную LLM, которая умеет просто продолжать текст, а не вести диалог. В итоге с помощью пряников в виде бонусов за написание лучших примеров, было собран высококачественный датасет на 15000 семплов!
Далее, они взяли свежу языковую модель Pythia-12B от EleutherAI с MIT лицензией и дообучили на своем датасете, получив Dolly 2.0* которую тоже зарелизили под MIT лицензией вместе с кодом и весами. Разве не прелесть?
generatetext = pipeline(model="databricks/dolly-v2-12b", torchdtype=torch.bfloat16, trustremotecode=True, devicemap="auto")
generatetext("Who is Shcmidhuber?")
Умельцы уже кванитизовали Dolly 2.0 в 4 бита и ускорлили для запуска на CPU. Теперь ждём шага от OpenAssistant, которые по слухам зарелизят свою модел в ближайшие дни.
*Dolly 1.0 была обучена на тех же инструкциях, что и Alpaca.
Блогпост про Dolly 2.0
@ai_newz3 679
ML-разработчики, хотите создать что-то действительно уникальное? Присоединяйтесь к IT-команде Сбера и приступайте к работе над русской версией ChatGPT 🖥
Чем предстоит заниматься?
• Довести качество русской версии до ChatGPT и даже обогнать его
• Придумывать и реализовывать новые варианты применения LLM
• Находить решения бизнес-задач с помощью технологии Сбера.
Если у вас есть опыт обучения моделей, знание математики, алгоритмов, а еще вы не боитесь экспериментировать — переходите по ссылке, смотрите все условия и откликайтесь на вакансию 💚
3 679
Бывший директор IT компании COMTEK в Петербурге Михаил Подгаец теперь живет в Германии и помогает IT специалистам из экс-СССР найти работу в Германии и переехать.
Способ - получение blue card с приличной по ЕС-овским мерка зарплатой.
Нужен разговорный английский для прохождения интервью и опыт работы. Диплом и немецкий не нужны. Помощь в получении контракта безоплатная. Если понадобятся доп.услуги, то за деньги.
Его компания помогает избавиться от страхов-переживаний по поводу эмиграции, а также с переездом, жильем, медициной, обучением детей, обучением немецкому языку и прочими вопросами.
Вопросы и резюме на английском - @m_podgaiets в Telegram
или valset@gmail.com
3 679
Repost from эйай ньюз
ModelScope Text-2-Video: Китайский опенсоурс разродился открытой моделькой для генерации видео по тексту
Это первая диффузионная text2video модель с открытым кодом и опуьликованными весами (1.7 млрд параметров).
Отдельный респект идет Шаттерстоку, данные с которого по всей видимотси использовались для тренировки модели 😂.
Чтобы запустить локально потребуется 16 GB RAM и 16 GB VRAM: инструкция. Пока генерит видео только 256x256.
Ну что, давайте побыстрее заполним интернет проклятыми видео!
Demo
Model weights
@ai_newz
3 679
Repost from Denis Sexy IT 🤖
Официальный пресс релиз о GPT 4:
https://openai.com/research/gpt-4
Из интересного, она на вход может принимать картинки, не просто текст 🌚 про параметры я еще не почитал сам
Записаться в API вейтлист можно тоже по ссылке выше.
Кстати, если у вас ChatGPT Plus то вам дадут к ней доступ и так
3 679
Repost from CGIT_Vines
Вот эта "неидеальность" со временем уйдёт, а мне так даже заходит больше. А ведь раньше гличи были на пике трендов.
Если хотите погонять свою видяху для создания Multi-frame Video rendering for SD, то вам вот за этой тулзовиной.
3 679
Repost from Machinelearning
StyleGANEX - Official PyTorch Implementation
Encoder that provides the first-layer feature of the extended StyleGAN in addition to the latent style code.
🖥 Github: https://github.com/williamyang1991/styleganex
⏩ Paper: https://arxiv.org/abs/2303.06146v1
⭐️ Colab: http://colab.research.google.com/github/williamyang1991/StyleGANEX/blob/master/inference_playground.ipynb
💨 Project: https://www.mmlab-ntu.com/project/styleganex/
ai_machinelearning_big_data
3 679
Repost from Hacker News
Visual ChatGPT (🔥 Score: 152+ in 2 hours)
Link: https://readhacker.news/s/5zPu5
Comments: https://readhacker.news/c/5zPu5
3 679
Repost from Machinelearning
Ultra fast ControlNet with 🧨 Diffusers
ControlNet provides a minimal interface allowing users to customize the generation process up to a great extent.
Новый пайплайн StableDiffusionControlNetPipeline, в статье показано, как его можно применять для различных задач. Давайте контролировать!
🤗 Hugging face blog: https://huggingface.co/blog/controlnet
🖥 Colab: https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/controlnet.ipynb
🖥 Github: https://github.com/lllyasviel/ControlNet
⏩ Paprer: https://arxiv.org/abs/2302.05543
@ai_machinelearning_big_data
Available now! Telegram Research 2025 — the year's key insights 
