10 цікавинок про ШІ, що я випадково побачив в соцмережах за останній тиждень:
1. Official DALL-E 3 Paper: DALL-E 3 перетворює текст у зображення, влучно генерує написи у зображенні, краще знає анатомію людини, та багато іншого. Стаття описує технічні деталі реалізації та тренування DALL-E 3, та методи оцінки моделі.
2. Fooocus: Це open-source інструмент для генерації зображень за допомогою Stable Diffusion, однак розробники цього софта вже реалізували
багато різних трюків для покращення генерації, та підібрали найкращі гіперпараметри для базових потреб користувача (є декілька різних стилів генерації).
3. Вебінар з Pose Estimation від Eugene Khvedchenia 🇺🇦: На цьому вебінарі розглянуть питання оптимізації моделей для
Pose Estimation для швидкої роботи нейромережі в реальному часі, а також такі проблеми, як обчислювальні обмеження і різні умови навколишнього середовища для виконання алгоритму.
Реєструйтеся!
4. RGB no more: Minimally-decoded JPEG Vision Transformers: Натренували Vision Transformer (ViT) безпосередньо на основі закодованих ознак зображення JPEG. Таким чином пришвидшили навчання на 39,2% (порівнянно з тренуванням на звичайних зображеннях), а обчислення (inference) — на 17.9%, без втрати точності.
5. 🖨 🎇 RAG-Fusion: RAG-Fusion (Retrieval Augmented Generation meets Reciprocal Rank Fusion), заснована на MultiQueryRetrieval, є новою технікою пошуку тексту,
доступною в LangChain, яка розширює можливості Retrieval-Augmented Generation (RAG) для покращення генерації та пошуку тексту.
6. 200 найкращих винаходів за версією журналу TIME: Посилання на публікацію журналу TIME про 200 найкращих винаходів у 2023 році, серед яких чимало ШІ, зокрема Adobe Photoshop Generative Expand and Generative Fill, OpenAI GPT-4, Runway Gen-2, Meta SeamlessM4T, So-VITS-SVC, та інші.
7. Політичні упередження в моделях штучного інтелекту: Це дослідження виявило та визначило політичні упередження в популярних великих мовних моделях. Зокрема, GPT-4 від OpenAI демонструють ліволіберальну спрямованість, а от LLaMA від Meta AI показує правоавторитарні настрої. By the way, це дослідження входить у підбірку
ACL Best Papers, де висвітлені найцікавіші публікації престижної наукової конференції з ШІ
ACL’23.
8. [ICCV 2023] ProPainter: ProPainter, представлений на дуже крутій конференції
ICCV 2023, це новий
State Of The Art (SOTA) у задачі Inpainting на відео (видалення об'єкта з відео).
9. Qualcomm Snapdragon 8 Gen 3: Snapdragon 8 Gen 3 це новий процессор від Qualcomm, розроблений спеціально під ШІ, will be released soon.
10. NanoSAM від NVIDIA: NanoSAM — це дистильована версія моделі
Segment Anything (SAM), оптимізована для роботи в реальному часі за допомогою
TensorRT від NVIDIA.
@eiaioi