DL in NLP

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого. Связь: @dropout05 (рекламы нет)

مشاركات الإعلانات

10 770

المشتركون

-124 ساعات

+57 أيام

+7630 أيام

6 877

عرض المشاهدات

لا توجد بيانات24 ساعات

لا توجد بيانات48 ساعات

63.84%

معدل المشاركة

لا توجد بيانات24 ساعات

لا توجد بيانات48 ساعات

الإشارات

لا توجد بيانات7 أيام

لا توجد بيانات30 أيام

لا توجد بيانات

المشاركات في اليوم

~ 82

ردود

~ 6

تعليقات

~ 50

إعادة

المشتركون
التغطية البريدية
ER - نسبة المشاركة

جاري تحميل البيانات...

Photo unavailableShow in Telegram

😁 113🤣 11

Photo unavailableShow in Telegram

Тут знакомая DL-школа DeepSchool, про которых я уже писал раньше ищет преподавателей на курс по LLM с опытом работы в индустрии Я когда-то сам вел лекции и если вы хотите заполнить пробелы в своих знаниях и систематизировать их, то преподавание — отличный вариант, плюс есть возможность пообщаться с другими препами и узнать их мнения / заполнить пробелы в каких-то очень узких областях Что ребята дают: — доступ ко всем курсам школы: можно приходить на лекции, задавать вопросы, сдавать домашки и получать ревью — оплата за подготовку материалов — оплата за лекции и ревью заданий — редактор поможет с текстами — а дизайнер нарисует красивую презентацию Что ребята ждут: — опыт в DL-индустрии/ресёрче от 3 лет — опыт работы с LLM от 1 года Если вы работаете с LLM, хотите пообщаться с другими практикующими инженерами, вместе поработать и перенять опыт, заполните, пожалуйста, эту форму

إظهار الكل...

❤ 33💩 19👍 7🔥 5🤷‍♀ 1🤷‍♂ 1🤷 1

Photo unavailableShow in Telegram

MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding Zuhri et al arxiv.org/abs/2406.09297 Помните multi-query attention где вместо того чтобы у вас были разные key, query, value на каждую голову вы используете одни и те же kv для всех и разными бывают только query? Это очень классная идея которая сильно сокращает размер kv cache позволяя упихивать более длинные тексты или большие батчи в тот же объем памяти с минимальной потерей качества. Авторы multi-layer kv heads предлагают сделать еще один шаг в эту сторону и предлагают шарить kv между соседними слоями тоже. То есть мы разбиваем наши слои на блоки, например по 4 слоя. И в каждой группе из 4 слоёв только лишь первый слой считает kv, остальные используют только query. Потеря качества хоть и небольшая, но достаточно заметная, но иногда приходится упихивать неупихиваемое в GPU и хорошо иметь больше способов делать tradeoffs.

إظهار الكل...

👍 38🔥 9❤‍🔥 4❤ 3👎 1

1X AI Update, May youtube.com/watch?v=bzn9O37fRMQ Мы записали ещё один видос с тем как EVE могут полностью автономно прибраться в офисе. Вообще демки довольно хороши для того чтобы коллектить большое количество полезных данных тк заставляют тебя думать о более полезных задачах и делать модели которые решают их с реально высоким success rate.

إظهار الكل...

1X AI Update | Voice Commands & Chaining Tasks

#1X #humanoid #embodiedai You can now tell EVE to do multiple autonomous tasks back-to-back. Watch a team of EVEs work together to clean up our office. In this video, you see the start of 1X's development of an advanced AI system that chains simple tasks into complex actions using voice commands, allowing seamless multi-robot control and remote operation. By starting with single-task models, we ensure smooth transitions to more powerful unified models, ultimately aiming to automate high-level actions using AI. This video does not contain teleoperation, computer graphics, cuts, video speedups, or scripted trajectory playback. It's all controlled via neural networks. Learn more here: www.1x.tech/discover/ai-update-voice-commands-chaining-tasks About 1X: 1X is an AI robotics company that develops safe, intelligent humanoid robots designed to work alongside humans. Founded in 2014, 1X is headquartered in both San Francisco Bay and Norway. Connect with 1X Website: www.1x.tech X:

https://x.com/1x_tech

LinkedIn:

https://www.linkedin.com/company/1x-technologies/

Instagram:

https://www.instagram.com/1x.technologies/

❤ 15🔥 3

Очень крутая лекция Jason Wei (chain of thought, emergent abilities) и Hyung Won (Flan-PaLM) из OpenAI о языковых моделях, emergent abilities, и прочих интересных штуках https://youtu.be/3gb-ZkVRemQ

إظهار الكل...

Stanford CS25: V4 I Jason Wei & Hyung Won Chung of OpenAI

April 11, 2024 Speakers: Jason Wei & Hyung Won Chung, OpenAI Intuitions on Language Models (Jason) Jason will talk about some basic intuitions on language models, inspired by manual examination of data. First, he will discuss how one can view next word prediction as massive multi-task learning. Then, he will discuss how this framing reconciles scaling laws with emergent individual tasks. Finally, he will talk about the more general implications of these learnings. Slides here:

https://docs.google.com/presentation/d/1JKpqsbkr5Fg-bj1iElPaC-ToTVpRmRLKZmN89krwl04/edit?usp=sharing&resourcekey=0-VPgp_Yc4krPPW3Mxv6UjgQ

Shaping the Future of AI from the History of Transformer (Hyung Won) Hyung Won: AI is developing at such an overwhelming pace that it is hard to keep up. Instead of spending all our energy catching up with the latest development, I argue that we should study the change itself. First step is to identify and understand the driving force behind the change. For AI, it is the exponentially cheaper compute and associated scaling. I will provide a highly-opinionated view on the early history of Transformer architectures, focusing on what motivated each development and how each became less relevant with more compute. This analysis will help us connect the past and present in a unified perspective, which in turn makes it more manageable to project where the field is heading. Slides here:

https://docs.google.com/presentation/d/1u05yQQaw4QXLVYGLI6o3YoFHv6eC3YN8GvWD8JMumpE/edit?usp=sharing

About the speakers: Jason Wei is an AI researcher based in San Francisco. He is currently working at OpenAI. He was previously a research scientist at Google Brain, where he popularized key ideas in large language models such as chain-of-thought prompting, instruction tuning, and emergent phenomena. Hyung Won Chung is a research scientist at OpenAI ChatGPT team. He has worked on various aspects of Large Language Models: pre-training, instruction fine-tuning, reinforcement learning with human feedback, reasoning, multilinguality, parallelism strategies, etc. Some of the notable work includes scaling Flan paper (Flan-T5, Flan-PaLM) and T5X, the training framework used to train the PaLM language model. Before OpenAI, he was at Google Brain and before that he received a PhD from MIT. More about the course can be found here:

https://web.stanford.edu/class/cs25/

View the entire CS25 Transformers United playlist:

https://www.youtube.com/playlist?list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM

🔥 38👍 5❤ 5😱 1

Photo unavailableShow in Telegram

😁 116👍 6😢 4❤ 3🫡 3😇 1

GPT4o openai.com/index/hello-gpt-4o/ Буква o в GPT4o означает "omnimodel". Новая моделька, аналогично gemini, может принимать на вход текст, аудио, картинки (и видео?) и генерировать эти модальности (текст, аудио, картинки, простенькое 3D) Например, модель может суммаризировать видео, редактировать изображения, генерировать комиксы итд Но самое впечатляющее это конечно же аудио. Новый (слегка кринж) очень живой и эмоциональный голос, который можно просить менять стиль, например насколько он звучит драматично или роботично, можно просить петь итд. Очень круто то что модель может обрабатывать и аудио и видео (как бы) одновременно. То есть ChatGPT слушает вас, но может и смотреть на то что вы показывете на камере -- теперь можно скидывать не только фотографию но и включать видео стрим. Моделька будет основной моделью в ChatGPT, включая и беслпатных юзеров. Из того что я понял разница между платными и беслпатными теперь будет только в лимите запросов в день. По метрикам, чуть-чуть лучше чем GPT4-turbo. Возможно мы уже подходим к потолку этих бенчмарков и скоро надо будет делать другие. Очень рекомендую посмотреть видео с новой моделью, картинки не передают то насколько аудио крутое. Например посмотрите вот эти два видоса: тык, тык Из презентации очень сильное впечатление что OAI окончательно стали продуктовой компанией. И 100% они специально поставили свою презентацию за день до гугловой. Такое ощущение что они поставили перед собой цель -- уничтожить гугл. В общем очень крутая презентация, посмотрим как другие компании будут использовать новые API

إظهار الكل...

Hello GPT-4o

We’re announcing GPT-4 Omni, our new flagship model which can reason across audio, vision, and text in real time.

❤ 43👍 10🥱 4

Let's Think Dot by Dot: Hidden Computation in Transformer Language Models arxiv.org/abs/2404.15758 We show that transformers can use meaningless filler tokens (e.g., '......') in place of a chain of thought to solve two hard algorithmic tasks they could not solve when responding without intermediate tokens.

إظهار الكل...

Let's Think Dot by Dot: Hidden Computation in Transformer...

Chain-of-thought responses from language models improve performance across most benchmarks. However, it remains unclear to what extent these performance gains can be attributed to human-like task...

🔥 28👍 6⚡ 5🤯 4❤ 2

Photo unavailableShow in Telegram

Llama 3 llama.meta.com/llama3/ Немного странный анонс моделей с приговоркой "статья будет чуть позже", meta раньше так не делали, но всё равно модели очень крутые и уже доступны Детали: 1. 16K GPU 🤯 1. 15T токенов 🤯🤯 1. Веса моделей на 8B и 70B параметров уже доступны 🎉 1. Тренируют модель на 405B параметров (без MoE) 🤯 1. 8K длина контекста 1. Архиткетурно самые большие отличия: Grouped Query Attention и 128K vocab size 1. Для тренировки оценивали scaling laws на разных доменах датасета (и на downstream задачах) после чего из них высчитывали оптимальное взвешивание 1. Никаких отклонений от scaling laws даже на 15T токенах для 8B модели Бенчмарки: 1. На MMLU, Llama 3 8B работает на уровне PALM-540B и Chinchilla 70B 1. Там же Llama 70B обходит Claude 3 Sonnet и Mistral Large

إظهار الكل...

👍 55🔥 1

Repost from Сиолошная

Photo unavailableShow in Telegram

У Dwarkesh новый выпуск подкаста с двумя LLM-щиками. Именно из превью этой беседы я вчера узнал про статью о генерализации и интерпретируемости, детали которой расписал в канале. Один из гостей — нейробиолог, переключившийся в интерпретируемость моделей (и проводящий аналогии с мозгом) и работающий в Anthropic. Второй — исследователь в DeepMind. Он молодой, работает буквально 2 года в индустрии, но один из создателей трансформера говорил, что без этого парня Gemini могла бы не состояться, и вообще он один из лучших и недооцененных спецов в области. Должно быть очень интересно, го смотреть: https://www.youtube.com/watch?v=UTuuTTnjxMQ Затрагивают следующие топики: — Long contexts — Intelligence is just associations — Intelligence explosion & great researchers — Superposition & secret communication — Agents & true reasoning — How Sholto & Trenton got into AI research — Are feature spaces the wrong way to think about intelligence? — Will interp actually work on superhuman models

إظهار الكل...

🔥 19❤ 5👍 4🥴 1

اختر خطة مختلفة

تسمح خطتك الحالية بتحليلات لما لا يزيد عن 5 قنوات. للحصول على المزيد، يُرجى اختيار خطة مختلفة.