Continuous Learning_Startup & Investment
Kanalga Telegramโda oโtish
We journey together through the captivating realms of entrepreneurship, investment, life, and technology. This is my chronicle of exploration, where I capture and share the lessons that shape our world. Join us and let's never stop learning!
Ko'proq ko'rsatish2 282
Obunachilar
-324 soatlar
-207 kunlar
-5430 kunlar
Postlar arxiv
Repost from N/a
Playing different games: ์คํํธ์
ํ๋ฉ์ ๋ํ ๊ณ ์ฐฐ.
๋ด๊ฐ ์ด๋ค ํ์ ์ํด์๋์ง ์ดํดํ๊ณ , ๋๋ ๋ง๋ ๊ฒ์์ ํด์ผํ๋ค.
์ฌ๋๋ค์ ๋ค ๊ฐ์์ ๊ฒ์์ ํ๊ณ ์๋ค. ๊ทธ๊ฑธ ์ดํดํ์ง ๋ชปํ๋ฉด, ํํธํ๋ ํ๋์ฌํ๋ฅผ ์ ๋๋ก ๋ฐ๋ผ๋ณด์ง ๋ชปํ๊ฒ ๋๋ ๊ฒ.
์ด๋ฒ ์ฃผ์ ์ฝ์ ๊ธ ์ค ๊ฐ์ฅ ํฅ๋ฏธ๋กญ๋ค.
https://investing1012dot0.substack.com/p/player-different-stupider-games?trk=feed_main-feed-card_feed-article-content
Life is, contrary to what every drunk little league dad is convinced of, not like sports. Sports have specific rules. As confident as you are, you might be able to convince people for a few seconds as confusion still reigns. But when the dust settles? It was ball three. And then you're out. The rules come for everyone (unless... you know, like roids I guess.)
In life, we play games that are riddled with a lack of rules. And, to Nate's point, confidence can get you quite far. Because so many of the games we're playing are pretty stupid games.
Every company wants to have the biggest aspirations. And often, those hungry ambitions are what makes a great founder. But anchoring your expectations in a different game will almost always lead to dissatisfaction. Michael Jordan was the greatest basketball player of all time, but a middling baseball player. The games we play should shape our expectations about our potential outcomes.
Granted, it isn't just founders that are shaping these expected (and often dramatically inflated) outcomes. The business model of venture capital has done a lot to force founders to focus on very different games because investors need very different outcomes to make their own math work.
Stupider games are not realizing that other people are playing different games. OpenAI is playing a different game. Capital agglomerators are playing different games. Chamath is playing a different game. One of the biggest obstacles to most of the systems in the world, whether its healthcare, criminal justice, mental health, housing, or capitalism itselfโall of them are filled with people playing different games.
์ด์ AGI Town in Seoul ์ ์ฒซ ๋ฐํ์์ ์ถ์ฒํ ์ฑ
์ค์ ์ฃผ๋ฐ์ ํ(Judea Pearl)์ Causality ๊ฐ ์์๋๋ฐ ์ต๊ทผ์ ๋์ค ๋ฒ์ ์ผ๋ก ๋์จ The Book of Why ๋ ์์ต๋๋ค.
๋๊ฐ ํต๊ณ๋ฅผ ๋ฐฐ์ฐ๊ฒ ๋๋ฉด ๋ฐ์ดํฐ๋ก๋ถํฐ ์ ์ ์๋ ๊ฒ์ ๋ฐ์ดํฐ์ ์๊ด๊ด๊ณ์ด์ง ์ธ๊ณผ๊ด๊ณ๊น์ง ์ ์๋ ์๋ค๊ณ ๋ฐฐ์ฐ๊ณ ๊ทธ๋์ ์๊ด๊ด๊ณ๋ฅผ ์ธ๊ณผ๊ด๊ณ๋ก ์๋ชป ํด์ํ๋ ์ผ์ด ์๋๋ก ์ฃผ์ํ๋ผ๊ณ ๋ฐฐ์๋๋ค.
์ฃผ๋ฐ์ ํ์ ์ปดํจํฐ ๊ณผํ์์ด์ ์ฒ ํ์๋ก ์ปดํจํฐ ๊ณผํ์ ๋
ธ๋ฒจ์์ด๋ผ๊ณ ํ ์ ์๋ ํ๋ง์์ ์์ํ๊ธฐ๋ ํ์ต๋๋ค. ์ด Causality(์ธ๊ณผ๊ด๊ณ)๋ผ๋ ์ฑ
์์ ์ธ๊ณผ๊ด๊ณ๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๊ตฌ์กฐ ๋ฐฉ์ ์ ๋ชจ๋ธ๋ง์ด๋ผ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค๊ณ ํ ์ ์์ต๋๋ค.
์๋๋ ์๋ง์กด์ Causality(์ธ๊ณผ๊ด๊ณ) ์๊ฐ ๊ธ์ DeepL๋ก ๋ฒ์ญํ ๊ฒ๋๋ค.
"์ด ๋ถ์ผ์ ์ ๋ช
ํ ์ฐ๊ตฌ์ ์ค ํ ๋ช
์ด ์ด ์ด ์ฑ
์ ์ธ๊ณผ๊ด๊ณ์ ๋ํ ํ๋์ ๋ถ์์ ๋ํ ํฌ๊ด์ ์ธ ์ค๋ช
์ ์ ๊ณตํฉ๋๋ค. ์ด ์ฑ
์ ์ธ๊ณผ๊ด๊ณ๊ฐ ๋ชจํธํ ๊ฐ๋
์์ ํต๊ณ, ์ธ๊ณต ์ง๋ฅ, ๊ฒฝ์ , ์ฒ ํ, ์ธ์ง ๊ณผํ, ๋ณด๊ฑด ๋ฐ ์ฌํ ๊ณผํ ๋ถ์ผ์์ ์ค์ํ ์์ฉ ๋ถ์ผ๋ฅผ ๊ฐ์ง ์ํ์ ์ด๋ก ์ผ๋ก ์ด๋ป๊ฒ ์ฑ์ฅํ๋์ง๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ฅฌ๋ฐ์ ํ์ ์ธ๊ณผ๊ด๊ณ์ ๋ํ ํ๋ฅ ์ , ์กฐ์์ , ์ฌ์ค์ , ๊ตฌ์กฐ์ ์ ๊ทผ๋ฒ์ ์ ์ํ๊ณ ํตํฉํ๋ฉฐ ์ธ๊ณผ๊ด๊ณ์ ํต๊ณ์ ์ฐ๊ด์ฑ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ์ฐ๊ตฌํ๊ธฐ ์ํ ๊ฐ๋จํ ์ํ์ ๋๊ตฌ๋ฅผ ๊ณ ์ํฉ๋๋ค. ์ด ์ฑ
์ ํต๊ณ, ์ธ๊ณต ์ง๋ฅ, ๋น์ฆ๋์ค, ์ญํ, ์ฌํ๊ณผํ, ๊ฒฝ์ ํ์ ํ์ค ์ปค๋ฆฌํ๋ผ์ ์ธ๊ณผ ๋ถ์์ ํฌํจํ ์ ์๋ ๊ธธ์ ์ด์ด์ค ๊ฒ์
๋๋ค. ์ด๋ฌํ ๋ถ์ผ์ ํ์๋ค์ ๊ธฐ์กด ๊ต๊ณผ์๊ฐ ํํผํ๊ฑฐ๋ ์ง๋์น๊ฒ ๋ณต์กํ๊ฒ ๋ง๋ ์ธ๊ณผ ๊ด๊ณ ๊ฐ๋
์ ๋ํ ์์ฐ์ค๋ฌ์ด ๋ชจ๋ธ, ๊ฐ๋จํ ์ถ๋ก ์ ์ฐจ, ์ ํํ ์ํ์ ์ ์๋ฅผ ๋ฐ๊ฒฌํ๊ฒ ๋ ๊ฒ์
๋๋ค. ์ธ๊ณผ๊ด๊ณ์ ์ดํ์ ํต๊ณํ, ์ฒ ํ, ์ปดํจํฐ ๊ณผํ, ์ฌํ๊ณผํ, ๊ฒฝ์ ํ์์ ์ธ๊ณผ๊ด๊ณ๋ฅผ ๋ค๋ฃจ๋ ๋ฐฉ์์ ํจ๋ฌ๋ค์์ ๋ณํ๋ฅผ ๊ฐ์ ธ์์ต๋๋ค. 5,000๊ฐ ์ด์์ ๊ณผํ ์ถํ๋ฌผ์ ์ธ์ฉ๋ ์ด ์ฑ
์ ๊ณผํ์๋ค์ ์ ํต์ ์ธ ํต๊ณ์ ์ฌ๊ณ ์ ํ์์ ๋ฒ์ด๋๊ฒ ํด์ฃผ๊ณ ์์ต๋๋ค. ์ด๋ฒ ๊ฐ์ ํ์์ ์ฅฌ๋ฐ์ ํ์ ๊น๋ค๋ก์ด ๋ฌธ์ ๋ฅผ ํด๋ช
ํ๊ณ , ๋
์์ ์ง๋ฌธ์ ๋ตํ๋ฉฐ, ์ด ์ฐ๊ตฌ ๋ถ์ผ์ ์ต๊ทผ ์ง์ ์ ํ๋์ ๋ณผ ์ ์๋ ์๊ฐ์ ์ ๊ณตํฉ๋๋ค. ์ธ๊ณผ๊ด๊ณ๋ ๋ค์ํ ๋ถ์ผ์ ํ์๊ณผ ์ ๋ฌธ๊ฐ๋ค์ด ๊ด์ฌ์ ๊ฐ์ง ๋งํ ์ฃผ์ ์
๋๋ค. ๋ฐ์ดํฐ์์ ์๋ฏธ ์๋ ๊ด๊ณ๋ฅผ ๊ท๋ช
ํ๊ณ , ํ๋๊ณผ ์ ์ฑ
์ ํจ๊ณผ๋ฅผ ์์ธกํ๊ณ , ๋ณด๊ณ ๋ ์ฌ๊ฑด์ ๋ํ ์ค๋ช
์ ํ๊ฐํ๊ณ , ์ธ๊ณผ๊ด๊ณ ์ดํด์ ์ธ๊ณผ๊ด๊ณ ์ฐ์ค์ ๋ํ ์ด๋ก ์ ํ์ฑํ๊ณ ์ ํ๋ ์ฌ๋์ด๋ผ๋ฉด ๋๊ตฌ๋ ์ด ์ฑ
์ ํตํด ์๊ทน์ ๋ฐ๊ณ ๊ท์คํ ์ ๋ณด๋ฅผ ์ป์ ์ ์์ ๊ฒ์
๋๋ค."
๋ ์ฑ
๋ชจ๋ ํ๊ตญ์ด ๋ฒ์ญ์๋ ์์ง ์๋ ๋ฏํฉ๋๋ค.
Causality
https://www.amazon.com/Causality-Reasoning.../dp/052189560X
The Book of Why: The New Science of Cause and Effect
https://www.amazon.com/Book-Why-Science.../dp/046509760X
To help close this resource gap, weโre announcing today the a16z Open Source AI Grant program. Weโll support a small group of open source developers through grant funding (not an investment or SAFE note), giving them the opportunity to continue their work without the pressure to generate financial returns.
Weโre also announcing the first batch of grant recipients and funded projects:
โข Jon Durbin (Airoboros): instruction-tuning LLMs on synthetic data
โข Eric Hartford: fine-tuning uncensored LLMs
โข Jeremy Howard (fast.ai): fine-tuning foundation models for vertical applications
โข Tom Jobbins (TheBloke): quantizing LLMs to run locally
โข Woosuk Kwon and Zhuohan Li (vLLM): library for high-throughput LLM inference
โข Nous Research: new fine-tuned language models akin to the Nous Hermes and Puffin series
โข oobabooga: web UI and platform for local LLMs
โข Teknium: synthetic data pipelines for LLM training
We want to thank them for their contributions to the field, and for fostering open collaboration, learning, and advancement in AI.
However, the people behind these projects often donโt have the resources available to pursue their work to conclusion or maintain it in the long run. The situation is more acute in AI than traditional infrastructure, since even fine-tuning models requires significant GPU computing resources, especially as open source models get larger.
๋ชจ์์ ์งง์ ์์ฝ ใ
ใ
https://trevari.co.kr/events/show?eventID=3017cd79-5bd1-4316-9c45-a070fa084bdd
์๋ฉด ์์ ์ด๋ -> ์ฌ๋ ์ฑ
-> ๋ณต๋ฆฌํจ๊ณผ -> ํ๋ฆฌํฐ์๋ ์์ฌ๊ฒฐ์ -> ๋ ๋ฒ๋ฆฌ์ง -> ์ด๊ณผ ๋ฆฌ์คํฌ ํ
์ดํน
==> ์ธ์์์ ์ํ๋๊ฒ
1. ์๋ฉด, ์์, ์ด๋์ด ์ธ์์ ํ ์์ด๋ค. ์ด๊ฒ ๋์ผ ๋ค๋ฅธ ์ผ๋ ๋ ์ํ๋ค.
2. ์ข์ ์ฌ๋๊ณผ, ์ข์ ์ฑ
์ ๊ณ์ ๋๋ค๋ณด๋ฉด ์ข์ ์์ฌ๊ฒฐ์ ์ ํ ์ ์๋ ์ค๋ ฅ์ด ๋๋ค.
3. ์ข์ ์์ฌ๊ฒฐ์ ์ ํด์ผ ๋ฆฌ์คํฌ ํ
์ดํน์ ์ํ ์ ์๊ณ ์ด๋ ๋ฐ๋ผ์ฌ ์ ์๋ค.
4. ๋ ๋ฒ๋ฆฌ์ง๋ฅผ ํ๋ฉด์ ๋ถ๊ฐ ๋ช๋ฒ์ฉ ํฌ๊ฒ ์ฑ์ฅํ๋ค.
5. ์ด์ ๋์ด๊ธฐ ์ํ ๋
ธ๋ ฅ์ ํ๋ค. ์น์ ํ๊ณ ์ฃผ๋ณ์ฌ๋๋ค์๊ฒ ์ต์ ์ ๋คํ๊ณ ํ๋ฃจํ๋ฃจ ์์๊ฐ๋ ์์ญ์ด๋ค.
6. ์ด/์ข์ ์์ฌ๊ฒฐ์ / ๋ ๋ฒ๋ฆฌ์ง ๋ชจ๋ ๋ณต๋ฆฌํจ๊ณผ(Compound interest)๊ฐ ์๋ค.
7. ๊ถ๊ทน์ ์ผ๋ก ์ธ์์์ ์ํ๋ ์ผ์ ํ๋ฉด์ ์ ์ฌ๋ ๊ฒ ์ค์ํ๋ค. ๊ฑด๊ฐ-> ๋ถ -> ๋ฏธ์
Repost from BZCF | ๋น์ฆ๊นํ
๋ฏธ๊ตญ ๋๋จํ ์ด์ ๋ 10์กฐ ๋๋ ์ด๋ฐ ํ์ฌ๋ค ๊ณ์ ๋ฑ์ฅํ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ์๊ฐํ๋ค. 10์กฐ ํ์ฌ๋ฉด ์ฝ์คํผ๋ก ๋น์ฅ ๋ค์ด์๋ 30์ ๊ถ... ์ฝ๋ก๋ ๋๋ 90์กฐ ๊ฐ๊น์ด ๋ฐธ๋ฅ ๋จน์ด์ ์ต๊ณ ์ ๋๋นํ๋ฉด ์์ฃผ ๋ง์ด ๊บพ์์ง๋ง ๊ทธ๋๋ ์์ง๋ 10์กฐ. ์ฐฝ์
์๋ ์์งํ๊ณ ๋ํํ๋ ์คํ์ผ๋ ์์ํ๋ค. ๋ฏธ๊ตญ์๋ ์ด๋ฐ ํ๋ฅญํ ๊ธฐ์
๋ค ๊ณ์ ๋์ค๋ ์ด์ ๊ฐ ์์ฅ ํฌ๊ธฐ ๋นผ๊ณ ๋ ๋ฌด์ ๋๋ฌธ์ผ๊น?
https://youtu.be/9TmnCo8zhCA?si=fXBcjtc-TCAcx1Iu
Do we really need a dedicated vector store?
This new study suggests that "from a simple costโbenefit analysis, there does not appear to be a compelling reason to introduce a dedicated vector store into a modern โAI stackโ for search, since such applications have already received substantial investments in existing, widely deployed infrastructure."
There are definitely cost benefits with the proposed alternative (HNSW indexes in Lucene). There is a nice analysis/comparison with alternatives in the paper. Not sure how widely applicable the insights from the experimental results are but still a great read, especially if you are looking to integrate LLMs with external knowledge or memory.
It's also interesting to see the use of Lucene as a counterpoint. I've used Lucene-dependent solutions in the past but they have been notably slow to adapt to new trends in representation learning. That is changing fast.
paper: https://arxiv.org/abs/2308.14963
I also provide weekly summaries of the latest and most important AI research and developments here: https://nlp.elvissaravia.com/
์ต๊ทผ ๋ช๋ช ๋น
ํ
ํฌ์ AI ์ ํ ๊ด๋ จ๋ ๋ฐํ๋ค์ ๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ ๋๋
OpenAI: ๋๊ฐ ๋ญ๋ผ๋ ๋ง์ด์จ์ด
MS: MS์ ๊ทผ๋ณธ์ธ ์
๋ฌดํด์ ๋ํ ์
์ง๋ฅผ ๋์ฑ ๊ณต๊ณ ํ ํ๋ ค ํจ
Google: ์ C๋ฐ ๋ชจ๋ฅด๊ฒ ๊ณ ์ผ๋จ ๋จ๋ค์ด ํ๋ ๊ฑฐ ๋ค ํจ
Meta: ๋น์งํธ์ด
Amazon: ์ด๊ธฐ๋ ํธ ์ฐ๋ฆฌ ํธ
๐คฃ๐คฃ
์ฌํด 3์๋ถํฐ AI๋ฅผ ๊ณต๋ถํ๊ธฐ ์์ํ๋ฉด์ ๊ณผ๊ฑฐ ์ปดํจํฐ๊ฐ ์ง๊ธ์ ์ ์ฐ์
์์ ์ฌ์ฉ๋๋ ๊ฒ์ฒ๋ผ ๊ทธ๊ฒ๋ณด๋ค ๋ ํฐ ์ํฅ์ ์ค ๊ฑฐ๋ผ๊ณ ์์ํฉ๋๋ค. ์์ผ๋ก 3-5๋
์ด ์ผ๋ง๋ ๋น ๋ฅด๊ฒ ๋ฐ๋์ง ์ด๋ป๊ฒ ๋ฐ๋์ง ์์ํ๊ณ ๊ทธ ๋ณํ๋ฅผ ๋ง๋ค์ด๊ฐ๋ ๊ฒ์ ์์ฃผ ์ค๋ ๋ ์ผ์ธ ๊ฒ ๊ฐ์ต๋๋ค.
์ฐฝ์
์์ ๊ด์ ์ด์ธ์๋ ํฌ์์์ ๊ด์ ์์ ์ด ๋ณํ๋ฅผ ์ด๋ป๊ฒ ๋ฐ๋ผ๋ณด๋ฉด ์ข์๊น์? ์ธํฐ๋ท, ๋ชจ๋ฐ์ผ, ํด๋ผ์ฐ๋ ์จ์ด๋ธ๋ฅผ ์ค๋ซ๋์ ๊ฒฝํํ์ Storm Ventures์ ๋จํํฌ ๋ํ๋์ ๋ชจ์๊ณ 'AI ์๋ ์ด๋์ ํฌ์ํด์ผ ํ ๊น?'์ ๋ํด์ ์ด์ผ๊ธฐํด ๋ณด๋ ค๊ณ ํฉ๋๋ค.
์ผ๋ฐฉ์ ์ธ ๊ฐ์๋ณด๋ค๋ AI ํฌ์์ ๋ํด์ ๊ฐ์ง๊ณ ์๋ ์ฌ๋ฌ ์๊ฐ๋ค์ ์์ ๋กญ๊ฒ ๋๋ ์ ์๋ ์๋ฆฌ๋ก ๋ง๋ค์ด๋ณด๋ ค๊ณ ํฉ๋๋ค. AI์ ํฌ์ ๋ ๊ฐ์ง์ ์ง์ฌ์ด์ ๋ถ๋ค์ ๋ชจ์๋ ๋ง์ ๊ด์ฌ ๋ถํ๋๋ ค์ ๐ค
[AI ์๋ ์ด๋์ ํฌ์ํด์ผ ํ ๊น?_Storm Ventures x AGI Town in Seoul]
AI ๊ธฐ์ ์ ๋ฏธ๋์ ํฌ์์ ๊ดํ ์ค์ํ ํ ๋ก ์ ์ํ ๋ฐ์
์ ์ฃผ์ตํฉ๋๋ค. ์คํฐ๋ฒค์ฒ์ค(Storm Ventures)์ ๋จํํฌ ๋ํ๋์ ๋ชจ์๊ณ , AI ํฌ์์ ์ฐฝ์
์ ๊ด์ฌ ์๋ ๋ถ๋ค๊ณผ ํจ๊ป ์๊ฒฌ์ ๋๋ ์์ ์
๋๋ค.
๐
์ผ์: 2023๋
9์ 4์ผ, ์คํ 7-9์
๐ ์ฅ์: ํ์คํ๋ฅดํ ์คํผ์ค (https://goo.gl/maps/Ec88AykC21ZWr7jL7)
๐ค ํ์ํ
์ด๋ธ:
- ์ฐธ์ฌ์ ์๊ฐ (30๋ถ)
- ๋จํํฌ ๋ํ๋: AI ํธ๋ ๋์ ๊ธฐํ (30๋ถ)
- Q&A ๋ฐ ์์ ํ ๋ก
์ข์์ 20์์ผ๋ก ํ์ ๋์ด ์์ผ๋ฉฐ, ์ฐธ๊ฐ ํ์ ์ 9์ 2์ผ๊น์ง ์ด๋ฉ์ผ๋ก ์๋ ค๋๋ฆฝ๋๋ค. ์ด ํ์ฌ๋ ์์ด๋ก ์งํ๋ฉ๋๋ค.
@Minjoo Kim ๋๊ป์ ๋์์ฃผ์
์ ์งํํ ์ ์๊ฒ๋ ์ธ์
์
๋๋ค ๐
๐์ฐธ๊ฐ์ ์ฒญ: https://forms.gle/2Sbg1RLVsiL24JcW8
์ง๋ 3์์ ์ ๋ฆฌํ๋ ๋
ธํธ: https://www.notion.so/matthewcontinuouslearning/AI-Trend-101-March-28-723c41aa1ca54903a270c6801b3724fe?pvs=4
Long context์ ๋ํ ์๊ฐ.
์ฌ์ค long context๊ฐ ํ์ํ์ง ์์ ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋ค๋ฉด (๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ก๊ณผ ์ธ์ถ ๋ฉ์ปค๋์ฆ์ด ๋ค์ด๊ฐ๋ค๊ฑฐ๋) ๊ทธ๊ฒ ์ต์ ์ผ ๊ฒ ๊ฐ์ง๋ง ๋พฐ์กฑํ ๊ทธ๋ฐ ๋ฐฉ๋ฒ์ด ์๋ค๋ ์ํฉ์ ์ ์ ํ์ ๋ long context๋ฅผ ์ ๋ค๋ฃฐ ์ ์์ด์ผ ํ๋ค๋ ํ์๋ ์ถฉ๋ถํด ๋ณด์ธ๋ค.
์์ technical report๊ฐ ๋ค ๊ทธ๋ ๋ฏ ๋ฑํ ์ ๋ณด๊ฐ ์๋ Claude 2 Technical Report (https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf) ์ง๋ง, ๊ฐ์ฅ ๋์ ๋๋ ๊ฒ์ด ์๋ค๋ฉด 100K ๋ชจ๋ธ์ ํ ํฐ ์์น์ ๋ฐ๋ฅธ loss ๊ทธ๋ํ์ด๋ค. 100K๋ฅผ ๋์ด 200K ๊น์ง๋ loss์ ์์น ์์ด ์ ์ง์ ์ผ๋ก loss๊ฐ ๊ฐ์ํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
์ด๊ฑธ ๋์ฒด ์ด๋ป๊ฒ ํ ๊ฑธ๊น? OpenAI์ Anthropic๋ง ์๊ณ ์๋ ๋น๋ฐ์ด ์๋ ๊ฒ ๊ฐ๊ธด ํ๋ค. ๊ทธ๋๋ ๊ณต๊ฐ๋ ๋ฐฉ๋ฒ ์ค์์ ๊ฐ์ฅ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ ๊ฒ์ positional embedding์ ์กฐ์ํ๋ ๋ฐฉ๋ฒ์ด๋ค. (https://kaiokendev.github.io/context, https://arxiv.org/abs/2306.15595) positional embedding์ extrapolation ํ๋ ์ํฉ์์๋ ํธ๋์คํฌ๋จธ๊ฐ ์ ์๋ํ์ง ์์ง๋ง positional embedding์ ์ชผ๊ฐ interpolation ํ๋ ์ํฉ์์๋ ๊ด์ฐฎ์ง ์์๊น ํ๋ ๊ฒ. ๊ฒฐ๊ณผ์ ์ผ๋ก๋ ๋ ๋ง๊ฐ์ง๋ ์ ๋์ ๊ฒฐ๊ณผ๋ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
๊ทธ๋ฆฌ๊ณ Coda Llama๊ฐ ๋ฑ์ฅํ๋ค. (https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/) Code Llama์์๋ positional embedding์ ์กฐ์ํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋๋ฐ, ์ฌ๊ธฐ์๋ RoPE์ ํน์ฑ์ ํ์ฉํด sinusoidal embedding์ ์ฃผํ์๋ฅผ ์กฐ์ํ ๋ค์ long context ์ํ์ ๋ํด์ ํ์ธํ๋ํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค. Claude 2 ์์์ฒ๋ผ ๊ฒฐ๊ณผ์ ์ผ๋ก 100K ๊น์ง perplexity๊ฐ ๊ฐ์ํ๋ ์์ ๊ทธ๋ํ๋ฅผ ์ป์ ์ ์์๋ค.
์ฌ๊ธฐ์ ํ ๊ฐ์ง ์ง์ด๋ณผ๋งํ ๊ฒ์ ์ด๋ ๊ฒ ์งง์ ๊ธธ์ด์์ ํ๋ฆฌํธ๋ ์ด๋ํ๊ณ ๊ธด ๊ธธ์ด์ ๋ํด ํ์ธํ๋ ํ๋ ๊ฒ์ Shortformer (https://arxiv.org/abs/2012.15832) ์์ ๋ํ๋ ๊ฒ์ฒ๋ผ ํจ์จ์ ์ผ ๋ฟ๋ง ์๋๋ผ ์คํ๋ ค ์ฑ๋ฅ์ ํฅ์์ํฌ ์๋ ์๋ค๋ ๋ถ๋ถ์ผ ๋ฏ ์ถ๋ค.
๊ทธ๋ฐ๋ฐ ์ด๊ฒ ์๋ฏธ๊ฐ ์๋ ๊ฒ์ผ๊น? perplexity๊ฐ 0.1 ๋จ์ด์ง๋ค๋ ๊ฒ์ด ์ด๋ ์ ๋ ์๋ฏธ์ธ๊ฐ? ๋ฌผ๋ก perplexity 0.1์ ๋ชฉ์จ์ ๊ฑธ์ด์ผ ํ๋ ์ํฉ์ด๊ธด ํ์ง๋ง, ์ด์จ๋ long context ๋ฌธ์ ์ ๋ํด์ ์์ฃผ ๋ง์ ์ ๋ณด๋ฅผ ์ฃผ๋ ๊ฒ ๊ฐ์ง๋ ์๋ค. ์ต์ํ ๋ง๊ฐ์ง์ง๋ ์๋๋ค ์ ๋์ ๊ฒฐ๊ณผ๋ผ๊ณ ํ ์ ์๊ฒ ๋ค.
๊ทธ๋์ Coda Llama์์๋ (ํํ ํ๋ ๊ฒ๊ณผ ๋น์ทํ) Key Retrieval ๊ณผ์ ๋ฅผ ์ํํ๋ค. ํน์ ํ ์์๋ฅด ๋ฆฌํดํ๋ ํจ์๋ฅผ ์
๋ ฅํด์ฃผ๊ณ , ๊ธธ์ด์ ๋จ์ด์ง ์ง์ ์์ ๊ทธ ํจ์์ ๊ฐ์ ์์ธกํ๋๋ก ํ๋ ๊ฒ์ด๋ค. ํจ์์ ์ง์๊ฐ ์ผ๋ง๋ ๋จ์ด์ ธ ์๋๊ฐ์ ๋ฐ๋ผ long context์ ๋ํ ๋์ ๋ฅ๋ ฅ์ ๋๊ฐ ๊ฐ๋ ํ ์ ์๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก ํ์ธํ๋ํ 16K context ๋ด์์๋ ์ ๋๋ ๊ฒ์ผ๋ก ๋ณด์ด๊ณ , ๊ทธ๊ฑธ ๋์ด๊ฐ๋ฉด ์์ ํ ์ ๋๋ ๊ฒ ๊ฐ์ง๋ ์์๋ฐ ๊ฑฐ์ ์ ๋๋ ๊ฒ ๊ฐ์ ๊ฒฝ์ฐ๋ ๋ฐ์ํ๋ค. perplexity ๊ฐ์์๋ ๋ณ๊ฐ๋ก ์ํ๋ ๋๋ก ์์ง์ฌ์ฃผ์ง๋ ์๋ ๊ฒ ๊ฐ๋ค.
๊ทธ ์ด์ ๊ฐ ๋ฌด์์ผ๊น? ์๊ธฐ๋ ์ด๋ ต์ง๋ง attention์ด extrapolation ์ํฉ์์ ๋ง๊ฐ์ง์ง ์๋๋ค๋ ๊ฒ๊ณผ ํจ๊ป attention์ด long context ์ํฉ์์๋ ๊ฐ ํ ํฐ์ ์ ๊ตฌ๋ถํ ์ ์๋ ๋ฅ๋ ฅ์ด ํ์ํ์ง ์์๊ฐ ์ถ๋ค. ํ ํฐ ์๋ฒ ๋ฉ์ ๊ทธ๋ฅ ํ๊ท ๋ด๊ธฐ๋ง ์๋ฏธ๊ฐ ์๋ ๊ฒ์ฒ๋ผ, attention์ด ํ ํฐ๋ค์ ๋๊ฐ ๋ญ๋ฑ๊ทธ๋ฆฐ๋ค๊ณ ํด๋ ์๋ฏธ๋ ์์ ๊ฐ๋ฅ์ฑ์ด ์๊ณ , ์ฑ๋ฅ์ ํฅ์์ด ์์ ์๋ ์๋ค. ๊ทธ๋ ์ง๋ง ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฒ์ฒ๋ผ ํ ํฐ๋ค์ ์ธ๋ถ์ ์ผ๋ก ๊ตฌ๋ถํด์ ๋ฐ์ํ๋ ์ ๋์ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์ง ๋ชปํ ์๋ ์๋ค. (https://arxiv.org/abs/2212.10554) ๊ทธ๋์ positional embedding์ ๋ํ ์ดํด๊ฐ ์ข ๋ ํ์ํ ๋ฏ ์ถ๋ค.
์ด๋ ๊ฒ ๋ชจ๋ธ์ด long context๋ฅผ ์ ๋ชจ๋ธ๋ง ํ ์ ์๋๊ฐ์๋ ๋ณ๊ฐ๋ก long context์ ๋ํด ํ์ต์ ์ํฌ ์ ์๋๊ฐ ํ๋ ๊ฒ๋ ๋ฌธ์ ๊ฐ ๋๋ค. ์๋ฅผ ๋ค์ด data parallel์ ๋ฐฐ์น ์ถ์ผ๋ก ์ํ๋ค์ ์ชผ๊ฐ๋ ๊ฒ์ฒ๋ผ sequence ์ถ์ผ๋ก๋ ์ํ์ ์ชผ๊ฐ์ parallelํ๊ฒ forward ํ ์ ์๋ค๋ฉด ์ด๋จ๊น ํ๋ ์๊ฐ์ ํด๋ณผ ์๋ ์๊ฒ ๋ค. ์ฌ์ค ํธ๋์คํฌ๋จธ๋ attention์ ์ ์ธํ ๋ค๋ฅธ ๋ชจ๋ ๋ ์ด์ด๋ sequence ๋ฐฉํฅ์ ๋
๋ฆฝ์ ์ด๊ธฐ ๋๋ฌธ์ attention๋ง ์ด๋ป๊ฒ ํ๋ฉด(?) ๊ฐ๋ฅํ ์ ์๋ค.
Megatron-LM (https://arxiv.org/abs/2205.05198) ๊ฐ์ ๊ฒฝ์ฐ์๋ sequence parallel์ด ๋ค์ด๊ฐ ์๊ธด ํ์ง๋ง, ์ด์ชฝ์ attention๋ณด๋ค๋ layer norm ๋ฑ์์ ๋ฐ์ํ๋ activation์ ์ชผ๊ฐ๋ ๊ฒ์ด๋ผ๊ณ ๋ณด๋ ์ชฝ์ด ๋ง์ง ์์๊น ์ถ๋ค. ์์ attention์ ์ชผ๊ฐ๋ ๋ฐฉํฅ์ผ๋ก๋ ring self attention (https://arxiv.org/abs/2105.13120) ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด ๋์์๊ณ , ๋ ์ต๊ทผ์๋ all-to-all communication์ ์ฌ์ฉํ ๋ ๋จ์ํ ๋ฐฉ๋ฒ์ด deepspeed์ ๋ค์ด์ค๊ธฐ๋ ํ๋ค. (https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-ulysses) ์ํ์ค๋ฅผ ์ชผ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์
๋ ฅํด์ค์ผ ํ๋ ๋ถ๋ถ์ด ํ์ํ๊ธด ํ์ง๋ง ๊ทธ ์ธ์ ๋ํด์๋ all-to-all์ ์ฌ์ฉํ ๋ฐฉ๋ฒ์ ๊ตฌํ์ด ์ ๋ง ๋จ์ํ๋ค. (https://github.com/microsoft/DeepSpeed/blob/master/deepspeed/sequence/layer.py) all-to-all๋ก qkv๋ฅผ ๋ฟ๋ ค์ค ๋ค์ output์ ๋ค์ all-to-all๋ก ์๋ณต์ํค๋ ๋ฐฉ์.
Endi mavjud! Telegram Tadqiqoti 2025 โ yilning asosiy insaytlari 
