Continuous Learning_Startup & Investment
Open in Telegram
We journey together through the captivating realms of entrepreneurship, investment, life, and technology. This is my chronicle of exploration, where I capture and share the lessons that shape our world. Join us and let's never stop learning!
Show more2 309
Subscribers
No data24 hours
-87 days
-3130 days
Posts Archive
DeepSeek์์ ๋์จ ํ
ํฌ๋์ปฌ ๋ฆฌํฌํธ๋ค์ ๋ํ ๊ธ์ ์ด์ ์ ์ด ์ ์ด ์์๋ค. (https://rosinality.substack.com/p/deepseek-llm) ์ง๊ธ DeepSeek-V3๊ฐ ๋์จ ์์ ์์ ๋๋ ์๊ฐ์ด ์์ด ๊ทธ๊ฑธ ์จ๋ณผ๊น ํ๋ค.
์ข์ LLM์ ๋ง๋ค๊ธฐ ์ํด์๋ ๋ฌด์์ด ํ์ํ ๊น? ์ข์ ์ํคํ
์ฒ์ ํ์ต ๊ธฐ๋ฒ, ์ข์ ๋ฐ์ดํฐ, ์ข์ ์ธํ๋ผ์ผ ๊ฒ์ด๋ค.
์ข์ ์ํคํ
์ฒ๋ ๋ฌด์์ผ๊น? ์ผ๋จ ์ถ๋ก ์ ๋
ผ์ธ๋ก ํ๋ฉด ๊ฐ์ ์ฐ์ฐ๋์์ ๋ ๋์ ์ฑ๋ฅ์ ๋๋ฌํ๋ ๊ฒ์ด๋ค. ์ด ๋ฌธ์ ์์ ํธ๋์คํฌ๋จธ์์ ๊ฐ์ฅ ๊ฐ๋ฅ์ฑ ์๋ ๋ฐฉํฅ ์ค ํ๋๊ฐ MoE์ด๋ค. ๊ทธ๋์ MoE ์ฐ๊ตฌ๋ฅผ ํ๊ณ (https://arxiv.org/abs/2401.06066) MoE์ ์ด์ ์ค ํ๋์ธ ๋ก๋ ๋ฐธ๋ฐ์ฑ ๋ฌธ์ ์ ๋ํ ๊ฐ์ ์ ํ๋ค. (https://arxiv.org/abs/2408.15664) DeepSeekMoE์ Fine grained Expert์ ์ด์ ํ์ค์ ์ด๋ค.
์ถ๋ก ์์ ๊ฐ์ฅ ํฐ ๋ฌธ์ ๋ ๋ฌด์์ผ๊น? Key/Value ์บ์์ ํฌ๊ธฐ์ผ ๊ฒ์ด๋ค. ๊ทธ๋์ MLA๋ฅผ ๊ฐ๋ฐํ๋ค. (https://arxiv.org/abs/2405.04434)
์ด๋ฐ ํํ์ ์ํคํ
์ฒ ๊ฐ์ ์ ์ฌ์ฉํ๋ฉด ์ผ๋ฐ์ ์ธ Llama์๋ ํธํ๋์ง ์๊ฒ ๋๋ค. ๊ทธ๋ฌ๋ Llama ์ํคํ
์ฒ์์ ํธํ์ฑ์ ํตํด์ ์ป์ ์ ์๋ ๊ฒ์ (์ถ๋ก ์์ง์ฉ ์ฝ๋๋ฅผ ์์ฑํ๋ ๋ฑ) ์ง์ ํ๋ค๋ฉด ์ํคํ
์ฒ์ ๊ฐ์ ์ผ๋ก ์ป์ ์ ์๋ ์ด์ต์ ์ป์ ์ ์๋ค. ์ด๋ฅผ ๋ค์ง์ผ๋ฉด ์ฝ๋ ์์ฑ์ ํผํ๊ธฐ ์ํด์ ํธํ์ฑ์ ์ถ๊ตฌํ๋ ๊ฒ์ผ๋ก ์ํคํ
์ฒ์ ์ด์๋ฅผ ์ ํํ๊ณ ์์ ์ ์๋ค๋ ๊ฒ์ด๋ค.
ํ์ต ๊ธฐ๋ฒ์ ๋ํด์๋ GRPO ๊ฐ์ ์ ๋ ฌ๊ณผ ํ์ ๋ฐฉ๋ฒ๋ค. (https://arxiv.org/abs/2402.03300, https://arxiv.org/abs/2312.08935, https://arxiv.org/html/2408.08152), ๊ทธ๋ฆฌ๊ณ DeepSeek-V3์์์ Multi Token Prediction ๊ฐ์ ๋ฐฉ๋ฒ.
๊ทธ๋ฆฌ๊ณ ์์ฆ ๋ํ ์ธ๊ธฐ ์๋ ๋ฐฉ๋ฒ์ธ Scaling Law๋ฅผ ํตํ ํ์ดํผํ๋ผ๋ฏธํฐ ์ถ์ ๋ DeepSeek LLM์์ ๋ฑ์ฅํ๋ค.
์ข์ ๋ฐ์ดํฐ๋? DeepSeek LLM์์๋ถํฐ Common Crawl์ ์ง์ ์ฒ๋ฆฌํ๊ณ (https://arxiv.org/abs/2401.02954) DeepSeek-Coder์์๋ ์ฝ๋ ๋ฐ์ดํฐ๋ฅผ ์ง์ ์ฒ๋ฆฌํ๊ณ Dependency ๊ธฐ๋ฐ ์ ๋ ฌ์ ๋์
ํ์ผ๋ฉฐ (https://arxiv.org/abs/2401.14196) DeepSeekMath์์๋ ์ด์ ๊ฑฐ์ ํ์ค์ ์ธ ๋ฐฉ๋ฒ์ธ Common Crawl์์ ์ํ ๊ด๋ จ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐ ์์งํ๋ ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ๋ค. (https://arxiv.org/abs/2402.03300) ๊ทธ๋ฆฌ๊ณ DeepSeek-V2๋ฅผ ๊ฑฐ์น๋ฉด์ ๋ฐ์ดํฐ์ ๊ท๋ชจ๋ ๊ณ์ ์ฆ๊ฐํ๋ค.
ํ์ต ์ธํ๋ผ์ ๋ํด์๋? DeepSeek-V2์์ Zero-Bubble Pipeline Parallel์ ์ด๋ฏธ ๋์
ํ๊ณ (https://arxiv.org/abs/2401.10241) DeepSeek-V3์์๋ Pipeline Parallel ์ค์ผ์ค, MoE๋ฅผ ์ํ All-to-All ํต์ ์ ์ต์ ํ, FP8 ํ์ต์ ์ํ Quantization ๋ฐฉ๋ฒ์ ๊ฐ์ ๋ฑ์ด ํฌํจ๋์๋ค.
๊ทธ๋ฆฌ๊ณ ์ด๋ฐ ๊ณผ์ ๋ค์ ๊ฑฐ์ณ DeepSeek-V3๊ฐ ๋ฑ์ฅํ๋ค. ์ฌ์ค DeepSeek LLM์ ํ
ํฌ๋์ปฌ ๋ฆฌํฌํธ์ ํ๋ฆฌํฐ์๋ ๋ณ๊ฐ๋ก ๊ทธ ์์ ์์ Mistral 7B ๊ฐ์ ๋ชจ๋ธ์ ๋นํด ๊ทธ๋ ๊ฒ ๊ณ ์ฑ๋ฅ์ธ ๋ชจ๋ธ์ ์๋์๋ค. Llama 1 ์ ๋์ ๋ชจ๋ธ์ด์๊ธฐ ๋๋ฌธ์.
๊น์ฑํ๋
Deepseek has over 50k Hopper GPUs to be clear.
Dylan Patel
https://x.com/dylan522p/status/1859302712803807696
50k H100 GPU: ํ๊ท 2000~4000๋ง์ ๊ธฐ์ค 1~2์กฐ
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
๋จ์ง RL(๊ฐํํ์ต)๋ง์ผ๋ก Instruct Model์ Reasoning Model๋ก ๋ณํ
๊ธฐ์กด DeepSeek-V3 Base๋ฅผ ๋์์ผ๋ก ์ ํ SFT ์์ด RL๋ง์ ์ ์ฉํ์ฌ, โDeepSeek-R1-Zeroโ๋ผ๋ ์์ํ ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ง๋ค์๋ค.
โ์ด ๋ชจ๋ธ์ด ๊ณผ์ฐ, ์ธ๊ฐ์ด ์ฃผ์
ํด์ค ์ ๊ตํ ์ง๋ ๋ฐ์ดํฐ ์์ด๋ ๊น์ด ์๋ Reasoning์ ์ต๋ํ ์ ์๋๊ฐ?โ๋ผ๋ ์๋ฌธ์์ ์ถ๋ฐํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก R1-Zero๋ ๋๋ ๋งํผ ๊ฐ๋ ฅํ Reasoning ๋ฅ๋ ฅ์ ๋ฐํํ๊ธฐ ์์ํ๋ค.
์๋๋ โ์ฌ๋์ด ๋จผ์ CoT ์์๋ฅผ ๋๊ท๋ชจ๋ก ๋ถ์ฌ ๋ชจ๋ธ์ ๊ต์ (SFT)ํด์ผ ํ๋คโ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด์๋ค.
ํ์ง๋ง DeepSeek-R1-Zero๋ โSFT ์๋ ๋๊ท๋ชจ RLโ๋ง์ผ๋ก๋ ๊ธด ์ฌ๊ณ ๊ณผ์ ์ ์ฌ์ฉํด ๋ฌธ์ ๋ฅผ ํ๊ณ ๊ฐ์ ํด๋๊ฐ๋ค. โAha Momentโ๋ผ ๋ถ๋ฆด ์ ๋๋ก ๋ชจ๋ธ์ด ์ค์ค๋ก ๋ ๊น์ ๊ณ ์ฐฐ์ ํ๊ฒ ๋ ๊ฒ์ด๋ค.
์ด R1-Zero๋ก๋ถํฐ ์์ฑ๋ Reasoning ๋ฐ์ดํฐ์
์ ์ธ๊ฐ์ด ์ฝ๊ฐ ๋ณด์ ํ๊ณ , SFT+RL ๊ณผ์ ์ ์ถ๊ฐ
R1-Zero๊ฐ ๋ง๋ค์ด๋ธ ๊ธด Chain-of-Thought(CoT)๋ค ์ค ์ ์ฉํ ๊ฒ๋ง ๊ณจ๋ผ์ โCold Startโ๋ก ๋ถ๋ฆฌ๋ ์๊ท๋ชจ ๊ณ ํ์ง ๋ฐ์ดํฐ์
์ ๋ง๋ จํ๋ค.
์ด๋ฅผ ์์์ ์ผ๋ก ๋ค์ ํ ๋ฒ RL๊ณผ SFT ๋จ๊ณ๋ฅผ ๊ฑฐ์น์, ์ ๋ฐ์ ์ผ๋ก ํจ์ฌ ๋ ์ธ๊ฐ ์นํ์ ์ด๊ณ ๊ฐ๋
์ฑ๋ ๋ฐ์ด๋ ๋ชจ๋ธ์ธ โDeepSeek-R1โ์ด ํ์ํ๋ค.
์ฆ, ๋จ์ ๊ฐํํ์ต๋ง์ผ๋ก๋ ์์ฐ์ธ์ด ์ฌ์ฉ(๊ฐ๋
์ฑ, ํผ์ฉ์ด ๋ฌธ์ ๋ฑ)์ ์ด๋ ค์์ด ์์์ผ๋, ์๋์ ์ ์ ๋ CoT ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ์ฃผ์
ํจ์ผ๋ก์จ ์์ ์ฑ๊ณผ ํ์ง์ ๊ทน์ ์ผ๋ก ๋์ด์ฌ๋ ธ๋ค.
์ต์ข
์ ์ผ๋ก ๋ง๋ค์ด์ง 80๋ง(800k) ๊ฑด์ Reasoning ๋ฐ์ดํฐ๋ก, ์์ ๋ชจ๋ธ๋ RL ์์ด SFT๋ง์ผ๋ก ํฐ ์ฑ๋ฅ ํฅ์
์ด๋ ๊ฒ ๊ตฌ์ถํ 800k ๊ท๋ชจ์ ๊ณ ํ์ง Reasoning ๋ฐ์ดํฐ์
์ ํจ์ฌ ์์ ๊ท๋ชจ์ ๋ชจ๋ธ(Qwen, Llama ๋ฑ)์๋ ๋จ์ํ SFT๋ก๋ง ์ ์ฉํด๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค.
๋ฐ๋ฉด, ์์ ๋ชจ๋ธ์์๋ ๋์ผํ RL ๊ณผ์ ์ ์๋ฌด๋ฆฌ ์ค๋ ํด๋ ์ฑ๋ฅ ์ด๋์ด ๋งค์ฐ ๋ฏธ๋ฏธํ๋ค.
๊ฒฐ๋ก ์, โ์์์ (๋ฒ ์ด์ค ๋ชจ๋ธ)์ ํ์ง์ด ์ถฉ๋ถํ ์ข์์ผ RL์ ํด๋ ๋น์ ๋ฐํ๋คโ๋ ๊ฒ์ด๋ค. ๋ฒ ์ด์ค ๋ชจ๋ธ์ด ์์์๋ก, ๋๊ท๋ชจ RL ์์ฒด๊ฐ ์ค์ต์ด ํฌ์ง ์์์ ํ์ธํ๋ค.
๋ณด์์ ๋ช
ํ์ฑ์ด ๊ณง ์ฑ๋ฅ๊ณผ ํจ์จ์ ์ข์ฐํ๋ค
DeepSeek-R1 ์ฐ๊ตฌ์ง์ ํ๋ จ ํ์ดํ๋ผ์ธ์ ๋ถํ์ํ๊ฒ ๋ณต์กํ๊ฒ ๋ง๋ค์ง ์์๋ค. ์ฆ, โ์ค๋ต/์ ๋ต, ํฌ๋งท ์ค์ ์ฌ๋ถโ ๋ฑ ๋ช
ํํ ํ๋จ ๊ฐ๋ฅํ ์งํ๋ง์ผ๋ก ๋ณด์์ ์ค๊ณํ๋ค.
๋ณต์กํ PPO or PRM(Process Reward Model)๋ณด๋ค๋, โ๋ฑ ๋ง๋ ์๋๋โ๋ก ๊ฒฐ์ ๋๋ ์ง์ ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ต์ ์์ฃผ๋ก RL์ ์ค์ํ๋ค.
์ด๋ ์ฅํฉํ ๋ณด์ ์ค๊ณ(MCTS+Value Model, ์ธ๋ฐํ ์ค๊ฐ ๋จ๊ณ ์ฑ์ ๋ฑ)๋ณด๋ค ๋ ํจ๊ณผ์ ์ด์๊ณ , โ์ด ๋ฌธ์ ๋ฅผ ๋งํ๋๊ฐ? / ์ง์ ๋ ํ์์ ์ง์ผฐ๋๊ฐ?โ๋ผ๋ ๋ช
ํํ ๋ณด์๋ง์ผ๋ก๋ ์ค์ค๋ก Reasoning ๋ฅ๋ ฅ์ ๋ฐ์ ์์ผฐ๋ค.
Stage 1: (R1-Zero) Base ๋ชจ๋ธ + RL (SFT ์์ด)
DeepSeek-V3 Base๋ฅผ ๋ฐ๋ก RL ํ๋ จ์ ํฌ์
โ ์ ๋ต ์ฌ๋ถ, ํ์ ์ค์ ์ฌ๋ถ๋ก๋ง ํ๊ฐ(์ ํ๋๊ฐ ๊ณง ๋ณด์).
๋๊ท๋ชจ ์คํ
์ ๊ฑฐ์น๋ฉฐ Reasoning ๋ฅ๋ ฅ์ด ์ค์ค๋ก ์๊ฒจ๋จ(๊ทธ ์ธ ์ธ์ด ํ์ง ๋ฌธ์ ๋ ๊ณ ๋ ค X).
Stage 2: Cold Start ๋ฐ์ดํฐ ์์ฑ + SFT ํ RL (R1)
R1-Zero๋ก๋ถํฐ ์์ฑ๋ ๊ธด CoT ์ค โ์ฝ๊ธฐ ์ฌ์ด ํ์โ์ ์์๋ง ์์ฒ ๊ฑด ๋ชจ์์, ์ธ๊ฐ์ด ์กฐ๊ธ ๋ค๋ฌ์ด Cold Start ์ฉ SFT ์ํ.
์ด ์ด๊ธฐ ๋ชจ๋ธ๋ก ๋ค์ Reasoning ์ ์ฉ RL ์ํ โ ์ธ์ด ํ์ง ๋ฌธ์ (ํผ์ฉ์ดยท๊ฐ๋
์ฑ) ์ผ๋ถ ํด๊ฒฐ & ์ฑ๋ฅ ํฅ์.
ํ์ํ๋ค๋ฉด, RL ๋ง์ง๋ง ๋จ๊ณ์์ Rejection Sampling์ผ๋ก ์ ํํ ์๋ต๋ง ๊ณจ๋ผ ์๋ก SFT ๋ฐ์ดํฐ์
์ ๋ง๋ ๋ค, ์ ๋ฒ์ RL์ ์ฌ์คํ ํ๋ค.
Stage 3: Rejection Sampling์ผ๋ก ์ป์ ๋ฐ์ดํฐ + ์ถ๊ฐ ๋๋ฉ์ธ(SFT)
์ด์ RL ๊ฒฐ๊ณผ๋ฌผ์ ๋ฐํ์ผ๋ก ์ฝ 60๋ง ๊ฑด์ Reasoning ๋ฐ์ดํฐ + 20๋ง ๊ฑด์ ์ผ๋ฐ๋ฌธ์(์๋ฌธ, QA, ์๊ธฐ์๊ฐ ๋ฑ)๋ฅผ ๋ชจ์์, ์ต์ข
SFT ์ํ.
์ด๋ก์จ โReasoningโ๊ณผ โ์ผ๋ฐ ์ง์์๋ต, ์์ฑ๋ฅ๋ ฅโ์ ๋ชจ๋ ์ด๋ ์ ๋ ์ปค๋ฒํ๋ ๋ชจ๋ธ ์์ฑ.
Stage 4: Distillation (์์ ๋ชจ๋ธ๋ก ์ ์ด)
์ ๊ณผ์ ์์ ํ์ํ R1์ Reasoning ๋
ธํ์ฐ๊ฐ ๋ด๊ธด 80๋ง ์ํ์, Qwen-32B, Llama-70B ๋ฑ์ ๋ค์ํ ๋ชจ๋ธ์ โ๋จ์ Fine-Tuningโ๋ง ์ ์ฉํด๋ ๋๋ผ์ด ์ฑ๋ฅ ํฅ์์ด ํ์ธ๋จ.
RL ์์ด๋ ์ํ ๋ชจ๋ธ๋ค์ด Reasoning์ ์๋นํ ์ต๋ํจ.
๋ฐ๋ฉด, ์ด ์ํ ๋ชจ๋ธ๋ค์ ์ง์ RL์ ์ ์ฉํ๋ฉด ๋์ ๊ณ์ฐ ๋น์ฉ ๋๋น ํจ์จ์ด ๋จ์ด์ง(์คํ์ ์ฑ๋ฅ ์์น์ด ๋ฏธ๋ฏธ).
1. ์์์ (๋ฒ ์ด์ค ๋ชจ๋ธ)์ด ๋งค์ฐ ์ค์ํ๋ค
ํฐ ๋ชจ๋ธ์๋ค RL์ ์ ์ฉํด์ผ โ์ค์ค๋ก CoT๋ฅผ ๋ง๋ค์ด๋ด๋โ ๋น์ฝ์ ๋ฐ์ ์ด ๋ํ๋๋ค. ์์ ๋ชจ๋ธ๋ก๋ ๊ฐ์ RL ํฌ์๋ฅผ ํด๋ ํจ๊ณผ๊ฐ ํจ์ฌ ๋จ์ด์ง๋ค.
๋ณด์์ ๊ฐ๋จํ๊ฒ, ๋ช
ํํ๊ฒ ์ค์ ํ๋ผ
โ๋ต์ด ๋ง๋๊ฐ, ํ์์ด ๋ง๋๊ฐ?โ ์ ๋๋ก๋ ์ถฉ๋ถํ ์ง๋ํ์ต(ํน์ RL) ํจ๊ณผ๋ฅผ ๋ผ ์ ์๋ค.
๋ณต์กํ ์ค๊ฐ ๋จ๊ณ ๋ณด์(์: PRM, MCTS+Value Model)์ ๋ง์ ๋ฆฌ์์ค์ ๋ฆฌ์คํฌ(Reward Hacking)๋ฅผ ์ ๋ฐํ์ง๋ง ์ต์ข
์ ์ค์ต์ด ํฌ์ง ์์๋ค.
๋จ์ CoT ์์ฑ ๋ฅ๋ ฅ์ด ๋ชฐ๊ณ ์จ โ์๋ฐ์ ์๊ธฐ์ ์ (Reflection), Aha Momentโ
์ค์ค๋ก ์๊ฐ์ ์ฌํ๊ฐํ๊ณ (Reflection), ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ผ๋ก ๋ฌธ์ ํด๊ฒฐ์ ์๋ํ๋ฉฐ(Aha Moment) Reasoning ๋ฅ๋ ฅ์ ๊ธ๊ฒฉํ ํฅ์์ํค๋ ํ์์ด RL ์ค๊ฐ์์ ํฌ์ฐฉ๋์๋ค.
Future Works
Language Mixing ํด๊ฒฐ: ํ์ฌ๋ ์์ดยท์ค๊ตญ์ด์ ์ต์ ํ.
ํ๋ก์ ํธ ๊ท๋ชจ ํ์ฅ: ๋ ๋ฐฉ๋ํ ๋ฌธ์ ๋๋ฉ์ธ(์: SW ์์ง๋์ด๋ง, ๊ตฌ์กฐ์ ์ถ๋ ฅ, ๋ํํ ์์คํ
๋ฑ)์ ์ปค๋ฒํ๊ธฐ ์ํ RL/๋ฐ์ดํฐ์
ํ์ฅ์ด ๊ฐ๋ฅ.
Prompt Engineering ์ฐ๊ตฌ: R1 ๊ณ์ด์ few-shot prompt๋ณด๋ค zero-shot prompt์ ์ต์ ํ๋๋ ๊ฒฝํฅ. ์ถํ ์ด์ ๋ง์ถฐ ํ๋กฌํํธ ์ค๊ณ๋ฅผ ์ฌ๊ฒํ ํ ํ์๊ฐ ์๋ค.
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
1.1 ์ฃผ์ ๊ธฐ์ฌ (Contributions)
๊ฐํํ์ต ๊ธฐ๋ฐ ์ถ๋ก ์ฑ๋ฅ ํฅ์
์ง๋ ๋ฐ์ดํฐ ์์ด ์์ ๊ฐํํ์ต๋ง์ผ๋ก LLM ์ถ๋ก ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์ํ๋ ๋ฐฉ์ ์ ์(DeepSeek-R1-Zero).
์ด๋ก์จ SFT ์์ด๋ ๋ชจ๋ธ์ด ์ค์ค๋ก ๋ฐ์ฌ(reflection)ยท์์ฒด ๊ฒ์ฆ(self-verification) ๋ฑ ๊ณ ๊ธ ์ถ๋ก ํจํด์ ํ์ต ๊ฐ๋ฅํจ์ ์ค์ฆ.
AIME 2024 ๋ฒค์น๋งํฌ์์ pass@1 ๊ธฐ์ค 15.6% โ 71.0%๋ก ์์น, ํฉ์ํฌํ ์ 86.7%๋ก OpenAI-o1-0912์ ๊ทผ์ .
DeepSeek-R1 ํ์ต ํ์ดํ๋ผ์ธ ์ ์
์๋ โcold-startโ ๋ฐ์ดํฐ๋ฅผ ์ฐ์ ํ์ธํ๋ โ ๋๊ท๋ชจ RL โ Rejection Sampling + ์ง๋ํ์ต(SFT) โ ๋ค์ RL.
์ด๋ฐ ๋ค๋จ๊ณ ํ์ดํ๋ผ์ธ์ผ๋ก OpenAI-o1-1217๊ธ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ต์ข
๋ชจ๋ธ(DeepSeek-R1) ์์ฑ.
์ง์ ์ฆ๋ฅ(Distillation)๋ก ์ํ ๋ชจ๋ธ ์ถ๋ก ๋ ฅ ๊ฐํ
DeepSeek-R1์ด ์์ฑํ 80๋ง ๊ฑด ์ถ๋ก ๋ฐ์ดํฐ๋ฅผ QwenยทLlama ๋ชจ๋ธ(1.5B~70B)์ ์ ์ฉ ์, ์ง์ RL๋ณด๋ค ๋์ ์ถ๋ก ์ฑ๋ฅ ์คํ.
์) DeepSeek-R1-Distill-Qwen-14B๋ QwQ-32B-Preview๋ณด๋ค ์ฐ์, ์ผ๋ถ ์งํ๋ o1-mini์ ๋๊ธ.
1.2 ํ๊ฐ ๊ฒฐ๊ณผ ์์ฝ (Summary of Evaluation Results)
์ํยท๋
ผ๋ฆฌยท์ฝ๋ฉ
DeepSeek-R1:
AIME 2024์์ pass@1 ๊ธฐ์ค 79.8%, MATH-500์์ 97.3% ๋ฑ ์ต์์.
Codeforces ๋ ์ดํ
2029(์์ 96.3%).
์ํ ๋ชจ๋ธ ์ฆ๋ฅํ ์ญ์ AIMEยทMATH ๋ฑ์์ GPT-4oยทClaude-3.5-Sonnet ์ํํ๋ ์ฑ๋ฅ.
์ง์ยทQA
MMLU ๋ฑ ๊ต์กยท์์ ๋ถ์ผ์์ DeepSeek-R1์ด 90% ์ ํ ์ ์(์คํAI o1-1217๊ณผ ๊ทผ์ ).
GPQA Diamond(๊ณ ๊ธ QA)์์๋ 71.5%๋ก ์ฐ์.
์ ๋ฐ์ ์ง์ ํ๊ฐ
์์ธ์ดยท๋กคํ๋ ์ดยท์์ฝ ๋ฑ ๋ค์ํ ํ์คํฌ๋ฅผ GPT-4 ์ฌ์ฌ๋ก ํ๊ฐ(AlpacaEval2.0, Arena-Hard) โ DeepSeek-R1์ด DeepSeek-V3 ๋๋น ์ ๋ฐฉ์๋ก ์ฐ์.
๋ค๋ง Python API ์ฐ๋ ๋ฑ ์ค์ง์ ์์ง๋์ด๋ง ํ์คํฌ๋ ์ฐจ๊ธฐ ๋ฒ์ ์์ ๊ฐ์ ์์ .
2. ์ ๊ทผ ๋ฐฉ๋ฒ (Approach)
2.1 ์ ์ฒด ๊ฐ์
SFT ์์ด ๊ณง๋ฐ๋ก RLํ ๋ชจ๋ธ(DeepSeek-R1-Zero)๊ณผ, ์๋ Cold-start ํ RL ์งํ(DeepSeek-R1) ๋ ๊ฒฝ๋ก.
์ต์ข
์ ์ผ๋ก ์ง์ ์ฆ๋ฅ(Distillation)๋ก ์ํ ๋ชจ๋ธ(QwenยทLlama ์๋ฆฌ์ฆ)๋ ๊ณ ์ฑ๋ฅ ์ถ๋ก ๊ฐ๋ฅํ๊ฒ.
2.2 DeepSeek-R1-Zero: ์ง๋ํ์ต ์์ด ๋ฒ ์ด์ค ๋ชจ๋ธ์ ์ง์ RL
GRPO(Group Relative Policy Optimization) ์๊ณ ๋ฆฌ์ฆ
Critic(๊ฐ์น๋ง) ์์ด๋ ๊ทธ๋ฃน ๋ด ์๋ ์ ์๋ก ํ์ต โ ๋๊ท๋ชจ ๋ชจ๋ธ์ ์ ํฉ.
๋ณด์ ์ค๊ณ
์ ํ๋ ๋ณด์(์ํยท์ฝ๋ฉ ํ
์คํธ ํต๊ณผ) + ์ถ๋ ฅ ํ์ ๋ณด์(<think>์ <answer>๋ก ๋ถ๋ฆฌ).
ํ์ต ๊ฒฐ๊ณผ
AIME 2024: 15.6% โ 71.0%(ํฌํ ์ 86.7%).
RL ๊ณผ์ ์์ ์ถ๋ก ๊ธธ์ด ํ์ฅยทReflectionยท์์ฒด ๊ต์ ์ด ์์ฐ์ค๋ฝ๊ฒ ์๊น.
๋จ, ์ธ์ด ํผํฉยท๊ฐ๋
์ฑ ๋ฌธ์ ์กด์ฌ.
2.3 DeepSeek-R1: Cold Start + ๋ค๋จ๊ณ RL
Cold Start๋ก ์์ฒ ๊ฑด SFT โ 2) ์ถ๋ก ์ค์ฌ RL(์ํยท์ฝ๋ฉ ์์ฃผ) โ 3) Rejection Sampling + ๋ค์ SFT โ 4) ๋ชจ๋ ์๋๋ฆฌ์ค RL.
์ต์ข
์ฒดํฌํฌ์ธํธ๊ฐ DeepSeek-R1 (๋ํ ๊ฐ๋
์ฑ ๋ฐ ๋ค์ํ ํ์คํฌ ์ฑ๋ฅ ๋ณด๊ฐ).
2.4 Distillation
DeepSeek-R1์ด ๋ง๋ 80๋ง ๊ฑด ๋ฐ์ดํฐ๋ก Qwen/Llama ์๋ฆฌ์ฆ ์ํ ๋ชจ๋ธ์ SFT โ ๋๊ท๋ชจ RL ๋์ โ์ฐ์ํ ์ถ๋ก ๋ฐ์ดํฐ ์ฆ๋ฅโ๋ก ์ฑ๋ฅ ํฅ์.
3. ์คํ (Experiment)
3.1 DeepSeek-R1 ์ฑ๋ฅ
์์ด ์ง์ยท์ฝ๋ยท์ํ ๋ฑ์์ DeepSeek-V3 ๋๋น ํฐ ํญ ํฅ์.
Codeforces: ์์ 96.3%, AIME 79.8%, MATH 97.3% ๋ฑ.
3.2 ์ํ ๋ชจ๋ธ ์ฆ๋ฅํ
Qwen-7Bยท14Bยท32B, Llama 8Bยท70B์ DeepSeek-R1 ๋ฐ์ดํฐ๋ฅผ ํฌ์
์ ์ํยท์ฝ๋ฉ ์ฑ๋ฅ ๊ธ์์น.
RL์ ์ง์ ๋๋ฆฐ ๊ฒ๋ณด๋ค ํจ์ฌ ํจ์จ์ .
4.1 Distillation vs RL
์ํ ๋ชจ๋ธ์ ๋๊ท๋ชจ RL์ ์๋ ด ์ด๋ ต๊ณ ๋นํจ์จ์ .
Distillation์ด ๊ฒฝ์ ์ ์ด๊ณ ์ฑ๋ฅ๋ ๋ฐ์ด๋จ.
4.2 ์คํจ ์ฌ๋ก
PRM(Process Reward Model): ์ค๊ฐ๋จ๊ณ ๋ณด์ ์ค์ ์ด ๋ณต์กํ๊ณ reward hacking ์ํ.
MCTS(Monte Carlo Tree Search): ํ
์คํธ ์์ฑ์ ๊ฒ์ ๊ณต๊ฐ์ด ๋ฐฉ๋ํด ํจ๊ณผ ์ ํ์ .
5. ๊ฒฐ๋ก ๋ฐ ํฅํ ๊ณผ์ (Conclusion & Future Work)
๊ฒฐ๋ก
์์ RL๋ก ์์ฑ๋ DeepSeek-R1-Zero, ๊ทธ๋ฆฌ๊ณ Cold-start + ๋ค๋จ๊ณ RLยทSFT๋ก OpenAI-o1-1217๊ธ ์ฑ๋ฅ ๋ฌ์ฑํ DeepSeek-R1 ์๊ฐ.
์ด๋ฅผ ํ์ฉํด ์ํ ๋ชจ๋ธ์ ์ฆ๋ฅํด๋ ํฐ ์๋์ง ํจ๊ณผ.
ํ๊ณ
ํจ์ ํธ์ถยทJSON ์ถ๋ ฅยท๋ค์ค ํด ๋ํ ๋ฑ ๊ธฐ๋ฅ ๋ถ์กฑ,
์ธ์ด ํผํฉ ๋ฌธ์ ,
Few-shot ํ๋กฌํํธ์ ์ทจ์ฝ,
์ํํธ์จ์ด ์์ง๋์ด๋ง ํ์คํฌ์ ์์ง ์ ํ์ .
ํฅํ ๊ณํ
๋ฒ์ฉ ๊ธฐ๋ฅ(ํจ์ยท๋ฉํฐํด) ๊ฐํ,
๋ค๊ตญ์ด ์ง์,
ํ๋กฌํํธ ์์ง๋์ด๋ง ์ต์ ํ,
์์ง๋์ด๋ง ํ์คํฌ RL ๋ฐ์ดํฐ ๋ณด๊ฐ ๋ฑ.
### 4.2. Distillation vs. RL ์ง์ ์ ์ฉ
- ์ํ ๋ชจ๋ธ์ RL์ ์ง์ ๊ฑฐ๋ ๊ฒฝ์ฐ๋ ํฐ ๊ธฐ๋ฐ ๋ชจ๋ธ์ฒ๋ผ ํจ์จ์ ์ด์ง ์์ผ๋ฉฐ, ์ฑ๋ฅ๋ ์ ์ ๋์ด.
- ๋ฐ๋ฉด, **ํฌ๊ฒ ํ์ต๋ ๋ชจ๋ธ(R1)์ ์ถ๋ ฅ์ ์ฆ๋ฅ**ํ๋ฉด ๋ ์ข์ ์ฑ๋ฅ์ ์ป์ ์ ์์.
- ์) Qwen-32B ๋ฒ ์ด์ค์ RL์ ์ง์ ์ ์ฉํ๋๋ ์ฑ๋ฅ์ด ๊ธฐ์กด QwQ-32B-Preview ์์ค์ ๊ทธ์ณค์ง๋ง, R1์ผ๋ก๋ถํฐ ์ฆ๋ฅํ๋ฉด ๊ทธ๋ณด๋ค ํจ์ฌ ์ฐ์ํ ๊ฒฐ๊ณผ.
---
## 5. ํ๊ณ ๋ฐ ์ ๋ง
1. ์ ์ฒด ๊ธฐ๋ฅ์ฑ
- DeepSeek-R1์ ๋ํํ ํ์คํฌยทํจ์ ํธ์ถยท์ญํ ๋์ด ๋ฑ์์๋ ์ข์ง๋ง, DeepSeek-V3 ์์ค์ ์ข
ํฉ์ ๊ธฐ๋ฅ์ฑ์๋ ๋ถ์กฑํ ๋ฉด์ด ์์ ์ ์์(์ถ๋ก ์ง์คํ์ด๋ผ).
2. ์ธ์ด ํผ์ฉ
- ์ค๊ตญ์ด/์์ด์ ํธ์ค๋์ด, ๋ค๋ฅธ ์ธ์ด์ ์๋ฒฝ ๋์์ด ์ด๋ ค์.
3. ํ๋กฌํํธ ๋ฏผ๊ฐ์ฑ
- Few-shot ํ๋กฌํํธ๋ฅผ ๋ฃ์ผ๋ฉด ์ฑ๋ฅ์ด ๋จ์ด์ง๊ธฐ๋ ํจ.
- Zero-shot์ผ๋ก โ๋ฌธ์ ๋ด์ฉโ๋ง ์ฃผ๊ณ , ์๋ต ํ์๋ง ์ ํํด ์ฃผ๋ ๋ฐฉ์์ด ๊ถ์ฅ๋จ.
4. SW ์์ง๋์ด๋ง ํ์คํฌ
- ๋งค์ฐ ๋ณต์กํ๊ณ ๊ธด ์์คํ
์ฝ๋๋ฅผ ์ง๊ฑฐ๋ ๋๋ฒ๊น
ํ๋ ๋ฑ ์ค์ ์์ง๋์ด๋ง ๊ณผ์ ๊น์ง๋ ์์ง ๋ณด๊ฐ ์ฌ์ง ์์.
### ์ฐจ๊ธฐ ์ฐ๊ตฌ ๋ฐฉํฅ
- ์ถ๋ก + ๋ฉํฐ๋ชจ๋ฌ, ํด ์ฌ์ฉ ํ์ฅ
- **๋ค๊ตญ์ด ๋จ์ผ CoT**์์ ์ธ์ด ํผ์ฉ ๋ฐฉ์ง, ํน์ ์ธ์ด๋ง ์ธ ์ ์๊ฒ ํ๋ ์ ์ด
- ํจ์จ์ ์ธ RL: RL์ ๋น์ฉ์ด ํฌ๋ฏ๋ก, RL ๋จ๊ณ์์ ํ๊ฐ/ํผ๋๋ฐฑ ํ์ดํ๋ผ์ธ ๊ฐ์
- Distillation ๊ณ ๋ํ: ์์ ๋ชจ๋ธ๋ R1๊ณผ ์ ์ฌํ ๋ฐ์ฌ(Reflection) ๋ฅ๋ ฅ์ ๊ฐ์ถ๋๋ก ํ๋ ๊ธฐ๋ฒ.
- *๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)**์ ๋ฐฉ๋ํ ์์ ํ
์คํธ๋ก๋ถํฐ ํจํด์ ํ์ตํฉ๋๋ค.
- ๊ธฐ์กด ์ฐ๊ตฌ์์ *์ํ, ์ฝ๋ฉ, ๊ณผํ์ ์ฌ๊ณ ๋ ฅ* ๋ฑ ๋
ผ๋ฆฌ์ ยท๋จ๊ณ์ ๊ณผ์ ์ ๊ฑฐ์น๋ ๋ฌธ์ ์์, **์ฒด๊ณ์ ์ผ๋ก ์ถ๋ก (Chain-of-Thought, ์ดํ CoT)์ ํ์ฉ**ํ๋ฉด ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋จ์ด ํ์ธ๋์์ต๋๋ค.
- ์) OpenAI์ o1 ์๋ฆฌ์ฆ: ๋ต๋ณ ์ ๋งค์ฐ ๊ธด CoT(์๊ฐ ๊ณผ์ )๋ฅผ ํตํด ์ํยท์ฝ๋ ๋ฌธ์ ์์ ๋ฐ์ด๋ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑ.
- ํ์ง๋ง, ๋ชจ๋ธ์ด CoT๋ฅผ ์ถฉ๋ถํ ํ์ฉํ๋๋ก โ์ด๋ป๊ฒ ํ์ต์ํฌ ๊ฒ์ธ๊ฐ?โ๋ ์ฌ์ ํ ํ๋ฆฌ์ง ์์ ๋์ ๊ณผ์ .
- SFT(Supervised Fine-Tuning)๋ก ๊ธธ๊ณ ๋ณต์กํ CoT ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ฉด ๊ฐ์ ๋์ง๋ง, ๋๊ท๋ชจ ๊ณ ํ์ง CoT๋ฅผ ๋ชจ์ผ๊ธฐ์๋ ๋น์ฉ์ด ํผ.
- ๋
ผ๋ฆฌ์ ์ฌ๊ณ ๋ ๊ตฌ์กฐ์ ์ผ๋ก ๊ฐํํ์ต(RL)๊ณผ ์ ๋ถํฉ๋๋ค๋ ์์ด๋์ด๊ฐ ์์ด, *์์ RL*๋ง์ผ๋ก๋ ํ์ต์ด ๊ฐ๋ฅํ์ง, ๊ทธ๋ฆฌ๊ณ ๊ทธ ํจ์จ์ด ์ด๋ ํ์ง๊ฐ ์ฃผ์ ๊ด์ฌ์ฌ.
### 1.2. DeepSeek-R1์ ์ญํ
- **DeepSeek-R1 ์๋ฆฌ์ฆ**๋ ์ด๋ฐ ์ํฉ์์ โLLM์ ์ถ๋ก ๋ฅ๋ ฅ์ RL๋ก ๋์ด์ฌ๋ฆฌ์โ๋ ๋ชฉํ๋ก ์ฐ๊ตฌ๋์์ต๋๋ค.
- ํฌ๊ฒ ๋ ๊ฐ์ง ๋ชจ๋ธ ๋ผ์ธ์
์ ์๊ฐ:
1. DeepSeek-R1-Zero: ์์ SFT ๋ฐ์ดํฐ ์์ด, ๋ฒ ์ด์ค ๋ชจ๋ธ์์ RL๋ง์ผ๋ก ํ์ต.
2. DeepSeek-R1: ์ด๊ธฐ๋ถํฐ ์๋์ โ๊ธธ๊ณ ์์ธํ CoT ์์ โ๋ก SFTํ ๋ค์, ๋๊ท๋ชจ RL + ์ถ๊ฐ SFT + RL์ ๋ฐ๋ณต.
- ์ดํ, ์ด๋ ๊ฒ ํ์ต๋ R1 ๋ชจ๋ธ๋ก๋ถํฐ ์ํ ๋ชจ๋ธ(์: 7B, 14B, 32B ๋ฑ)์ distillation(์ง์ ์ฆ๋ฅ)ํจ์ผ๋ก์จ โ์์ ๋ชจ๋ธ์์๋ ๊ฐ๋ ฅํ ์ถ๋ก ๋ ฅโ์ ์ป๊ฒ ํจ.
---
## 2. ํต์ฌ ์์ด๋์ด: ์์ RL์ ํตํ โ์ถ๋ก ์ญ๋โ ํ์ฑ
### 2.1. ๋ฒ ์ด์ค ๋ชจ๋ธ ๋ฐ RL ํ๋ ์์ํฌ
- ๋ฒ ์ด์ค ๋ชจ๋ธ: DeepSeek-V3-Base(์ฌ์ ํ์ต๋ง ๋ง์น ์ํ, ์์ง SFT/์ถ๊ฐ ํ์ต ์์).
- *GRPO(Group Relative Policy Optimization)**๋ผ๋ RL ์๊ณ ๋ฆฌ์ฆ ์ฌ์ฉ.
- ๋งค ์คํ
๋ง๋ค ์ด์ ์ ์ฑ
(๐_old)์์ ์ฌ๋ฌ ๊ฐ(๊ทธ๋ฃน) ์ํ์ ๋ฝ๊ณ , ์ด๋ค ๊ฐ๊ฐ์ โ๋ณด์โ์ ๊ณ์ฐํด ์๋์ ์ฐ์ยท์ด์ธ๋ฅผ ๋น๊ตํ์ฌ ์
๋ฐ์ดํธ.
- ์ผ๋ฐ PPO์ ๋ฌ๋ฆฌ ๋์ผ ํฌ๊ธฐ์ Value ๋ชจ๋ธ(critic)์ด ์์ด๋ ๋๋ฏ๋ก, ๋๊ท๋ชจ ๋ชจ๋ธ์ ๊ฒฝ์ ์ .
### 2.2. DeepSeek-R1-Zero: SFT ์์ด RL๋ง์ผ๋ก ํ๋ จ
### (1) ๊ท์น ๊ธฐ๋ฐ(Reinforcement) ๋ณด์ ์ค๊ณ
- ์ ํ๋ ๋ณด์(Accuracy Reward): ์ํ ๋ฌธ์ ๋ ์ฝ๋ ๋ฌธ์ ์ฒ๋ผ ์ ๋ต์ ๋ช
ํํ ๊ฒ์ฆํ ์ ์๋ ๊ฒฝ์ฐ, ์ต์ข
๋ต ํ์(์: โ<answer> ์ ๋ต </answer>โ)์ ์ ํ๊ณ , ๋ฌธ์์ด ๋งค์นญ์ด๋ ์ปดํ์ผ ํ
์คํธ๋ก ์ ๋ต ์ฌ๋ถ๋ฅผ ํ์ธํ์ฌ ๋ณด์.
- ํฌ๋งท ๋ณด์(Format Reward): ์ค๊ฐ ์๊ฐ(CoT)์
<think>...</think> ํ๊ทธ ์์ ๋ฃ๊ณ , ์ต์ข
์ ๋ต์ <answer>...</answer> ํ๊ทธ๋ก ๊ตฌ๋ถํ๋๋ก ์๊ตฌ.
- ์ด๋ฐ ์์ผ๋ก ๋ชจ๋ธ์ด ๋ค์๊ณผ ๊ฐ์ ํ
์คํธ๋ฅผ ์ถ๋ ฅํ๋ฉด ๋ณด์์ ์ป๋๋ค:
javascript
๋ณต์ฌํธ์ง
User: ๋ฌธ์ ...
Assistant: <think> ์๊ฐ๊ณผ์ </think><answer> ์ต์ข
์ ๋ต </answer>
### (2) ๊ฒฐ๊ณผ์ ํน์ง
- ํ์ต ์ด๋ฐ: ๋ฒ ์ด์ค ๋ชจ๋ธ์ ๊ธธ๊ณ ๋ณต์กํ ์ถ๋ก ๊ณผ์ ์ ์ ๋ชป ๋ง๋ฆ โ ์ ์ฐจ RL์ ํตํด (๋ณด์์ ์ต๋ํํ๋ ค) ๋ค์ํ ์๋๋ฅผ ํ๋ฉฐ ํ์ต.
- ํ์ต์ด ์งํ๋ ์๋ก, ์ค์ค๋ก ์๊ฐ(Chain-of-Thought) ๊ธธ์ด๋ฅผ ๋๋ฆฌ๊ณ , ๋ณธ์ธ์ด ์ด ๊ณผ์ ์ Reflection(โWait, wait. Let me re-check...โ) ํ๋ ํํ๋ฅผ ์๋ฐ์ ์ผ๋ก ํฐ๋.
- ์ด๋ฅผ **โSelf-evolution ๊ณผ์ โ**์ด๋ผ ์ผ์ปซ๋๋ค.
- ์ฑ๋ฅ:
- ์) **AIME 2024**๋ผ๋ ์ํ ๋ํ ๋ฌธ์ ์
์์ pass@1 15.6% โ 71%๋ก ๋น์ฝ์ ์์น.
- ๋ค์ค ์ํ์์ ํฌํ(Majority Voting) ์ 86% ๋ฌ์ฑ, OpenAI-o1 ์ค ํน์ ๋ฒ์ ๋ณด๋ค๋ ์ฐ์.
### (3) ํ๊ณ
- ์ฝ๊ธฐ ๋ถํธํ ํ์์ด๋ **์์ด+์ค๊ตญ์ด ํผํฉ**์ด ์์ฃผ ๋ฐ์, ์ค๊ฐ ์ฐ์ถ๋ฌผ์ด ๋์ก.
- SFT ์์ด ์์ ํ RL๋ง ์จ์ ์ป์ ๋ชจ๋ธ์ด๋ผ, ์๋น(Serving)์ ์ ํฉํ ๋ง๊ฐ ํ์ง์ด๋ ๋ํ ํ์์ด ๋ถ์กฑ.
---
## 3. DeepSeek-R1: Cold Start + ๊ฐํํ์ต + SFT ๋ฐ๋ณต
DeepSeek-R1์ R1-Zero์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์ **โ์๋์ SFT๋ก ์์(Cold Start) โ ๋๊ท๋ชจ RL(Reasoning ์์ฃผ) โ Rejection Sampling์ผ๋ก ๋ค์ SFT ๋ฐ์ดํฐ ์์ฑ โ ์ต์ข
์ ์ผ๋ก RL(์ ์ฒด ์๋๋ฆฌ์ค) ์ ์ฉโ**์ 4๋จ๊ณ๋ก ๊ตฌ์ฑ๋ ๊ณ ๋ํ ๋ฒ์ ์
๋๋ค.
### 3.1. ๋จ๊ณ๋ณ ์์ฝ
1. Cold Start SFT
- ์์ฒ ๊ฑด์ โ๊ธธ๊ณ ์์ธํ CoTโ ์์๋ฅผ ์ธ์์ ์ผ๋ก(๋๋ R1-Zero์ ๊ฒฐ๊ณผ ์ค ์ฐ์ํ ๊ฒ ์ ๋ณ) ๋ชจ์.
- ์ด๋ฅผ ๋ฐํ์ผ๋ก DeepSeek-V3-Base์ ์ํผ๋ฐ์ด์ฆ๋ ํ์ธํ๋(SFT)์ ํ์ฌ, ์ผ๋จ โ์ฝ๊ธฐ ์ข์ CoTโ๋ฅผ ์ถ๋ ฅํ๋๋ก ์ด๊ธฐํ.
2. Reasoning-oriented RL
- 1๋ฒ ๊ณผ์ ์ผ๋ก ์์ฑ๋ ์ฒดํฌํฌ์ธํธ๋ฅผ ์ถ๋ฐ์ ์ผ๋ก,
- ์ํยท์ฝ๋ฉยท๋
ผ๋ฆฌ ๋ฌธ์ ๋ฑ ์ ๋ต์ด ๋ช
ํํ ํ๋ณ๋๋ ๋ฌธ์ ์ ๋ํด ๋ค์ RL.
- ์ด๋๋ ์ธ์ด ํผ์ฉ ๋ฐฉ์ง ๋ฑ์ ์ถ๊ฐ ๋ณด์(์: โ๋ชฉํ ์ธ์ด ๋น์จ์ด ๋์์๋ก ๋ณด์โ)์ ํฉ์นจ.
- ๋ชจ๋ธ์ด ๊ณ ๋๋ก ๊ธด ์ฝ๋๋ฅผ ์์ฑํ๊ฑฐ๋, ๊น์ด ์๋ ์ํ ์ฆ๋ช
์ ํผ์น๋ ๋ฑ ์ด์ ์๋(Reasoning) ์ถ๋ ฅ์ ํ์ต.
3. Rejection Sampling & SFT
- 2๋ฒ RL ์ฒดํฌํฌ์ธํธ๋ก๋ถํฐ ๋๊ท๋ชจ ์๋ต(์: 60๋ง ๊ฑด ์ด์)์ ์์ฑํ๋,
- ์ ๋ต ์ฌ๋ถ/ํ์ ์ฌ๋ถ ๋ฑ์ ๊ฑธ๋ฌ๋ด โ๊ณ ํ์ง Reasoning ๋ฐ์ดํฐโ๋ก ์ ๋ณ.
- ์ฌ๊ธฐ์ ๋ ๋ค๋ฅธ ์ผ๋ฐ SFT์ฉ ๋ฐ์ดํฐ(์ฑ๋ด, ์ง์ QA ๋ฑ)๋ฅผ ํฉ์ณ, ์๋ก์ด SFT ๋ฐ์ดํฐ์
์์ฑ(์ด ์ฝ 80๋ง ๊ฑด).
- ์ด๋ฅผ ๋ค์ DeepSeek-V3-Base์ Supervised Fine-Tuning, ๋ชจ๋ธ์ด โํฉ๋ฆฌ์ ์ถ๋ก + ์ผ๋ฐ ๋ํ ๋ฅ๋ ฅ + ๊น๋ํ ํ์โ์ ๊ฐ์ถ๋๋ก ํจ.
4. Final RL (All Scenario)
- ๋ง์ง๋ง์ผ๋ก, (1) Reasoning ๊ด๋ จ ๋ฐ์ดํฐ(๋ฃฐ ๊ธฐ๋ฐ), (2) ์ผ๋ฐ ์ฌ์ฉ์ ์๋์ฉ ๋ฐ์ดํฐ(๋ชจ๋ธ ๋ณด์) ๋ฑ **๋ค์ํ ๋ณด์**์ ํตํฉํด RL ์งํ.
- ์ต์ข
Checkpoint โ DeepSeek-R1.
### 3.2. DeepSeek-R1 ๊ฒฐ๊ณผ
- ์ถ๋ก ๊ณผ์
- ์ํ: AIME 79.8%, MATH-500 97.3% (๊ฑฐ์ ์คํ์ ์๋ ์์ค).
- ์ฝ๋ฉ: ์๊ณ ๋ฆฌ์ฆ ๋ฌธ์ (์ฝ๋ํฌ์ค ๋ฑ)์์ ์์ 96% ์ธ๊ฐ ์ฐธ๊ฐ์๋ฅผ ๋์ด์๋ ๋ฅ๋ ฅ.
- ์ง์ยท์ธ์ด
- MMLU Pro, GPQA Diamond ๋ฑ ๋ํ์ ์์ค ํด์ฆ์์ ์ฐ์.
- ๋จ์ factual QA(SimpleQA) ๋ฑ์์๋ ์ฑ๋ฅ ๊ฐ์ .
- ์ฌํ
- ์์ฐ์ด ๊ธ์ฐ๊ธฐ, ๋ฌธ๋จ ์์ฝ, ํฌ๋งท ์ค์(IF-Eval) ๋ฑ๋ ํฅ์.
- ์ ๋ฐ์ ์ผ๋ก DeepSeek-V3 ๋๋น Reasoning์ด ํฌ๊ฒ ํฅ์๋์๊ณ , ๋ค๋ฅธ ์ผ๋ฐ ํ์คํฌ๋ ์ ์ฌ ๋๋ ์ฐ์.
---
## 4. Distillation: R1์ ์ถ๋ก ๋ฅ๋ ฅ์ ์์ ๋ชจ๋ธ๋ก ์ด์
### 4.1. ๊ธฐ๋ณธ ์์ด๋์ด
- R1 ๋ชจ๋ธ์ด ๋๊ท๋ชจ RL๋ก โ๊ธด ์ฌ์ฌ ์ถ๋ก โ ๋ฅ๋ ฅ์ ํ๋ํ์ผ๋, ์ด๋ฅผ **์ํ ๋ชจ๋ธ**(์: Qwen 7B, 14B, 32B, Llama 8B, 70B ๋ฑ)์ ์ ๋ฌํ๊ณ ์ ํจ.
- ๋ฐฉ๋ฒ: **DeepSeek-R1**์ด ์์ฑํ ์ฝ 80๋ง ๊ฑด์ SFT ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ , ์ํ ๋ชจ๋ธ์ ํ์ธํ๋.
- ๋ณ๋์ RL ์์, ๋จ์ ํ์ธํ๋๋ง.
- ๊ฒฐ๊ณผ์ ์ผ๋ก **DeepSeek-R1-Distill-Qwen-7B(๋๋ -32B ๋ฑ)**๊ฐ, ๊ฐ์ ์ฌ์ด์ฆ์์ SFT๋ง ํ ๋ชจ๋ธ(๋ค๋ฅธ AI ๋ชจ๋ธ๋ค)๋ณด๋ค ํจ์ฌ ๋ฐ์ด๋ ์ถ๋ก ๋ ฅ์ ๋ณด์.### 2.3 DeepSeek-R1: Cold Start + ๋ค๋จ๊ณ Reinforcement Learning
1. Cold Start
- DeepSeek-R1-Zero๋ ์ถ๋ก ๋ ฅ์ ๋ฐ์ด๋์ง๋ง, ๊ฐ๋
์ฑ ๋ฌธ์ ๋ฑ์ด ์์ด **์ด๋ฐ๋ถํฐ ์ฌ๋์ด ์ฝ๊ธฐ ์ข์ ํฌ๋งท**(๊ธด CoT, ์์ฝ)์ผ๋ก ์๋(์์ฒ ๊ฐ)์ โcold-start ๋ฐ์ดํฐโ๋ฅผ ์์งยทํ์ต.
- ์ด๋ก ์ธํด RL ์ด๋ฐ์ ๋ถ์์ ํจ์ ์ค์ด๊ณ , ๋น ๋ฅธ ์๋ ด**๊ณผ **๊ฐ๋
์ฑ ํฅ์ ๊ฐ๋ฅ.
2. ์ถ๋ก ์ค์ฌ RL(1์ฐจ)
- Cold-start๋ก ํ์ธํ๋ํ ๋ชจ๋ธ์, DeepSeek-R1-Zero์ ๋์ผํ ๋ฐฉ์์ ๋๊ท๋ชจ RL ์ ์ฉ.
- ์ํ, ์ฝ๋ฉ, ๊ณผํ, ๋
ผ๋ฆฌ ๊ฐ์ด ์ฑ์ ์ด ์์ํ ํ์คํฌ ์ค์ฌ + ์ธ์ด ์ผ๊ด์ฑ ๋ณด์(์ธ์ด ํผํฉ ๋ฐฉ์ง).
- ์ฑ๋ฅ ํฅ์๊ณผ ํจ๊ป, ์ฝ๊ธฐ ์ข์ ์ฒด์ธ ์ค๋ธ ์๊ฐ ํ๋ณด.
3. Rejection Sampling + ์ง๋ํ์ต(2์ฐจ SFT)
- RL๋ก ํ์ต๋ ์ฒดํฌํฌ์ธํธ์์ **์ ํํ ๋ต๋ณ**๋ง ๋ค์ ์ถ์ถํ์ฌ, ์ฝ 60๋ง ๊ฑด ์ด์์ ๊ณ ํ์ง ์ถ๋ก ๋ฐ์ดํฐ ๊ตฌ์ถ.
- ๊ทธ ์ธ ์์ธ์ดยทQAยท์๊ธฐ์๊ฐ ๋ฑ ์ผ๋ฐ ํ์คํฌ 20๋ง ๊ฑด์ ์ถ๊ฐ(DeepSeek-V3์์ ์ฌ์ฉํ๋ ์ง๋ ๋ฐ์ดํฐ).
- ์ด 80๋ง ๊ฑด ์์ค์ผ๋ก ๋ค์ **SFT**(DeepSeek-V3-Base ๊ธฐ๋ฐ).
4. ์ ์ฒด ์๋๋ฆฌ์ค RL(2์ฐจ)
- ์ต์ข
์ ์ผ๋ก ๋ชจ๋ ์๋๋ฆฌ์ค(์ถ๋ก +์ผ๋ฐ ํ์คํฌ) ๋ณด์์ ๊ฒฐํฉํ RL ์ํ(์์ ์ฑยท๋์๋จยทํฌ๋งท ๋ฑ).
- ๊ฒฐ๊ณผ๋ฌผ: DeepSeek-R1 (์ฑ๋ฅ ๋ฐ ๊ฐ๋
์ฑ ๋ชจ๋ ์ฐ์)
### 2.4 Distillation: ์ํ ๋ชจ๋ธ๋ ์ถ๋ก ๋ ฅ์ ๊ฐ์ถ๋๋ก
- **DeepSeek-R1**์ด ๋ง๋ค์ด๋ธ ์ฝ 80๋ง ๊ฑด์ ๋ฐ์ดํฐ๋ก Qwen2.5-์๋ฆฌ์ฆ(1.5B~32B, 70B)์ Llama3-์๋ฆฌ์ฆ(8B, 70B) ๋ชจ๋ธ์ ๊ฐ๋จํ **SFT**๋ง์ผ๋ก ํ๋.
- ๊ฒฐ๊ณผ์ ์ผ๋ก ์ํยท๋
ผ๋ฆฌยท์ฝ๋ ๋ฒค์น๋งํฌ์์ **์๋ ํฐ ๋ชจ๋ธ์ ๋ชป์ง์์ ์ฑ๋ฅ**์ ๋ค์ ๋ฌ์ฑ.
- ์ง์ RL์ ์ํ ๋ชจ๋ธ์ ์ ์ฉํ ๊ฒ๋ณด๋ค, **์ ์ถ๋ก ํ๋ ํฐ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๋ฅผ ์ฆ๋ฅํ๋ ํธ์ด ํจ์ฌ ํจ๊ณผ์ **์์ ํ์ธ.
---
## 3. ์คํ (Experiment)
### 3.1 DeepSeek-R1 ์ฑ๋ฅ ํ๊ฐ
- ์์ด ์ง์ยทQA ๋ถ์ผ
- MMLU, GPQA Diamond, SimpleQA ๋ฑ์์ DeepSeek-R1์ด DeepSeek-V3 ๋๋น ์ ์๋ฏธํ ์ฐ์.
- MMLU์์ 90.8%(OpenAI-o1-1217์ 91.8%์ ๋น๋ฑ), GPQA Diamond์์ 71.5%๋ก ๋งค์ฐ ๋์.
- ์ฝ๋
- Codeforces(์๊ณ ๋ฆฌ์ฆ ๋ํ ๋ฌธ์ )์์ ์ธ์ ๋๋น 96.3% ์์ ๋ ์ดํ
(2029).
- LiveCodeBench์์ 65.9%๋ก Claude, GPT-4o, DeepSeek-V3๋ณด๋ค ๋์.
- ๋จ, SWE Verified(์ํํธ์จ์ด ์์ง๋์ด๋ง ํ์คํฌ)์์๋ 49.2%๋ก, RL ๋ฐ์ดํฐ ๋ถ์กฑ ๋๋ฌธ์ DeepSeek-V3 ๋๋น ์ ํ์ ์์น.
- ์ํ
- AIME 2024์์ 79.8% (OpenAI-o1-1217์ 79.2%์ ์ฌ์ค์ ๋๊ธ), MATH-500์์ 97.3%, CNMO 2024์์ 78.8%.
- **STEM ์ถ๋ก **์์ ๋งค์ฐ ๋์ ์ ํ๋๋ฅผ ๊ธฐ๋ก.
- ์ค๊ตญ์ด ํ๊ฐ
- CLUEWSC, C-Eval ๋ฑ์์ 90% ์ด์์ผ๋ก ๋์ ์ ์.
- C-SimpleQA(ํฉํธ์ฑ ์ค๊ตญ์ด QA)์์ ์์ ์ฑ ๋ชจ๋์ด ๊ณผ๋ํ ๊ฑฐ๋ถ๋ฅผ ์ ๋ฐํด ์๋ฒฝํ ๋์ ์ ์์ ๋๋ฌํ์ง ๋ชปํ์ง๋ง, ์์ ์ฑ RL ์์ด ํ
์คํธ ์ 70% ์ด์.
### 3.2 Distilled Model (์ํ ๋ชจ๋ธ ์ฆ๋ฅํ) ํ๊ฐ
- Qwen2.5-32B, Llama3.3-70B ๋ฑ ์ํยท์คํ ๋ชจ๋ธ์ DeepSeek-R1์์ ์ถ์ถํ 80๋ง ๊ฑด ๋ฐ์ดํฐ๋ฅผ ํ์ต.
- DeepSeek-R1-Distill-Qwen-7B:
- AIME 2024์์ 55.5%, MATH-500์์ 83.3%, GPQA Diamond 92.8%๋ก, GPT-4o๋ Claude-3.5-Sonnet์ ๋ง๋จน๊ฑฐ๋ ๋ฐ์ด๋๋ ์์ค.
- 14B, 32B, 70B ๋ฒ์ ๋ค์ AIME, LiveCodeBench, Codeforces ๋ฑ์์ QwQ-32B-Preview๋ฅผ ๋์ด์๋ ๋ฑ ์ด์ธ์๋ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๋ฐ์ด๋๋ ์ฑ๋ฅ ๋ฐํ.
- ๋๊ท๋ชจ RL์ ์ง์ โ์์ ๋ชจ๋ธโ์ ์ ์ฉํ๊ธฐ๋ณด๋ค, โํฐ ๋ชจ๋ธ์ด ์ฐพ์ ์ถ๋ก ํจํดโ์ ์ฆ๋ฅํ๋ ํธ์ด ํจ์ฌ ํจ๊ณผ์ ์์ ํ์ธ.
---
## 4. ํ ์ (Discussion)
### 4.1 Distillation vs Reinforcement Learning
- **์ํ ๋ชจ๋ธ์ ์ง์ RL**์ ๋๊ท๋ชจ๋ก ์ํํ๋ ๊ฒฝ์ฐ, ํ์ต ๋น์ฉ์ด ํฌ๊ณ , ์ข
์ข
์ ๋๋ก ์๋ ดํ์ง ๋ชปํจ(์คํ ๊ฒฐ๊ณผ, ์ฑ๋ฅ์ด QwQ-32B-Preview ์์ค์ ๋จธ๋ฌด๋ฆ).
- ๋ฐ๋ฉด, **DeepSeek-R1 ์ถ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฆ๋ฅ**ํ๋ ๊ฒฝ์ฐ, ์ ์ ๋น์ฉ์ผ๋ก ๋งค์ฐ ๋์ ์ฑ๋ฅ ๋ฌ์ฑ ๊ฐ๋ฅ.
### 4.2 ์คํจ ์ฌ๋ก (Unsuccessful Attempts)
- Process Reward Model(PRM)
- ์ค๊ฐ ๋จ๊ณ๋ณ ๋ณด์์ ์ ์ํด ์ถ๋ก ๊ณผ์ ์ ์ธ๋ฐํ ์ ๋ํ๊ณ ์ ํ์ง๋ง,
- ์ค๊ฐ๋จ๊ณ๋ฅผ ๋ฏธ๋ฆฌ ์ ์ํ๊ธฐ ์ด๋ ต๊ณ ,
- ๋ชจ๋ธ์ด **์ค๊ฐ ๋ต๋ณ ๋ณด์**์ ์
์ฉ(reward hacking)ํ ์ฐ๋ ค๊ฐ ํฌ๋ฉฐ,
- ๋งค ๋ณด์๋ชจ๋ธ์ ๋ค์ ํ์ตํด์ผ ํ๋ ๋ณต์ก๋ ๋๋ฌธ์ ๋๊ท๋ชจ RL ๋จ๊ณ์๋ ์ ์ฉ์ด ์ด๋ ค์ ์.
- Monte Carlo Tree Search(MCTS)
- ์ฒด์ค๋ ๋ฐ๋์ฒ๋ผ ๋จ๊ณ์ ์ผ๋ก ํธ๋ฆฌ ํ์์ ์๋ํ์ผ๋,
- ์ผ๋ฐ ํ
์คํธ ์์ฑ์ ํ์ ๊ณต๊ฐ์ด ๋งค์ฐ ์ปค์ ํธ๋ฆฌ ํ์ฅ์ ์ ํ์ ๊ฑธ์ด์ผ ํ๊ณ ,
- ๊ฐ์นํจ์(value model) ํ์ต์ด ๊น๋ค๋กญ๋ค ๋ณด๋ ๋ชจ๋ธ ์์ฒด๋ฅผ ์ ์ง์ ์ผ๋ก ๊ฐ์ ํ๊ธฐ ์ด๋ ค์ ์.
- **์ถ๋ก ์ ์ผํ์ฑ**์ผ๋ก ์ธ ์๋ ์์ผ๋, **์ค์ค๋ก ์ฑ๋ฅ ํฅ์**ํ๋ ๊ตฌ์กฐ๋ก๋ ํ๊ณ.
---
## 5. ๊ฒฐ๋ก ๋ฐ ํฅํ ๊ณผ์ (Conclusion, Limitations, and Future Work)
- ๊ฒฐ๋ก
- ์ง๋ ๋ฐ์ดํฐ ์์ด ์์ RL๋ก ๋ชจ๋ธ ์ถ๋ก ๋ ฅ์ ๋์ด์ฌ๋ฆฐ **DeepSeek-R1-Zero**์, Cold-start ๋ฐ์ดํฐ ๋ฐ ๋ค๋จ๊ณ RLยทSFT ๊ณผ์ ์ ํตํด OpenAI-o1-1217๊ธ์ ๋๋ฌํ **DeepSeek-R1**์ ์ ์.
- ์ด๋ฅผ ํตํด ์ป์ ๋ฐ์ดํฐ๋ก ์ํ ๋ชจ๋ธ ์ฆ๋ฅ ์, ๋ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ง์ ํ๋ จํ๋ ๋ฐฉ๋ฒ๋ณด๋ค ํจ์จ์ ์ด๊ณ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํจ์ ๋ณด์.
- ํ๊ณ
1. ๊ธฐ๋ฅ์ ํ๊ณ: ํจ์ ํธ์ถ, JSON ์ถ๋ ฅ, ๋ค์ค ํด ๋ํ ๋ฑ ์ค์ ์ ํ๋ฆฌ์ผ์ด์
์์ ํ์ํ ์ธ๋ถ ๊ธฐ๋ฅ์ ์ถ๋ก ๊ธฐ๋ฐ ํ์ต๋ง์ผ๋ก๋ ์ถฉ๋ถํ ๋ค๋ฃจ์ง ๋ชปํจ.
2. ์ธ์ด ํผํฉ: ํ์ฌ ์ฃผ๋ก ์คยท์ ๋์๋ง ํ๊ธฐ ๋๋ฌธ์, ๋ค๋ฅธ ์ธ์ด ์ง๋ฌธ ์ ํผํฉ ์ถ๋ ฅ ๊ฐ๋ฅ์ฑ ์์.
3. ํ๋กฌํํธ ๋ฏผ๊ฐ๋: Zero-shot์ผ๋ก ์ฌ์ฉ ์ ์ต์ ์ฑ๋ฅ์ด ๋์ค๋, Few-shot์ผ๋ก ์๋ดํ๋ฉด ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๊ฒฝํฅ.
4. ์ํํธ์จ์ด ์์ง๋์ด๋ง ํ์คํฌ: RL์ ๊ธด ์คํ ์๊ฐ์ด ํ์ํ ์์ง๋์ด๋ง ํ์คํฌ๋ฅผ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํด ์ฑ๋ฅ ๊ฐ์ ์ด ์ ํ๋จ.
- ํฅํ ๊ณํ
- ๋ฒ์ฉ ๊ธฐ๋ฅ(ํจ์ ํธ์ถ, ๋ฉํฐํด ๋ํ ๋ฑ) ๊ฐํ,
- ๋ค๊ตญ์ด ์ง์,
- ํ๋กฌํํธ ์์ง๋์ด๋ง ์ต์ ํ,
- **์์ง๋์ด๋ง ํ์คํฌ ๋ฐ์ดํฐ ๋ณด๊ฐ**์ ํตํ ๊ฐ์ .
[DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://www.notion.so/DeepSeekMath-Pushing-the-Limits-of-Mathematical-Reasoning-in-Open-Language-Models-1872857ddb1680df916dd44ff5482c77?pvs=21)
### 1.1. ์ ์ถ๋ก (Reinforcement Learning)์ด ์ค์ํ๊ฐ?
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
## 1.1 ์ฃผ์ ๊ธฐ์ฌ (Contributions)
1. ๊ฐํํ์ต ๊ธฐ๋ฐ ์ถ๋ก ์ฑ๋ฅ ํฅ์
- ์ง๋ ๋ฐ์ดํฐ ์์ด **์์ ๊ฐํํ์ต**๋ง์ผ๋ก LLM ์ถ๋ก ์ฑ๋ฅ์ ๋น์ฝ์ ์ผ๋ก ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ์ ์(DeepSeek-R1-Zero).
- ์ด๋ฅผ ํตํด SFT๊ฐ ์์ด๋ ๋ชจ๋ธ์ด ์ค์ค๋ก ๋ฐ์ฌ(reflection)ยท์์ฒด ๊ฒ์ฆ(self-verification) ๋ฑ๊ณผ ๊ฐ์ ๊ณ ๊ธ ์ถ๋ก ํ์๋ฅผ ํ์ตํ ์ ์์์ ์ค์ฆ.
- ์ฑ๋ฅ์ AIME 2024์์ pass@1 ๊ธฐ์ค 15.6% โ 71.0%๋ก ์์น, ํฉ์ํฌํ(majority voting) ์ 86.7%๋ก OpenAI-o1-0912 ๋๊ธ.
2. DeepSeek-R1 ํ์ต ํ์ดํ๋ผ์ธ ์ ์
- ์๋์ โcold-start(์ด๊ธฐ ์จ์)โ ๋ฐ์ดํฐ๋ฅผ ๋จผ์ ์ฌ์ฉํด ๋ฒ ์ด์ค ๋ชจ๋ธ์ ํ์ธํ๋ํ ํ, ๋๊ท๋ชจ ๊ฐํํ์ต์ ์ ์ฉ.
- ์ดํ ์์ฒด ์์ฑ(Rejection Sampling) + ๊ธฐ์กด ๋ฐ์ดํฐ ํตํฉ์ผ๋ก ์ง๋ํ์ต โ ๋ค์ RL๋ก ๋ง๋ฌด๋ฆฌํ๋ ๋ค๋จ๊ณ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ.
- ์ต์ข
์ ์ผ๋ก OpenAI-o1-1217 ๊ธ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ๋ชจ๋ธ(DeepSeek-R1)์ ์์ฑ.
3. ์ง์ ์ฆ๋ฅ(Distillation)๋ฅผ ํตํ ์ํ ๋ชจ๋ธ ์ถ๋ก ๋ ฅ ๊ฐํ
- DeepSeek-R1์์ ์์ฑ๋ 80๋ง ๊ฑด ์ด์์ ์ถ๋ก ๋ฐ์ดํฐ๋ก Qwen/Llama ๊ธฐ๋ฐ ์ํ ๋ชจ๋ธ(1.5B~70B)์ ํ๋ํ๋ฉด, **์ง์ RLํ๋ ๊ฒ๋ณด๋ค ๋ ๋์ ์ถ๋ก ์ฑ๋ฅ**์ ๋ฌ์ฑ.
- DeepSeek-R1-Distill-Qwen-14B ๋ฑ์ ๊ธฐ์กด QwQ-32B-Preview๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์ผ๋ถ ์งํ์์ o1-mini์ ๋ง๋จน๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ ์์ฐ.
---
## 1.2 ํ๊ฐ ๊ฒฐ๊ณผ ์์ฝ (Summary of Evaluation Results)
- ์ํยท๋
ผ๋ฆฌยท์ฝ๋ฉ ๋ฑ ์ถ๋ก ๊ณผ์
- DeepSeek-R1:
- AIME 2024์์ pass@1 ๊ธฐ์ค 79.8%, MATH-500์์ 97.3% ๋ฑ ์ต์์ ์์ค.
- Codeforces(์ฝ๋ฉ ๋ํ ๋ฌธ์ )์์ 2029 ๋ ์ดํ
, ์ด๋ ์์ 96.3% ์ด์์ ์ค๋ ฅ์ ํด๋น.
- **์ํ ๋ชจ๋ธ ์ฆ๋ฅํ**๋ AIME, MATH, ์ฝ๋ ๋ฌธ์ ์์ ๋์ฒด๋ก GPT-4o๋ Claude-3.5-Sonnet๋ณด๋ค ์ฐ์.
- ์ง์ยทQA ๊ณผ์
- MMLU ๋ฑ ๊ต์กยท์์ ๊ด๋ จ ํ
์คํธ์์ DeepSeek-R1์ด 90% ์ ํ์ ๋์ ์ ์. (OpenAI-o1-1217๊ณผ ๊ทผ์ )
- GPQA Diamond(๊ณ ๊ธ QA)์์๋ 71.5%๋ก ์ฐ์.
- ์ ๋ฐ์ ์ง์ ํ๊ฐ
- ์ผ๋ฐ QA, ์์ธ์ด ์์ฑ, ์์ฝ, ๋กคํ๋ ์ด ๋ฑ ๋ค์ํ ํ์คํฌ์์ AlpacaEval2.0, Arena-Hard ํ
์คํธ๋ฅผ ์ฌ์ฉํด GPT-4 ๊ธฐ๋ฐ ํ๊ฐ๋ฅผ ์ํํ ๊ฒฐ๊ณผ, DeepSeek-R1์ด DeepSeek-V3 ๋๋น ์ ๋ฐฉ์๋ก ์ฐ์.
- (๋จ, Python API ์ฐ๋ ๊ฐ์ ๊ตฌ์ฒด์ ์์ง๋์ด๋ง ๊ณผ์ ๋ ๋ณต์กํ ํจ์ ํธ์ถ ๋ฑ์ ์ฐจ๊ธฐ ๋ฒ์ ์์ ๊ฐ์ ์์ .)
---
## 2. ์ ๊ทผ ๋ฐฉ๋ฒ (Approach)
### 2.1 ์ ์ฒด ๊ฐ์ (Overview)
- ๋ชจ๋ธ ์ถ๋ก ๋ ฅ์ ๊ฐํํ๊ธฐ ์ํด **SFT๋ฅผ ํ์ง ์์ ์ํ**์์ ๋ฐ๋ก RL์ ์ ์ฉํ ๋ชจ๋ธ(DeepSeek-R1-Zero)๊ณผ, ์๋์ Cold-start ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ๋ค RL์ ์ ์ฉํ ๋ชจ๋ธ(DeepSeek-R1) ๋ ๊ฐ์ง ๊ฒฝ๋ก๋ฅผ ํ์.
- ์ดํ ์๋ฃ๋ ๋ชจ๋ธ์ **์ง์ ์ฆ๋ฅ**ํ์ฌ ๋ ์์ ๋ชจ๋ธ(Qwen, Llama ์๋ฆฌ์ฆ)๋ก ์ด์.
### 2.2 DeepSeek-R1-Zero: ์ง๋ํ์ต ์์ด ๋ฒ ์ด์ค ๋ชจ๋ธ์ ์ง์ RL
1. ํ๋ จ ์๊ณ ๋ฆฌ์ฆ:
- GRPO(Group Relative Policy Optimization) ํ์ฉ
- ์ ํต์ PPO์ ์ ์ฌํ๋, Critic(๊ฐ์น๋ง) ์์ด โ๊ทธ๋ฃน ๋ด ์๋ ์ ์โ๋ก Advantage๋ฅผ ๊ณ์ฐํด ๋๊ท๋ชจ ํ๋ จ ๋น์ฉ์ ์ ๊ฐ.
- Value ํจ์(๋๋ Critic)๋ฅผ ์์ ์ฐ์ง ์์
- ๊ธฐ์กด PPO๋ โActor + Criticโ์ด์๋๋ฐ, GRPO๋ Actor(์ ์ฑ
)๋ง ๋จ๊ฒจ, Critic ํ์ต ๋น์ฉ/๋ฉ๋ชจ๋ฆฌ ์๊ตฌ๋ฅผ ์ ๊ฑฐ.
- **๊ทธ๋ฃน ๋จ์ ์๋ ๋ณด์**(Group Relative)
- ํ ์ง๋ฌธ(์: ์ํ ๋ฌธ์ )๋น **์ฌ๋ฌ ๊ฐ(G๊ฐ) ์ ๋ต ํ๋ณด**๋ฅผ ์ ์ฑ
์ผ๋ก๋ถํฐ ์ํ๋ง.
- ๊ฐ ํ๋ณด ์ ๋ต์ ๋ํด **Reward ๋ชจ๋ธ**(๋๋ ๋ฃฐ ๊ธฐ๋ฐ ์ฑ์ )๋ก ๋ณด์์ ๊ณ์ฐ.
- **๋ณด์์ ํ๊ท ยทํ์คํธ์ฐจ**๋ฅผ ๊ตฌํ ๋ค,
Ai=std({r1,โฆ,rG})riโmean({r1,โฆ,rG})
๊ฐ์ ๋ฐฉ์์ผ๋ก, ๊ทธ๋ฃน ๋ด์์ ์๋์ ์ผ๋ก ์ผ๋ง๋ ๋ ๋์์ง(Advantage)๋ฅผ ๊ณ์ฐ.
- PPO์ฒ๋ผ ์
๋ฐ์ดํธ
- PPO์์ ์ฌ์ฉ๋๋ โclip ๊ธฐ๋ฒโ์ด๋ โKL ํ๋ํฐโ ๋ฑ์ ๊ทธ๋๋ก ์ ์ฉํ๋, Advantage ๊ณ์ฐ๋ง Critic ๋์ **๊ทธ๋ฃน ๋ด ์ ์ ์ฐจ์ด**๋ก ๋์ฒด.
clip\mathrm{clip}
- ์ด๋ ๊ฒ ํ๋ฉด,
- Critic์ ์๋ตํด ๋ฆฌ์์ค ์ ์ฝ,
- ๊ทธ๋ฃน ๋ด ์๋ ๋น๊ต๋ก๋ ์ถฉ๋ถํ ํ์ต ์ ํธ๋ฅผ ์ป์ ์ ์์ด ํ์ต์ด ์์ .
2. ๋ณด์(Reward) ์ค๊ณ
- ์ ํ๋ ๋ณด์: ์ ๋ต์ด ๋ช
ํํ ์ํ ๋ฌธ์ , ์ฝ๋ฉ ๋ฌธ์ ๋ฑ์์ ์ต์ข
ํด๊ฐ ๋ง์ ๊ฒฝ์ฐ ๋ณด์์ ์ฃผ๋ ์(ํ
์คํธ์ผ์ด์ค ํต๊ณผ ๋ฑ).
- ์ถ๋ ฅ ํ์ ๋ณด์: reasoning์
<think>...</think> ํ๊ทธ ์์, ์ต์ข
๋ต์ <answer>...</answer> ํ๊ทธ ์์ ๋ฃ๋๋ก ์ ๋.
GRPO๋ PPO๋ , โ์ด๋ ์์ ์ ๋ณด์์ ์ฃผ๋๋?โ๊ฐ ์ค์ํฉ๋๋ค.
1. Outcome Supervision (OS)
- ์ต์ข
์ถ๋ ฅ(๋ง์ง๋ง ํ ํฐ)๋ง ํ๊ฐ.
- ์: โ์ด ๋ต์์ด ์ ์ฒด์ ์ผ๋ก ๋ง์๋์ง ํ๋ ธ๋์งโ๋ก ํ ๋ฒ์ ๋ณด์.
2. Process Supervision (PS)
- ์ถ๋ก ๊ณผ์ (์ค๊ฐ ํ ํฐ์ด๋, ๋จ๊ณ๋ณ ์ฝ๋ ๋ผ์ธ)์ ์ธ๋ถํํด ๊ฐ ๋จ๊ณ ๋ณด์.
- ์: โ์ค๊ฐ ๊ณ์ฐ ๊ณผ์ ์ด ๋ง์ผ๋ฉด ๋ถ๋ถ ๋ณด์โ โ ๋ ์ธ๋ฐํ ํ์ต ๊ฐ๋ฅ.
3. ํ์ต ํ
ํ๋ฆฟ
- ๋งค์ฐ ๊ฐ๋จํ ํํ. ์:
javascript
๋ณต์ฌํธ์ง
User: prompt
Assistant: <think> ... </think><answer> ... </answer>
### 2.5 Iterative RL (๋ฐ๋ณต ํ๋ จ)
- **Policy ๋ชจ๋ธ**๊ณผ **Reward ๋ชจ๋ธ**์ ๋ฒ๊ฐ์๊ฐ๋ฉฐ, ํน์ ์ฐ์์ ์ผ๋ก ์
๋ฐ์ดํธํ๋ ์ ๋ต.
- ์:
1. ์ ์ฑ
๋ชจ๋ธ์ด ์ํ ์์ฑ โ
2. ์ด๋ฅผ ํตํด Reward ๋ชจ๋ธ(๋๋ ๋ฃฐ ๊ธฐ๋ฐ)์ ์ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐ โ
3. Reward ๋ชจ๋ธ์ ์ฌํ์ต โ
4. ์๋ก์ด Reward ๋ชจ๋ธ๋ก ๋ค์ ์ ์ฑ
๋ชจ๋ธ ๊ฐํํ์ต โ โฆ
- ์ด๋ ๊ฒ ํ๋ฉด ๋ณด์ ๋ชจ๋ธ๋ ์ ์ฐจ โํ์ฌ ์ ์ฑ
์ด ๋ง๋ค์ด๋ด๋ ๋ค์ํ๊ณ ์๋ก์ด ์ํโ์ ๋ง์ถฐ **์งํ**ํ๊ธฐ ๋๋ฌธ์, RL ํ์ดํ๋ผ์ธ์ด ๋์ฑ ๊ณ ๋ํ.
4. ํ์ต ๊ฒฐ๊ณผ
- AIME 2024 ๊ธฐ์ค pass@1์ด 15.6% โ 71.0%(ํฉ์ํฌํ ์ 86.7%).
- OpenAI-o1-0912(74.4%)์ ๋๊ธ ๋ด์ง ์ผ๋ถ ์งํ์์๋ ์์๋ ์์ค.
- RL ๋จ๊ณ๊ฐ ์งํ๋๋ฉด์ ๋ชจ๋ธ์ด ์ค์ค๋ก (1) ์ถ๋ก ๋จ๊ณ ๊ธธ์ด ํ์ฅ, (2) ๋ฐ์ฑ(reflection), (3) ์๊ฐ ๊ต์ (self-verification) ๋ฑ์ ํ๋.
- ๋ค๋ง ์ฝ๊ธฐ ์ด๋ ค์ด ํํ**์ด๋ **์ธ์ด ํผํฉ(์คยท์๋ฌธ ๋ค์์) ๋ฌธ์ ๊ฐ ๋ฐ์.3.3.2. ํ์ต๊ณผ ์ถ๋ก ์ ํจ๊ณผ
ํ์ต ์ Cross-Entropy Loss๋ฅผ โ๊ธฐ์กด(Next Token) + MTP(Next2 Token)โ ํํ๋ก ํจ๊ป ์ต์ ํ.
์ถ๋ก ์์๋ MTP ๋ชจ๋์ ๋ฒ๋ฆฌ๊ฑฐ๋, ํน์ Speculative Decoding(๋์งธ ํ ํฐ๊น์ง ํ๊บผ๋ฒ์ ํ์ฉ)์ผ๋ก ์๋ ํฅ์์ ๊พํ ์ ์์ต๋๋ค.
ํต๊ณ์, DeepSeek-V3์์ ๋ ๋ฒ์งธ ํ ํฐ์ด ๋ง์ ํ๋ฅ ์ 85~90%๋ก ๋์, ์ฝ 1.8๋ฐฐ์ ํ ํฐ ์ฒ๋ฆฌ ์๋๋ฅผ ๊ตฌํํ๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค.
4. ํจ์จ์ ํ์ต(Training) ์ธํ๋ผ
4.1. FP8 Training
4.1.1. ๊ธฐ์กด BF16 ๋๋น FP8 ๋์
๋ฐฐ๊ฒฝ
BF16(๋๋ FP16)์ ๋ถ๋์์์ ์์ exponent๋ฅผ ์ถฉ๋ถํ ๋ณด์ฅํ๋, ํฐ ๋ชจ๋ธ์์๋ ๋ ์ค์ผ ์ ์๋ ์ฌ์ง๊ฐ ์์.
FP8์ exponent ๋นํธ ์๊ฐ ์ค์ด ์ ๋ฐ๋ ๋ฌธ์ ๊ฐ ์์ง๋ง,
(1) ๋ฏธ์ธ ๊ตฌ๊ฐ ๋จ์์ ์ค์ผ์ผ๋ง(์: 1ร128, 128ร128)
(2) ๋์ ์ ๋ฐ๋์ ๋์ฐ(accumulation)
(3) ์จ๋ผ์ธ ํํ์ด์ ์ด์
๋ฑ์ ํตํด ์ ๋ฐ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ฐ์ฐ์๋๋ฅผ ํฌ๊ฒ ๋์.
4.1.2. ๊ตฌ์ฒด์ ์ ๋ต
Fine-grained Quantization:
Activation(ํนํ forward ์
๋ ฅ ๋ฑ)์ โํ ํฐ๋ณ 128์ฑ๋ ๋จ์(1ร128)โ๋ก ์ค์ผ์ผ ์กฐ์ ,
Weight(๊ฐ์ค์น)๋ โ128ร128 ๋ธ๋ก ๋จ์โ๋ก ์ค์ผ์ผ ์กฐ์ .
๋์ ์ ๋ฐ๋ ๋์ฐ:
Tensor Core์์ FP8 ์ฐ์ฐ ์ ๋ด๋ถ์ 14๋นํธ ๋ฑ ์ ํ๋ ์ ๋ฐ๋๋ฅผ ์ฐ๋๋ฐ, ์ผ์ interval๋ง๋ค(์: 128๊ฐ์ฉ) CUDA Core์ FP32 ๋ ์ง์คํฐ๋ก ์น๊ฒฉํด ๋ ์ ํํ ์ถ์ .
Online Quantization:
์ต๋ ์ ๋๊ฐ์ ์ค์๊ฐ์ผ๋ก ๊ตฌํด, ํด๋น ๋ฏธ๋๊ทธ๋ฃน(ํ ํฐ/๋ธ๋ก ๋ฑ)์ ๋ง์ถฐ ์ค์ผ์ผ๋งํ์ฌ FP8๋ก ๋ณํ.
4.2. DualPipe ํ์ดํ๋ผ์ธ
4.2.1. ๋ฐฐ๊ฒฝ
DeepSeek-V3์ฒ๋ผ ๊ฑฐ๋ MoE ๋ชจ๋ธ์ ๊ฐ ๋ ์ด์ด(๋๋ ๊ตฌ๊ฐ)๋ฅผ GPU ์ฌ๋ฌ ๋์ ๊ฑธ์ณ ๋ถ์ฐ(Pipeline Parallel)์ํค๊ณ , MoE ํ ํฐ ์ ๋ฌ ๋ฑ All-to-all ํต์ ์ด ์ฆ์ต๋๋ค.
๋จ์ 1F1B(Forward 1๊ฐ, Backward 1๊ฐ)๋ ZeroBubble ๊ฐ์ ๊ธฐ์กด ๊ธฐ๋ฒ์ ํต์ ์๊ฐ์ด ๊ฒน์น์ง ์์ ์ ์ฒด ์๋ ์ ํ๊ฐ ํผ.
4.2.2. DualPipe ์๊ณ ๋ฆฌ์ฆ
์์ด๋์ด: Forward ์ฐ์ฐ ์ค์ Backward์ ํต์ , ๋๋ Backward์ ์ผ๋ถ ์ฐ์ฐ๊ณผ Forward์ ํต์ ์ ๋์์(Overlap) ์งํ.
์ธ๋ถ์ ์ผ๋ก Attention / MoE Dispatch / MLP / MoE Combine ๋ฑ์ ์๊ฒ ์ชผ๊ฐ์ด, ์ด๋ค ์ฌ์ด์ ํต์ ์ ํ์ดํ๋ผ์ธ ์ ์๋ก ๋ค๋ฅธ ๋ง์ดํฌ๋ก๋ฐฐ์น๋ผ๋ฆฌ ๊ฒน์น๊ฒ ๊ตฌ์ฑ.
๊ฒฐ๊ณผ์ ์ผ๋ก ํต์ ์ด ๊ฑฐ์ โ๊ณต์ง(fully hidden)โ์ฒ๋ผ ์ฒ๋ฆฌ๋์ด, ์ปค๋ค๋ GPU ํด๋ฌ์คํฐ์์๋ ํ์ฅ์ฑ์ด ์ข์์ง๋๋ค.
4.3. ์ถ๋ก (Inference) ๋ฐ ๋ฐฐํฌ ์ ๋ต
4.3.1. Prefilling
์ถ๋ก ์ โ์ฒ์ ๋ฌธ๋งฅ์ ๋๋์ผ๋ก ๋ฃ์ดโ ๋ชจ๋ธ ๋ด๋ถ ์ํ(KV ์บ์ ๋ฑ)๋ฅผ ์ฑ์ฐ๋ ๊ณผ์ .
DeepSeek-V3๋ ๋
ธ๋ ๊ฐ IB(InfiniBand) ํต์ ๊ณผ ๋
ธ๋ ๋ด NVLink ํต์ ์ ํผํฉํด ์ฌ์ฉ.
โ์ค๋ณต Expert(Redundant Expert)โ๋ฅผ ๋ฐฐ์นํด, ํน์ Expert๊ฐ ๊ณผ๋ถํ๊ฐ ๋์ง ์๋๋ก ๋์ ์ผ๋ก ํ ๋น.
์ด ๋ชจ๋ ๊ณผ์ ์ ํตํฉํ์ฌ ๋๊ท๋ชจ ์จยท์คํ๋ผ์ธ ์๋น์ค์ ๋์ ๊ฐ๋ฅํ ๊ตฌ์กฐ.
4.3.2. Decoding
Prefilling ํ, ์ค์ ํ ํ ํฐ์ฉ ๋์ฝ๋ฉํ๋ ๊ณผ์ .
์ค์๊ฐ ์์ฒญ์์๋ ๋ชจ๋ฉํ
์ด โAttention ์ฐ์ฐโ์ ๋ ์ง์ค๋จ.
๋ง์ฐฌ๊ฐ์ง๋ก โRedundant Expertโ + โNode๋ณ๋ก 1๊ฐ Expertโ ๋ฐฉ์์ผ๋ก ๊ตฌํํ์ฌ, ํ์ดํ๋ผ์ธ๊ณผ ํต์ ์ ๊ฒน์น๊ณ , ๊ธธ์ด๊ฐ ์งง์ ๋ง์ดํฌ๋ก๋ฐฐ์น๋ผ๋ ๋น ๋ฅธ ์๋ต์ด ๊ฐ๋ฅํ๋๋ก ํจ.
5. Pre-Training (์ฌ์ ํ์ต)
5.1. ๋ฐ์ดํฐ
์ด 14.8์กฐ(14.8T) ํ ํฐ ๊ท๋ชจ์ ๊ณ ํ์ง ๋ค๊ตญ์ด ๋ฐ์ดํฐ.
์ยท์ค์ฌ + ๊ธฐํ ์ธ์ด ํฌํจ.
์ํ, ์ฝ๋ฉ ๋น์ค์ ๋๋ฆฌ๊ณ , ๋ฐ์ดํฐ ์ค๋ณต ์ ๊ฑฐ์ ํ์ง ๊ด๋ฆฌ๋ฅผ ๊ฐํ.
Fill-in-Middle(FIM) ์ ๋ต ์ ์ฉ: 10% ์ ๋๋ ๋ฌธ์ฅ์ ๊ฐ์ด๋ฐ๋ฅผ ๋ง์ถ๋ ํํ๋ก ํ์ต(์ฝ๋ ์์ฑ ๋ฑ์์ ์ ์ฉ).
Byte-level BPE ๊ธฐ๋ฐ์ 12.8๋ง(128K) ํ ํฐ ์ฌ์ .
5.2. ํ์ต ์คํ
Transformer ๋ ์ด์ด์ 61, hidden dim=7168, ํค๋์=128 ๋ฑ.
๋ชจ๋ FFN(์ฒซ 3๊ฐ ์ ์ธ)์ MoE ์ ์ฉ. ๊ฐ ๋ ์ด์ด๋น ๊ณต์ Expert 1๊ฐ, ๋ผ์ฐํ
Expert 256๊ฐ.
๋จ, ๋งค ํ ํฐ์๋ 8๊ฐ Expert ํ์ฑํ.
๋ฐฐ์น ์ฌ์ด์ฆ ์ค์ผ์ค๋ง, LR(learning rate) ์ค์ผ์ค๋ง(์ด๋ฐ ์๋ฐ์
โ ์ฝ์ฌ์ธ ๋์ผ์ด), ๋ฑ ๋ค์ํ ๊ธฐ๋ฒ ์ฌ์ฉ.
MTP: depth=1, ์ฒซ 10T ํ ํฐ ๋์ MTP ๊ฐ์ค์น ฮป=0.3, ์ดํ 0.1๋ก ์กฐ์ .
Aux-loss-free์ bias ์
๋ฐ์ดํธ ์๋ ฮณ=0.001(์ฒ์ 14.3T ํ ํฐ๊น์ง), ๊ทธ ํ 0์ผ๋ก ์ค๋จ.
5.3. ๋กฑ์ปจํ
์คํธ ํ์ฅ (YaRN)
์ฌ์ ํ์ต ํ, 4K ๋ฌธ๋งฅ์์ ์์ํด 2๋จ๊ณ์ ๊ฑธ์ณ 32K, 128K๊น์ง ๋ฌธ๋งฅ์ ํ์ฅ.
YaRN(Peng et al., 2023) ๊ธฐ๋ฒ์ผ๋ก ๋กํ
๋ฆฌ ์๋ฒ ๋ฉ(RoPE)์ ํ์ฅํด, 128K ๊ธธ์ด๊น์ง ์์ ์ ์ผ๋ก ์ฒ๋ฆฌ.
5.4. ์ฑ๋ฅ ์์ฝ (Base ๋ชจ๋ธ)
English, Chinese, Multilingual ์ ๋ฐ์ ์์ฐ๋ฅด๋ ๋ฒค์น๋งํฌ์์ ๋๊ธ ๋๋น ์ต๊ณ ์์ค.
์) MMLU-Pro, GSM8K, MATH, HumanEval ๋ฑ ์ฝ๋ฉยท์ํ ๋ถ์ผ ์ต๊ณ ์์ค.
๋๋ฑ ๊ท๋ชจ ํน์ ๋ ํฐ Dense ๋ชจ๋ธ๊ณผ ๋น๊ต ์๋์์๋ ํ์ต ๋น์ฉ์ด๋ ์ถ๋ก ํจ์จ ๋ฉด์์ ๊ฐ์ .
6. Post-Training(์ถ๊ฐ ํ์ต, SFTยทRL)
6.1. Supervised Fine-Tuning (SFT)
์ฝ 150๋ง ๊ฑด์ ๊ณ ํ์ง ์ธ์คํธ๋ญ์
ํ๋ ๋ฐ์ดํฐ.
ํนํ ์ํยท์ฝ๋ ๋ฑ ๋
ผ๋ฆฌ์ ์ฌ๊ณ (Reasoning) ๋ถ์ผ ๋ฐ์ดํฐ์ ์ง์ค.
DeepSeek-R1 ๋ชจ๋ธ(๋ณ๋ โLong Chain-of-Thoughtโ์ ํนํ)์ ์ถ๋ ฅ์ ์ ์ ํ ์ ์ ํ์ฌ(๋๋ฌด ๊ธธ๊ฑฐ๋ ํฌ๋งท ์ํจ ๋ถ๋ถ ๋ณด์) final SFT ๋ฐ์ดํฐ๋ก ํ์ฉ โ ์ ํ๋ ๋ํญ ์์น.
6.2. RL (Reinforcement Learning)
Group Relative Policy Optimization (GRPO) ๊ธฐ๋ฒ ์ฌ์ฉ.
Rule-based RM(์ ๋ต ๊ฒ์ฆ ๊ฐ๋ฅ ๋ฌธ์ ) + Model-based RM(์ ๋ต์ด ํ๋๋ก ๊ฒฐ์ ์ด๋ ค์ด ๋ฌธํญ) ํผํฉ.
์๊ธฐ ์์ (DeepSeek-V3)์ด ๋ง๋ ํฌํ๊ฒฐ๊ณผ ๋ฑ์ ๋ค์ ๋ณด์์ผ๋ก ํ์ฉํ๋ โSelf-Rewarding(Constitutional AI)โ ๋ฐฉ์๋ ๋ณํ.
7. ๊ฒฐ๋ก ๋ฐ ํ๊ณ
DeepSeek-V3๋ (1) MLA, (2) DeepSeekMoE, (3) Aux-loss-free balancing, (4) MTP, (5) FP8 training ๋ฑ ๋ค์ํ ํ์ ์์๋ฅผ ๊ฒฐํฉํ **๊ฑฐ๋ ์คํ์ค ๋ชจ๋ธ(MoE)**์
๋๋ค.
์ด ํ๋ผ๋ฏธํฐ 6710์ต์ด์ง๋ง, ๋งค ํ ํฐ๋ง๋ค 370์ต ํ๋ผ๋ฏธํฐ๋ง ํ์ฑํํ๊ณ ,
์ฌ์ ํ์ต 14.8T ํ ํฐ,
๋กฑ์ปจํ
์คํธ(์ต๋ 128K) ์ง์,
ํฌ์คํธ ํธ๋ ์ด๋(SFT+RL)์ผ๋ก ์ ๋ฐ๋์ ํ์ฉ๋(์ฝ๋ยท์ํ ๋ฑ) ๊ทน๋ํ๋ฅผ ์ด๋ฃน๋๋ค.
ํ์ต ๋น์ฉ ์ญ์ **H800 GPU ๊ธฐ์ค ์ฝ 278๋ง8์ฒ GPU-์(์ฝ 560๋ง ๋ฌ๋ฌ)**๋ก, ์ด ์ ๋ ๊ท๋ชจ์ ๋ชจ๋ธ ์ค์์ ๋งค์ฐ ๊ฒฝ์ ์ ์ผ๋ก ๋ฌ์ฑ.
7.1. ์ ํ์ฌํญ
๋๊ท๋ชจ ํด๋ฌ์คํฐ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ๋์ด, ์ ์ GPU ๋ณด์ ํ์ด ์ง์ ์ถ๋ก /์๋น์คํ๊ธฐ๋ ์ด๋ ต๋ค.
์ถ๋ก ์๋๋ ๊ธฐ์กด Dense ๋ํ ๋ชจ๋ธ๋ณด๋ค ๋ซ์ง๋ง, ์์ Dense ๋ชจ๋ธ ๋๋น ์ฑ๋ฅ/์๋ ์ ์ถฉ์ ์ฌ์ฉ ์๋๋ฆฌ์ค์ ๋ฐ๋ผ ๊ณ ๋ฏผ์ด ํ์.
7.2. ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ
๋ฌดํ๋ ํน์ ๋ ํฐ ์ปจํ
์คํธ๋ฅผ ์ํ RoPE/AliBi ๋ฑ ํ์ฅ ๊ธฐ๋ฒ ์ฐ๊ตฌ.
MoE ์ด์์ผ๋ก ํจ์จ์ ์ธ ๊ตฌ์กฐ(์: ์คํ์คํ Attention, Retrieval-Augmented ๋ฑ)์์ ์กฐํฉ.
๋ค์ํ ๋ถ์ผ(๋น์ ยท๋ฉํฐ๋ชจ๋ฌ ๋ฑ)์ผ๋ก ํ์ฅ, ํ๋ จ ์ ํธ ๋ค์ํ.
**LLM ์์ฒด๋ฅผ ๋ณด์ ํจ์๋ก ํ์ฉ(Self-Rewarding)**ํ๋ ๊ธฐ๋ฒ์ ๋ ๊ณ ๋ํ.
DeepSeek-R1 Release
โก Performance on par with OpenAI-o1
๐ Fully open-source model & technical report
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
1. ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ Mixture-of-Experts(MoE)๋ฅผ ์ ์ฉํ๋๊ฐ?
1.1. LLM์ ๊ธฐ๋ณธ ์์ด๋์ด
**๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)**์ ๋ฐฉ๋ํ ์์ ํ
์คํธ๋ฅผ ํ์ตํ์ฌ ์์ฐ์ด ์ฒ๋ฆฌ๋ฅผ ์ํํ๋ ๋ชจ๋ธ์
๋๋ค. Transformer ๊ตฌ์กฐ(Vaswani et al., 2017)๊ฐ ์ฃผ๋ฅ์ด๋ฉฐ, ์๊ฐํ๊ท(autoregressive) ๋ฐฉ์์ผ๋ก ๋ค์ ํ ํฐ์ ์์ธกํ๋ ํ๋ฅ ์ ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค.
์ด๊ธฐ์ ๋๊ท๋ชจ ๋ชจ๋ธ์ ์ ๋ถ Dense ๋ชจ๋ธ์ด์๋๋ฐ, ์ด๋ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๋งค ํ ํฐ๋ง๋ค ์ ๋ถ ํ์ฑํํ์ฌ ๊ณ์ฐํฉ๋๋ค. ์) GPT ์๋ฆฌ์ฆ, BERT ์๋ฆฌ์ฆ ๋ฑ.
1.2. Mixture-of-Experts(MoE)์ ํต์ฌ ๋๊ธฐ
**Mixture-of-Experts(์ดํ MoE)**๋ ๋งค ํ ํฐ๋ง๋ค โ์ ๋ถ๊ฐ ์๋ ์ผ๋ถ ์ ๋ฌธ๊ฐ(Expert)โ ํ๋ผ๋ฏธํฐ๋ง ์ฌ์ฉํด ์ถ๋ก ํ๋๋ก ํ๋ ์์ด๋์ด์
๋๋ค.
์) 1,000์ต ๊ฐ ํ๋ผ๋ฏธํฐ ์ค์์ 50์ต ๊ฐ๋ง ํ์ฑํ, ๋๋จธ์ง๋ ๋นํ์ฑํ.
์ฅ์ :
๊ฒฝ์ ์ฑ: ๋๊ท๋ชจ ํ๋ผ๋ฏธํฐ ์ค ์ผ๋ถ๋ง ๊ณ์ฐํ๋ฏ๋ก, ๊ฐ์ ์์ค(๋๋ ๋ ๋์ ์์ค)์ ํํ๋ ฅ์ ๋ ์ ์ FLOPs(์ฐ์ฐ๋)๋ก ๋ฌ์ฑ.
์ ๋ฌธ์ฑ ๋ถํ: ํ ํฐ๋ณ๋ก ๊ฐ์ฅ ์ ๋ง๋ ์ ๋ฌธ๊ฐ(Expert)๊ฐ ํ์ฑํ๋๋ฉฐ, ํน์ ํ ํฐ(์: ์ํ, ํ๋ก๊ทธ๋๋ฐ, ์ํ ํ
์คํธ ๋ฑ)์ ํด๋น ๋ถ์ผ์ ํนํ๋ Expert๊ฐ ํ์ต๋์ด ์ฑ๋ฅ ํฅ์.
ํ์ง๋ง ๋ฌธ์ ์ ๋ ์กด์ฌํฉ๋๋ค:
Expert๋ค์ ๋ถํ ๋ถ๊ท ํ(Load Imbalance): ํน์ Expert์๋ง ํ ํฐ์ด ๊ณผ๋ํ๊ฒ ๋ชฐ๋ฆฌ๋ฉด ํ์ต/์ถ๋ก ์ด ๋นํจ์จ์ .
ํ์ต ์ Token dispatch/combination ๋จ์์ ํต์ (์ฌํฌ์ฌ(All-to-all) ํต์ )์ด ๋ง์์ ธ ์ค๋ฒํค๋๊ฐ ์ปค์ง ์ ์์.
DeepSeek-V3๋ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด DeepSeekMoE๋ผ๋ ๊ตฌ์กฐ์ ๋ณด์กฐ ๋ก์ค ์๋(Aux-loss-free) ๋ก๋ ๋ฐธ๋ฐ์ฑ ์ ๋ต์ ์ ์ฉํฉ๋๋ค.
2. DeepSeek-V3์ ์ค๊ณ ๊ฐ์
DeepSeek-V3๋ ์ฝ **6710์ต ๊ฐ(โ์ด ํ๋ผ๋ฏธํฐโ)**์ ๋ฌํ๋ ๊ฑฐ๋ ๋ชจ๋ธ์ด์ง๋ง, ๋งค ํ ํฐ๋ง๋ค ์ฝ 370์ต ๊ฐ ํ๋ผ๋ฏธํฐ๋ง ํ์ฑํํด์ ๊ณ์ฐํ๋๋ก ์ค๊ณ๋์์ต๋๋ค.
์ด๋ฐ ๊ฑฐ๋ ๋ชจํ์ ํจ์จ์ ์ผ๋ก ํ์ตยท์ถ๋ก ํ๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ํต์ฌ ์ค๊ณ๋ฅผ ์ฑํํ์ต๋๋ค.
Multi-head Latent Attention (MLA)
๊ธฐ์กด Transformer์ Self-Attention์์ Key-Value๋ฅผ ์ถ์(latent vector)ํ ๋ค, ํ์ํ ๋๋ง ๋ค์ ๋ณต์(up-projection)ํ๋ ๋ฐฉ๋ฒ์ผ๋ก, KV ์บ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ค์ฌ ๋๊ท๋ชจ ๋ชจ๋ธ์ด๋ผ๋ ๊ธด ๋ฌธ๋งฅ ์ฒ๋ฆฌ ์๋๋ฅผ ๋์.
DeepSeekMoE + Aux-loss-free balancing
FFN(Feed-Forward Network) ๋ถ๋ถ์ MoE ๊ตฌ์กฐ๋ก ๊ตฌ์ฑํ๋, Expert ๊ฐ ๋ถํ๋ฅผ ๋ง์ถ๊ธฐ ์ํด โ๋ณด์กฐ ๋ก์ค(auxiliary loss)โ๋ฅผ ๊ฐ์ ํ์ง ์๊ณ , ๋์ ๋ฐ์ด์ด์ค(bias)๋ฅผ ์กฐ์ ํด ๋ถ๊ท ํ์ ํด๊ฒฐ(โAux-loss-freeโ ๊ธฐ๋ฒ).
์ด๋ ๊ฒ ํจ์ผ๋ก์จ ๋ชจ๋ธ ์ฑ๋ฅ ์์ค ์์ด ๋ก๋ ๋ฐธ๋ฐ์ฑ์ ๋ฌ์ฑ.
Multi-Token Prediction (MTP)
ํ ์์น์์ ๋ค์ ํ ํฐ ํ๋๋ง ์์ธกํ๋ ๊ฒ์ด ์๋๋ผ, ํ ๋ฒ์ ์ฌ๋ฌ ํ ํฐ(์ฌ๊ธฐ์๋ 2๊ฐ)๊น์ง ์์ธกํ๋๋ก ํ์ต.
๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ๋ชจ๋ธ ์ฑ๋ฅ ๋ชจ๋์ ๋์์ ์ฃผ๋ฉฐ, ์ถ๋ก ์์๋ Speculative Decoding ๊ธฐ๋ฒ์ผ๋ก TPS(์ด๋น ํ ํฐ ์ฒ๋ฆฌ๋)๋ฅผ ๋์ด๋ ๋ฐ ํ์ฉ ๊ฐ๋ฅ.
FP8 Training ๋ฐ ํจ์จ์ ๋ถ์ฐ ํ์ต
๋๋ถ๋ถ์ ๊ณ์ฐ์ FP8 ์ ๋ฐ๋๋ก ์ํํ์ฌ ํ์ต ๋น์ฉ๊ณผ GPU ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ํฌ๊ฒ ์ ๊ฐ.
์ด ๊ณผ์ ์์ ์ ๋ฐ๋ ์์ค์ ์ต์ํํ๊ธฐ ์ํด, ๋ฏธ์ธํ ์ค์ผ์ผ๋ง(granularity scaling)๊ณผ ๋์ ์ ๋ฐ๋์ ๋์ฐ(accumulation)์ ์ฌ์ฉ.
All-to-all ํต์ ์ ๋ถ์ฐ ํ์ดํ๋ผ์ธ๊ณผ ๊ฒน์ณ์(dual-pipe) ์ค๋ฒํค๋๋ฅผ ์ต๋ํ ์จ๊น.
3. ํต์ฌ ๊ตฌ์ฑ ์์๋ณ ์์ธ ์ค๋ช
3.1. Multi-head Latent Attention(MLA)
3.1.1. ์ MLA์ธ๊ฐ?
๋๊ท๋ชจ ๋ชจ๋ธ์ โKV ์บ์(Key-Value Cache)โ๊ฐ ๋งค์ฐ ์ปค์ง ์ ์์ต๋๋ค. ์์ปจ๋ 64๊ฐ ํค๋ ร ํ๋ ์ฐจ์ 128 ๋ฑ์ผ๋ก ์ปค์ง๋ฉด, ๊ธด ๋ฌธ๋งฅ ์ฒ๋ฆฌ ์ ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ๋์ด ๋ฌธ์ ๋จ.
MLA๋ Key/Value๋ฅผ ๋จผ์ ์ ์ฐจ์(latent)์ผ๋ก ์์ถํ๋ค๊ฐ, ์ค์ Attention ์ฐ์ฐ ์ง์ ์ ๋ค์ ๋ณต์(up-projection)ํด ์ฌ์ฉํฉ๋๋ค.
์ถ๋ก ์, โ์์ถ๋ ๋ฒกํฐ(c_KV_t ๋ฑ)โ๋ง ์บ์์ ์ ์ฅํ๋ฉด ๋๋ฏ๋ก, ์บ์ ๋ฉ๋ชจ๋ฆฌ๊ฐ ํฌ๊ฒ ์ค์ด๋ญ๋๋ค.
3.1.2. ๊ตฌ์กฐ
Attention์ ํ์ํ Query/Key/Value๋ฅผ ๋ค์์ฒ๋ผ ๊ตฌ๋ถ:
(1) ์์ถ(latent) ๋ฒกํฐ: h_t โ c_KV_t(์ฐจ์ d_c).
(2) ๋ณต์(up-projection) ํ๋ ฌ: c_KV_t โ (k_C, v_C).
(3) RoPE ๋กํ
๋ฆฌ ์๋ฒ ๋ฉ์ฉ decoupled query/key: ์ถ๊ฐ๋ก k_R, q_R๋ฅผ ์์ฑํ์ฌ ๋ฌธ๋งฅ ์์น ์ ๋ณด๋ฅผ ๋ฐ์.
๊ฒฐ๋ก ์ ์ผ๋ก MLA๋ Token ํ๋๊ฐ ์ง๋๊ฐ ๋ (์์ถ + ๋ณต์ + RoPE + ์ต์ข
์ดํ
์
) ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค.
์ด๋ฅผ ํตํด **โKV ์บ์ ํฌ๊ธฐ ๊ฐ์โ**์ **โ์ฑ๋ฅ ๋ณด์กดโ**์ด๋ผ๋ ๋ ๊ฐ์ง ์ด์ ์ ์ป์ต๋๋ค.
3.2. DeepSeekMoE (Mixture-of-Experts) & Auxiliary-loss-free Balancing
3.2.1. DeepSeekMoE ๊ธฐ๋ณธ ์์ด๋์ด
Transformer์ FFN ๋จ์ MoE Layer๋ก ๋ฐ๊พธ์ด,
์ผ๋ถ(๊ณต์ Expert, N_s๊ฐ)๋ ๋ชจ๋ ํ ํฐ์ด ๊ณตํต์ ์ผ๋ก ์ฐ๊ณ ,
๋๋จธ์ง(๋ผ์ฐํ
Expert, N_r๊ฐ)๋ ํ ํฐ๋ณ๋ก top-Kr๊ฐ๋ง ์ ๋ณํ์ฌ ๊ณ์ฐ.
์: h'_t = h_t + ฮฃ(Shared Experts) + ฮฃ(Routed Experts).
๋ผ์ฐํ
์ ํ ํฐ๊ณผ Expert ๊ฐ์ ์ ์(affinity)๋ฅผ ๊ตฌํ์ฌ, ๊ฐ์ฅ ๋์ Expert ๋ช ๊ฐ๋ฅผ ํ์ฑํ.
3.2.2. Aux-loss-free ๋ก๋ ๋ฐธ๋ฐ์ฑ
๊ธฐ์กด MoE ์ฐ๊ตฌ๋ค์ Expert ๊ฐ ๋ถํ๋ฅผ ๊ท ๋ฑํ๊ฒ ๋ง๋ค๊ธฐ ์ํด **๋ณด์กฐ ๋ก์ค(auxiliary loss)**๋ฅผ ํจ๊ป ์ต์ํํ์ต๋๋ค.
ํ์ง๋ง ์ด ๋ก์ค๊ฐ ๋๋ฌด ํฌ๋ฉด ๋ชจ๋ธ ๋ณธ๋์ ์ต์ ํ๋ฅผ ํด์น ์ ์์ต๋๋ค.
DeepSeek-V3๋ ๋ณด์กฐ ๋ก์ค ์์ด๋ ๊ท ๋ฑ ๋ถํ๋ฅผ ๋ฌ์ฑํ๋๋ก, ๊ฐ Expert๋ง๋ค ๋์ ์ธ โbiasโ ๋ณ์๋ฅผ ๋๊ณ , ๋งค ์คํ
๋ง๋ค expert๊ฐ ๊ณผ๋ถํยท์ ๋ถํ์ธ์ง์ ๋ฐ๋ผ bias๋ฅผ ์กฐ์ ํฉ๋๋ค.
๊ทธ ๊ฒฐ๊ณผ, ๊ท ๋ฑ ๋ถํ๋ฅผ ์ ์งํ๋ฉด์๋ ๋ชจ๋ธ ์ฑ๋ฅ ์ํด๊ฐ ์ ๊ณ , ์ ๋ฌธ๊ฐ ๋ถํ๋ฅผ ๊ทน๋ํํฉ๋๋ค.
3.2.3. ์ถ๊ฐ๋ก ์ ์ฉ๋๋ ๊ธฐ๋ฒ๋ค
Sequence-wise auxiliary loss: ๊ทธ๋๋ ํน์ ์ํ์ค๊ฐ ์ผ๋ถ expert์๋ง ๋ชฐ๋ฆฌ๋ ๊ทน๋จ์ ๋ฐฉ์งํ๊ธฐ ์ํด, ๋งค์ฐ ์์ ๊ฐ์ค์น์ ์ํ์ค ์ฐจ์ ๋ณด์กฐ ๋ก์ค๋ฅผ ์ถ๊ฐ.
Node-limited routing: ํต์ ์ค๋ฒํค๋๋ฅผ ์ ํํ๊ธฐ ์ํด ํ ํ ํฐ์ด ์ต๋ M๊ฐ์ ๋
ธ๋๊น์ง๋ง ๋ถ์ฐ๋๋ ์ ํ์ ๋ (์: M=4).
Token-dropping ์์: ๋ก๋ ๋ฐธ๋ฐ์ค๊ฐ ์์ ์ ์ผ๋ก ์ ์ง๋๋ฏ๋ก, DeepSeek-V3๋ ํ ํฐ ๋๋กญ ์์ด ์งํ.
3.3. Multi-Token Prediction (MTP)
3.3.1. ํ ๋ฒ์ ์ฌ๋ฌ ํ ํฐ ์์ธกํ๊ธฐ
์ผ๋ฐ Transformer๋ ์์น t์์ โt+1๋ฒ์งธโ ํ ํฐ๋ง ์์ธก.
MTP๋ t์์ โt+1, t+2, โฆโ ๊ฐ์ด ์ฌ๋ฌ ๊ฐ๋ฅผ ์์ธกํ๋๋ก ์ถ๊ฐ ๋ชจ๋์ ๋ก๋๋ค.
DeepSeek-V3์์๋ depth=1(์ฆ, โ๋ค์ ํ ํฐ + ์ถ๊ฐ๋ก ๊ทธ ๋ค์ ํ ํฐโ)๋ง ์์ธกํ๋, ์ด๋ฅผ ํตํด ๋ฐ์ดํฐ ํจ์จ๊ณผ ์ฑ๋ฅ ํฅ์์ ์ป์์ต๋๋ค.
์ฃผ๋ง ๋ด๋ด OpenAI์ '์คํผ๋ ์ดํฐ' ์์ด์ ํธ์ ํจ๊ป ๋์์ต๋๋ค. https://www.youtube.com/live/CSE77wAdDLg?si=lwBc_rySVhPbz-Qc
๋ช ๊ฐ์ง ์ด๊ธฐ ์๊ฐ:
1) ์ด๋ฏธ ํธ์คํ
๋์ด ์๊ณ ๋ฐ๋ก ์ฌ์ฉํ ์ ์๋ค๋ ์ฌ์ค์ Claude์ โ์ปดํจํฐ ์ฌ์ฉโ ๊ธฐ๋ฅ๋ณด๋ค ๋ ๋๋ฆฌ ์ฌ์ฉ๋ ์ ์๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
2) ์ด์์๋ ์ด๋ค ์ด์ ๋ก๋ API๋ฅผ ์ฌ์ฉํ ์ ์๋ ์น์ฌ์ดํธ๋ API๊ฐ ์๋ ๊ฒ์ฒ๋ผ ์๋ํ๋๋ก ๋ง๋ค ์ ์์ต๋๋ค. ์ด์ ์๋ํํ ์ ์๊ฒ ๋ฉ๋๋ค.
3) ์คํผ๋ ์ดํฐ๋ LLM์ ๋๊ตฌ ํธ์ถ๊ณผ ๋น์ทํฉ๋๋ค. ๋ค๋ง ์ธํฐ๋ท ์ ์ฒด๋ฅผ '๋๊ตฌ'๋ก ์ฌ์ฉํ๋ค๋ ์ ๋ง ๋ค๋ฆ
๋๋ค(์ฌ์ดํธ์ API๊ฐ ์๋ ์๋ ).
4) ๋๋ฆฌ ์ฌ์ฉ๋๋ ํจ์์ ๋ํ ์บ์ฑ/์ฌ์ ์ปดํ์ผ์ ํํ๋ฅผ ๋ณผ ์ ์์ต๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ์ด์์๋ ์ผ๋ฐ์ ์ผ๋ก ํ์ํ ๊ธฐ๋ฅ์ ๋ํด *์์ฒด* API๋ฅผ ์์ฑํ ๋ค์, ์ด๋ฅผ ์ฌ์ฉํ์ฌ ํน์ ์์
์ ์ํํ ์ ์์ต๋๋ค.
5) ์คํผ๋ ์ดํฐ๋ ๊ฐ์ ๋ธ๋ผ์ฐ์ ์ ์ฌ๋ฌ ์ธ์คํด์ค์ ๊ฑธ์ณ ๊ธด ์์
๋ชฉ๋ก์ ๋ฐฐํฌํ๊ธฐ ์ํด ๋ฐฑ๊ทธ๋ผ์ด๋์์ ์์ฒด์ ์ผ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค.
6) ์ด์์๋ ์์
์ ๋ณ๋ ฌํํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ถ๋ก ํ ์ ์์ ๊ฒ์
๋๋ค. ์์: ์์
์๋ 50๊ฐ์ ์น ํ์ด์ง๋ก ๊ตฌ์ฑ๋ ๊ฒฐ๊ณผ๋ฅผ ํ์ด์งํ๋ ์์
์ด ํฌํจ๋ฉ๋๋ค. ๋์ ๋ค์๊ณผ ๊ฐ์ด ๋งํ ์ ์์ต๋๋ค: ์ฐ์ฐ์ A๋ ์ฒซ ๋ฒ์งธ ํ์ด์ง์์ ์์ํ์ฌ ์์ผ๋ก ์ด๋ํฉ๋๋ค. ์ฐ์ฐ์ B๋ ๋ง์ง๋ง ํ์ด์ง์์ ์์ํ์ฌ ๋ค๋ก ์ด๋ํฉ๋๋ค. ๋ชจ๋ ํ์ด์ง๊ฐ ์๋ฃ๋๋ฉด โ์ค๊ฐ์์ ๋ง๋๊ฒโ ๋ฉ๋๋ค.
7) ํ์ฌ ์น์ฌ์ดํธ๋ (๋๋ถ๋ถ) ์ธ๊ฐ์ ์ํด ๋ง๋ค์ด์ก๊ณ API๋ (๋๋ถ๋ถ) ๊ฐ๋ฐ์(ํน์ํ ์ ํ์ ์ธ๊ฐ)๋ฅผ ์ํด ๋ง๋ค์ด์ก์ต๋๋ค. ๋ชจ๋ฐ์ผ ์ฌ์ดํธ๋ ๋ชจ๋ฐ์ผ ๊ธฐ๊ธฐ๋ฅผ ์ฌ์ฉํ๋ ์ฌ๋์ ์ํด ๋ง๋ค์ด์ก์ต๋๋ค. ์์ผ๋ก๋ ์์ด์ ํธ AI๊ฐ ์ฌ์ฉํ๊ธฐ ์ํด ํน๋ณํ ์ ์๋ ์น์ฌ์ดํธ๋ฅผ ๋ณด๊ฒ ๋ ์ง ๊ถ๊ธํฉ๋๋ค.
โข ๋ชจ๋ธ์ ์ํ์ค ๊ธธ์ด ์ฆ๊ฐ, KV์บ์ ๋ฉ๋ชจ๋ฆฌ ๋ฌธ์ ๊ฐ ๋ฐฐ์น ํจ์จ์ ๋จ์ด๋จ๋ฆผ.
โข OpenAI ๋ฑ์ โ์ฅ๋ฌธ ์ถ๋ก โ ๋ชจ๋ธ์ ๋ ๋์ API ๊ฐ๊ฒฉ ๋งค๊น. ๋ค์ํ ์ต์ ํ(GQA, quant, flash-attn ๋ฑ)๊ฐ ํ์.
3. AI ์ธํ๋ผ ํฌ์
โข GPU(๋๋ TPU) ์์ฒด ๊ฐ๊ฒฉ์ด ์๋ฑํ ๋น์ธ, ์ ๊ธฐยท์ฟจ๋ง ๋น์ฉ์ ์๋์ ์ผ๋ก ์์.
โข ๋ฐ๋ผ์ โ๋๊ท๋ชจ ๋ฐฐ์น๋ก GPU ํ ๊ฐ๋, ๋จ๊ฐ ์ ๊ฐโ ๋ฐฉ์์ด ํต์ฌ ๋น์ฆ๋์ค ๋ชจ๋ธ.
โข Sovereign ํ๋, ์ฌ๋ชจํ๋, ํด๋ผ์ฐ๋ ์คํํธ์
๋ฑ ์ ๋ฐฉ์์์ ์ผ์ข
์ ์ธํ๋ผ ๊ธ์ต์ผ๋ก ํฌ์ ์ดํ.
4. ์ฐ๊ตฌ/๊ฐ๋ฐ ๊ณผ์
โข ๋ฉํฐ ๋ฐ์ดํฐ์ผํฐ ๋น๋๊ธฐ ํ๋ จ, ๋ ๊ธด ์ํ์คยทKV์บ์ ์ต์ ํ, ํฌ์์ฑยท์์ํ, ์๋ ๋ถ์ฐ ๊ด๋ฆฌ ๋ฑ ํด๊ฒฐํด์ผ ํ ๋ฌธ์ ์ฌ๋ฟ.
โข ์๋ณธ๊ณผ ์ธ๋ ฅ์ด ๋๊ท๋ชจ ํฌ์
๋๋ฉด์ โ์ง์์ ์ธ ์ธํ๋ผ ํ์ +๋น์ฉ ์ ๊ฐโ์ด ์์๋๋, ์ ๋ ฅยทํ๊ฒฝ ๋ฌธ์ ๋ ๊ฐ๋ฑ ์์.
๊ฒฐ๊ตญ ๋ณธ ๋ฐํ์ ํต์ฌ ๋ฉ์์ง๋, AI ๋ํ ๋ชจ๋ธ์ ํ์ตยท์ถ๋ก ํ๊ธฐ ์ํด ์ ์ธ๊ณ๊ฐ ์ ๋ก ์์ด ๊ฑฐ๋ํ GPU ๊ธฐ๋ฐ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ๊ฑด์ค ์ค์ด๊ณ , ์ด ๊ณผ์ ์์ ํ ํฐ ๋ฐฐ์นยทKV ์บ์ยท์ํ์ค ๊ธธ์ด ๋ฑ ์์คํ
์ ๋ณ๋ชฉ๊ณผ ์์ฒญ๋ ์๋ณธ/์ ๋ ฅ ์๊ตฌ๊ฐ ๋๋ฌ๋๊ณ ์๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์
๊ณ ์ ๋ฐ์ โAGI, AI ํญ๋ฐ์ ์ฑ์ฅโ์ ๊ธฐ๋ํ๋ฉฐ, ์ ์ด๋ ์๋
๊ฐ์ ์ด๋ฌํ ์ด๋ํ ํ์ฅ ๊ธฐ์กฐ๊ฐ ์ด์ด์ง ์ ๋ง์์ ์์ฌํ๋ค.
https://youtu.be/hobvps-H38o
AI ๋ฉ๊ฐ ํด๋ฌ์คํฐ(Mega Clusters)์ ํํฉ
2.1 ๋ง์ดํฌ๋ก์ํํธ & OpenAI์ ์์
1. ์ ๋ฆฌ์กฐ๋ ๋ฐ์ดํฐ์ผํฐ
โข ๊ฑด๋ฌผ(โ๋ฐ์ดํฐ ํโ) ํ๋๋น ์ ๋ ฅ ์ฝ 48MW, ๋ด๋ถ์ 3.2๋ง ๊ฐ GPU(์ด 32k GPU) ํ์ฌ ๊ฐ๋ฅ.
โข ์ฌ๋ฌ ๊ฑด๋ฌผ์ ๋ฌถ์ด 10๋ง ๊ฐ GPU ๊ท๋ชจ๋ ๊ตฌ์ฑ.
โข ๋น
๋ชจ๋ธ(GPT-4/5 ๋ฑ) ํ์ต์ ์ํด ์ค๊ณ๋ ์ ํ์ ๊ตฌ์กฐ.
2. ํฅํ ํ์ฅ
โข ๊ณผ๊ฑฐ ๋จ์ผ ๊ฑด๋ฌผ(50MW ์ ํ)์ ๋์ด, 300MW~1.5GW๊ธ ๋จ์ผ ๋ถ์ง ๊ท๋ชจ๋ฅผ ๋ชฉํ.
โข 1.5GW๊ธ์ด๋ฉด ์ฝ 100๋ง(1e6) ๊ฐ GPU๋ฅผ ์์ฉ ๊ฐ๋ฅ โ GPT-4๋ณด๋ค ํจ์ฌ ํฐ ๊ท๋ชจ์ ๋ชจ๋ธ.
3. ๋คํธ์ํน ๋ฐ ํ ํด๋ก์ง
โข ๋ค์ธต ์ค์์น(rail-optimized vs. fat-tree) ๊ตฌ์กฐ๋ก ๊ณ ๊ฐ์ฉ์ฑ/๊ณ ๋์ญํญ ๊ตฌํ.
โข Synchronous GD(๋๊ธฐ ๋ฐฉ์)์์ ๋ฒ์ด๋, Multi-datacenter๋ฅผ ๋ฌถ์ ์ ์๋ Asynchronous/ํ๋ผ๋ฏธํฐ ์๋ฒ/๊ณ์ธต์ SGD ๊ธฐ๋ฒ์ ๋ํ ์ฐ๊ตฌ ํ๋ฐ.
โข ์ง์ฐ(latency)๋ณด๋ค๋ ๋์ญํญ ๋ถ์กฑ์ด ์ฌ๋ฌ ๋ฐ์ดํฐ์ผํฐ ์ฐ๊ฒฐ ์ ํฐ ๋ฌธ์ .
2.2 ๊ตฌ๊ธ TPU ํด๋ฌ์คํฐ
1. ๊ณ ์ง์ ยท์๋ญ(๋ฌผ๋๊ฐ) ์ค๊ณ
โข TPU๋ ์ ๋ ฅ ๋ฐ๋๊ฐ ํฌ๋ฏ๋ก ์ผ์ฐ๋ถํฐ ๋ฌผ๋๊ฐ, ๋์ ๋ฐ๋ ์ค๊ณ๋ฅผ ๋์
.
โข ์ง์ญ๋ณ(์คํ์ด์ค, ์์ด์ค์ ๋ฑ) ์ฌ๋ฌ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ๊ดํต์ ์ผ๋ก ์ฐ๊ฒฐ, ๋๊ท๋ชจ ํ์ต ์ ํ๋์ ๋ถ์ฐ ํด๋ฌ์คํฐ์ฒ๋ผ ์ฌ์ฉ ๊ณํ.
2. ๋๊ธฐ์์์ ๋น๋๊ธฐ์์ผ๋ก
โข ๋๊ธฐ์ ํ์ต ์ ๋ช ๋ง~๋ช ์ญ ๋ง GPU(๋๋ TPU) ๊ฐ ๋๊ธฐํ ๋ฌธ์ ๋ฐ์.
โข ๊ตฌ๊ธ ๋ฑ์ โ์ฌ๋ฌ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ์ฐ๊ฒฐํด ๋จ์ผ ๊ฑฐ๋ ํด๋ฌ์คํฐโ ๊ตฌ์ฑ์ ์๋ํ๋, ์์ง์ ์ฌ๋ฌ ์ฐ๊ตฌ ๊ณผ์ ๊ฐ ๋จ์ ์์.
2.3 xAI(Elon Musk) ์ฌ๋ก
1. ๋ฉคํผ์ค ๊ณต์ฅ ํ์ฉ
โข ํด๋ฉด ์ํ์ ์ธํ๊ธฐ ๊ณต์ฅ ๋ถ์ง๋ฅผ ๋งค์
ํด ๋จ๊ธฐ๊ฐ์ AI ๋ฐ์ดํฐ์ผํฐ๋ก ๊ฐ์กฐ.
โข ์ธ์ ์ฒ์ฐ๊ฐ์ค๊ด๊ณผ ์ด๋ํ ๋ฐ์ ๊ธฐ(๋์ ค/๊ฐ์ค)ยท์ด๋ํ ๋๊ฐ ์ฅ์น๋ฅผ ์ค์น โ ์ ๋ ฅยท๋๊ฐ ์ธํ๋ผ๋ฅผ ๋น ๋ฅด๊ฒ ํ๋ณด.
โข ๋ณดํต ๋ํ ํด๋ผ์ฐ๋ ๊ธฐ์
๋ค์ ์ด๋ฏธ์งยทํํ ๋๋ฌธ์ ์ง์ ์ด๋ฐ ์์ผ๋ก ํ์ง ์์(โ๋
น์ ์๋์งโ ๋ช
๋ถ ๋๋ฌธ).
โข xAI๋ ์ผ๋จ ์๋๋ฅผ ์ฐ์ ์ โ 10๋ง+ GPU ๋น ๋ฅธ ๋ฐฐ์น.
2. ์ฐจ๋ณ์
โข ์ต์ด๋ก NVIDIA GPU(GB200 ๋ฑ) ์ง์๋ ๋ชจ๋ธ์ ๋๊ท๋ชจ๋ก ๋์
์์ . (์ผ๋ฐ์ ์ผ๋ก air-cooled ๋๋ ๋ค๋ฅธ ๊ตฌ์กฐ)
โข ๋คํธ์ํฌ๋ ์ด๋๋ท ๊ธฐ๋ฐ ๋ฑ, ๋น์ ํ์ ๋ฐฉ์ ํ์ฉ.
2.4 ๊ทธ ์ธ ํด๋ผ์ฐ๋/์ฝ๋ก์ผ์ด์
์
์ฒด
โข ์๋ง์กด(AWS): ์ ์ธ๊ณ ๋ง์ ๋ถ์ง์์ ๋์๋ค๋ฐ์ ํ์ฅ, CPUโGPU ์ ํ.
โข ์ค๋ผํด(Oracle): OpenAI์ ํ๋ ฅํด 200MW๊ธ ๋ฐ์ดํฐ์ผํฐ, ์ฅ๊ธฐ์ ์ผ๋ก 1GW ํ์ฅ.
โข ๋ฉํ(Meta): ๊ตฌํ โH ํํโ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ํ์ ํ, ๊ณ ๋ฐ๋ ์๋ญ ๋ฐ์ดํฐ์ผํฐ๋ก ์ฌ๊ฑด์ถ.
โข ๋ค๋ฅธ ์์ญ~์๋ฐฑ ๊ฐ ์ค์/์ฃผ๊ถ(โ์๋ฒ๋ฆฐโ) ํด๋ผ์ฐ๋๋ ์ ์ฌํ๊ฒ GPU ํธ์คํ
์ฐ์
์ฐธ์ฌ ์ค.
3. ์ถ๋ก (Inference) ํ ํฐ ์ฒ๋ฆฌ(tokenomics)์ ์ต์ ํ
3.1 ์ถ๋ก ์ ๊ณต์(โํ ํฐ ํฉํ ๋ฆฌโ) ๊ด์
โข ๋ํ ๋ชจ๋ธ์ API ํธ์ถ๋ก โํ ํฐโ ๋จ์ ๊ณผ๊ธ โ ์๋ฒ GPUยท๋ฉ๋ชจ๋ฆฌยท๋คํธ์ํฌ๋ฅผ ์ผ์ ๋ฐฉ์์ผ๋ก ํ ๋น.
โข ์ถ๋ก ์ฑ๋ฅ(throughput)์ ๋ฐฐ์นญ(batch size), ์์ํ(quantization), KV์บ์ ๊ด๋ฆฌ, ๋ณ๋ ฌํ ๋ฑ ์ต์ ํ๋ก ํฌ๊ฒ ์ข์ฐ.
3.2 KV ์บ์(KV Cache)์ ์ํฅ
1. ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ vs. KV์บ์
โข ํ ํฐ์ ์์ฑํ ๋๋ง๋ค, โ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ(์ ์ )โ + โKV์บ์(๋์ ยท์ ์ ๋ณ)โ ๋ชจ๋ ๋ฉ๋ชจ๋ฆฌ์์ ์ฝ์ด์ด.
โข ๋ฐฐ์น๊ฐ ์ปค์ง์๋ก(๋์ ์ ์ โ) KV์บ์ ์กฐํ๋ ๋ง์์ ธ, ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ ๋ณ๋ชฉ ๋ฐ์.
2. ์ํ์ค ๊ธธ์ด(Context Length) ์ฆ๊ฐ
โข ๋ชจ๋ธ์ด ๋ง์ reasoning(๋ด๋ถ ํ ํฐ ์์ฑ์ ์จ๊ธด๋ค ํด๋) โ ๋ด๋ถ์ ์ผ๋ก KV์บ์๊ฐ ์ปค์ง.
โข ์ํ์ค ๊ธธ์ด๊ฐ ๊ธธ์ด์ง์๋ก, ๋ฐฐ์น ๊ฐ๋ฅ ํฌ๊ธฐ๊ฐ ์ค๊ณ , ํ ํฐ๋น ์ฒ๋ฆฌ ์ง์ฐ์ด ์ปค์ ธ ์ฌ์ฉ์ ๊ฒฝํ ์ ํ.
3. GQA(Grouped Query Attention) ๋ฑ ๊ธฐ๋ฒ
โข llama ์๋ฆฌ์ฆ ๋ฑ์์ GQA/MQA๋ฅผ ์ ์ฉํ๋ฉด KV์บ์ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ณ , ๋ณ๋ชฉ์ ์ํ.
โข ์) 40~70B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์์ GQA ์ ์ฉ ์, ๊ฐ์ ํ๋์จ์ด๋ก ๋ฐฐ์น ํฌ๊ธฐ(๋์ ์ ์ ์) ํฌ๊ฒ ์ฆ๊ฐ โ ์ถ๋ก ๋น์ฉ ์ ๊ฐ.
3.3 OpenAI โ0.1/01โ ๋ชจ๋ธ๊ณผ ๋น์ฉ
โข Zero One(01) ๋ชจ๋ธ: โ์ค์๊ฐ ๋ด๋ถ reasoningโ์ผ๋ก ํฐ ์ํ์ค ๊ธธ์ด.
โข ๊ธฐ์กด ์งง์ ์ํ์ค(๋ช K tokens)๋ณด๋ค 10~40K ์ด์์ ์ํ์ค โ ๋ฐฐ์น ํจ์จ ๊ธ๊ฐ, ์ถ๋ก ๋น์ฉ ์ฆ๊ฐ.
โข ์ค์ API ๊ฐ๊ฒฉ๋ GPT-4 ๋๋น 3~4๋ฐฐ ๋น์ผ ์ด์ ์ค ํ๋๊ฐ ์ด KV์บ์/๋ฐฐ์น ๋นํจ์จ ๋ฌธ์ .
4. Inference & Training ์๋ฎฌ๋ ์ดํฐ / TCO ๋ชจ๋ธ
โข ๋ฐํ์๋ ์์ฌ(SemiAnalysis)์์ ์ถ๋ก ยทํ๋ จ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ๊ฐ๋ฐ, โ๋ฉ๋ชจ๋ฆฌ BW vs. ๋ชจ๋ธ ํฌ๊ธฐ vs. ๋ฐฐ์น vs. ์ํ์ค ๊ธธ์ดโ ๋ฑ์ ๋ชจ์์คํ.
โข ์๋ฒ ์๊ฐ ๋น์ฉ(์: h100 8-GPU ์๋ฒ)
โข ๊ตฌ์
๋น ๊ฐ๊ฐ์๊ฐ + ๊ธ์ต๋น์ฉ + ์ด์๋น(์ ๋ ฅ+์ฟจ๋ง+๋ฐ์ดํฐ์ผํฐ ๋ ํ ๋ฑ).
โข ๋๋ถ๋ถ์ ๋น์ฉ(70~80% ์ด์)์ด โGPU ๊ตฌ์
โ์ด๋ฏ๋ก, ์ ๋ ฅ ์ฌ์ฉ ์ฌ๋ถ(๊ฐ๋๋ฅ )์ ๋ฐ๋ฅธ ์ถ๊ฐ ๋ณ๋๋น๋ ์๋์ ์ผ๋ก ์์.
โข ๋ฐ๋ผ์ โGPU๋ฅผ 100% ํ์ฉโํ๋ ๊ณ ๋ฐฐ์น/๊ณ ํจ์จ์ด ์์ต์ฑ์ ํต์ฌ.
5. ๋ฐ์ดํฐ์ผํฐ ์ค๊ณยท์ ๋ ฅ ์ด์ ์ข
ํฉ
1. ์ ๊ฐ์ฌ ์ค๊ณ๊ฐ ๋ค๋ฅธ๊ฐ?
โข ์ญ์ฌ์ ์ ์ฐ, ๋ด๋ถ ์ธํ๋ผ, ๋๊ฐ(์๋ญ/๊ณต๋ญ) ๋ฐฉ์, GPU/TPU ์ํคํ
์ฒ ์ฐจ์ด ๋ฑ์ผ๋ก ๋ชจ๋ ์์ด.
โข ๋ฉํ๋ H์ํ ๊ตฌํ ์ค๊ณ ํ๊ธฐ ํ, ์ ํ์ผ๋ก ๊ต์ฒด. ๊ตฌ๊ธ์ TPU ๊ณ ๋ฐ๋ ์๋ญ์ ์ผ์ฐ ์์. xAI๋ ๊ธ์กฐ(๊ณต์ฅ+์ด๋์ ๋ฐ์ ๊ธฐ).
โข ์ต์ ์ค๊ณ๋ ์กด์ฌํ์ง ์์ผ๋ฉฐ, ๋๋ค์๊ฐ โ์๊ฐ ์๋ฐ/์ ์ฐ์ฑ/PR(ํ๊ฒฝ)โ ๋ฑ์ ์ ์ถฉ.
2. ๋ชจ๋ โ์ฒ์ฐ๊ฐ์คยท์ํโ ์์กด?
โข ์ค์ ์ ๋ ฅ์ ํ์์ฐ๋ฃ ๊ธฐ๋ฐ์ด ๋๋ถ๋ถ. ESG ๋ช
๋ถ์ผ๋ก ํ์๊ด ๋ฑ ๊ตฌ๋งค(PPA)๋ ํ๋ ์ค์ ๋ฌผ๋ฆฌ์ ๊ณต๊ธ ์ ๋ ฅ์ ๋๋ถ๋ถ ๊ฐ์ค.
โข ๋๊ท๋ชจ ๋ฐ์ ์(์ต๋์ GW)์ ๋ถ์ง ์ฐ๊ฒฐ์ด ๊ด๊ฑด. ์๊ตฌ ๊ตญ๊ฐ๋ค์ ์ ๋ ฅ๋ง ์ฆ์ค์ด ๋๋ ค, 3~4๋
์ฉ ๋๊ธฐ๊ฐ ๋ฐ์.
3. ๋ง์ดํฌ๋ก๊ทธ๋ฆฌ๋/์์ /ํด์ ๋ฐ์ดํฐ์ผํฐ ๋ฑ
โข ์๋ก ์ฒ๋ผ ์์ฒด ๋ฐ์ ๊ธฐ ์ฌ์ฉ โ๋ง์ดํฌ๋ก๊ทธ๋ฆฌ๋โ ์๋๋ ์์ง๋ง ๊ท์ ยท์ค๋ฌด ์ ์ด๋ ค์ ํผ.
โข ํด์/์ฐ์ฃผ ๋ฑ์ GPU ์์ ์ฑยท์ ์ง๋ณด์ ์ธก๋ฉด์์ ๋นํ์ค์ .
โข ์์ ์ง์ ์ฐ๊ณ๋ ๊ท์ ยท๋ฏผ์์ผ๋ก ์คํ์ ๊ฑฐ์ ์๊ณ , ๋๋ถ๋ถ โ๊ทธ๋ฆฐ์์ฑโ ๊ณ์ฝ์ ๊ทธ์นจ.
6. ์ง์์๋ต ์์ฝ
1. FPGA/ASIC/๋ด๋ก๋ชจํฝ
โข GPU(๋๋ TPU) ๋ง๊ณ ๋ค๋ฅธ ๋ณ๋ ฌ ์นฉ ์์ด๋์ด ๋ง์ผ๋, GPU/TPU ์ํ๊ณ๊ฐ ์ด๋ฏธ ์๋์ (์ํํธ์จ์ดยท์ธํ๋ผยท์ธ์ฌ ๋ฑ).
โข ๋ด๋ก๋ชจํฝ ๋ฑ์ ์ ์ฌ์ ํจ์จ์ด ํจ์ฌ ๋์ ์ ์์ผ๋, ์ ๋๋ก ๋ ์ฐ๊ตฌยท์ํ๊ณยทํฌ์ ๋ถ์กฑ. ๋น๋ถ๊ฐ GPT๋ฅ ์์
์ GPU/TPU๊ฐ
์ฃผ๋.
2. ๊ท๋ชจ ํ์ฅ ์ง์ ๊ฐ๋ฅ์ฑ
โข โ๋ฒ๋ธ์ด๋?โ๋ผ๋ ์ง๋ฌธ. ๊ธฐ์
(์คํAIยท๊ตฌ๊ธยท๋ฉํ ๋ฑ)์ด AGI ๊ฐ๋ฅ์ฑยท์์ต์ฑ์ ๋ฒ ํ
, CapEx ํญ์ฆ.
โข ํฅํ ์ ๋ ฅยทํ๊ฒฝ ๋ฌธ์ ์ ์ถฉ๋ํ๋, ๋จ๊ธฐ์ ์ผ๋ก๋ โPascalโs Wagerโ(์ ํ๋ ๊ฒ๋ณด๋ค ํด์ ์คํจํ๋ ๊ฒ ๋ซ๋ค)๋ก ๊ณ์ ํฌ์.
3. ํน์ ํ์ฌ์ ๋ฐ์ดํฐ์ผํฐ๋ง์ด โ์ ๋ตโ?
โข ์๋ค๊ณ ๋ด. ๋ฉํ/๊ตฌ๊ธ/MS/xAI ๋ชจ๋ ๋ค๋ฆ. ์นฉ(์ธํ๋ผ), ๋๊ฐ, ๋คํธ์ํน ๋ฑ์ ๋ฐ๋ผ ์์ด.
โข AI/HPC ์๊ตฌ์ฌํญ์ด ์ปค์, ์์ ํ ์ ๊ฑด๋ฌผ์ ์ง์ ๋๋ง๋ค ์ค๊ณ๊ฐ ๋ฌ๋ผ์ง๊ณ , ์ค์๊ฐ์ผ๋ก ๊ฐ์ ์ค.
4. ๋ฏธ๋ ๋ชจ๋ธ ์ํคํ
์ฒ (Transformer vs. ๋ค๋ฅธ ๊ตฌ์กฐ)
โข ๋น์ฅ์ Transformer๊ฐ ์ฐ์
ยท์ฐ๊ตฌ ๋ชจ๋ ํ์ค, ๋๊ท๋ชจ ์ต์ ํ ํดยท์์ง๋์ดยท์ํ๊ณ๊ฐ ์ด๋ฏธ ์ ์ฐฉ.
โข ๋ค๋ฅธ ์ํคํ
์ฒ(์: state-space, rnn ๋ณํ, etc.)๊ฐ ๋์๋ GPU๋ก ์ถฉ๋ถํ ์ฌํ์ฉ ๊ฐ๋ฅ โ ๊ณง๋ฐ๋ก ๋์ฒด ์ฝ์ง ์์.
7. ๊ฒฐ๋ก ๋ฐ ์ฃผ์ ์์ฌ์
1. ๋ฐ์ดํฐ์ผํฐ ์ ๋ ฅยท๊ตฌ์กฐ
โข AI ์์ ํญ์ฆ์ผ๋ก ๊ธฐ์กด โCPU+์คํ ๋ฆฌ์งโ ์ค์ฌ์์ โGPU ๋๋ฐ๋ + ์๋ญ + ์ด๊ณ ์ ๋คํธ์ํฌโ๋ก ๊ธ๋ณ.
โข ๊ฑด๋ฌผ ๋จ์๊ฐ ์๋๋ผ 10~100๋ง GPU๊ธ โ์บ ํผ์ค/์ง์ญ ๋จ์โ ํด๋ฌ์คํฐ๋ฅผ ๋ฌถ๋ ์ค.
โข ์ ๋ ฅ๋ง/๋ณ์๊ธฐ/๋๊ฐ ๋ฑ์ ์ ํ์ด ๋ณ๋ชฉ์ด๋ฉฐ, xAI์ฒ๋ผ ๊ธฐ๋ฐํ์ง๋ง ์์๋ฐฉํธ์ ๋ฐฉ๋ฒ(์ด๋์ ๋ฐ์ ๊ธฐ ๋ฑ)๋ ๋ฑ์ฅ.
2. ์ถ๋ก ๋น์ฉ(ํ ํฐ๋น) ๊ธ์ฆ ์ฐ๋ ค
https://youtu.be/pE3KKUKXcTM
2. โ์์งํ์ด AGI์ ์ฌ์ธํ๋ค๋ฉด?โ (์ค๊ตญ์ AIยท๋ฐ๋์ฒด ์ญ๋)
์ง๋ฌธ: โ์์งํ์ด ์ค์ผ์ผ์ ์ง์ฐฉ(โscaling-pilledโ)ํด, AI์ ์ ํญ ํฌ์ํ๋ ค ํ๋ค๋ฉด ์ด๋ป๊ฒ ํ ๊น?โ
Dylan: ํต์ฌ์ ํ๋์จ์ดยท์ํํธ์จ์ดยท๋ฐ์ดํฐ ๋ชจ๋ ๋ ์ด์ด์์ โ์ง์คโ(centralization)ํ ์ ์๋ ๋ฅ๋ ฅ.
์ค๊ตญ์ ์ด๋ฏธ ์ ๋ ฅยท๊ณต๊ธ๋งยท์ธํ๋ผ๋ฅผ ๋น ๋ฅด๊ฒ ํ์ฅํด ๋๊ท๋ชจ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ์ง์ ์ ์์(์: 10GW๊ธ ๊ท๋ชจ๋ ๊ฐ๋ฅ).
๋ฌธ์ : ์์ง ์ค๊ตญ ๋ด AI ๊ธฐ์
๋ค์ด ๋๊ท๋ชจ ๋จ์ผ ํด๋ฌ์คํฐ(10๋ง~30๋ง GPU๊ธ)๋ฅผ ํ๊ณณ์ ๋ชจ์ ํ๋ จํ๋ ์ฌ๋ก๋ ์์์.
๋ง์ฝ ๋น๊ตญ์ด GPU ์กฐ๋ฌ์ ํตํฉยท๊ด๋ฆฌํ๋ค๋ฉด(์์
+๋ด์ ๋ฐ๋์ฒด), ๋ฏธ๊ตญ ๋น
ํ
ํฌ ์ด์์ โ์ด๊ฑฐ๋ ํด๋ฌ์คํฐโ๋ฅผ ๊ฑด์ค ๊ฐ๋ฅ.
์ค๊ตญ ๋ฐ๋์ฒด ์ฐ์
SMIC ๋ฑ์ด 7nm ~ 5nm๊ธ์ ๊ณต์ ์ ์ด๋ ค์(์ด์ : EUV ๋ฑ)์ด ์์ผ๋, ์ค๊ตญ ํน์ ์ โ์ง์ํจโยทโ๊ฐ๋ถ๊ธ ์์
โ ๋ฌธํ๋ก ๋น ๋ฅธ ์ถ๊ฒฉ.
โํ์จ์ด(HiSilicon)๋ ํ์กด ๊ธฐ์
์ค ๊ฐ์ฅ โํฌ๋โ๋ ์ญ๋์ ์ง๋.โ (ํต์ฌ ๊ธฐ์ ์์ด๋ 5G ๋ฑ์์ ์ธ๊ณ ์ต๊ณ ์ฑ๊ณผ)
๋ถํยท์ฅ๋นยท์ ์กฐ ์ ์์ญ์์ ์ฐ์
์คํ์ด+๊ตญ๊ฐ ์ง์์ผ๋ก ๋ฐ์ , โ๋ฌด์ํ๋ฉด ์ ๋๋ค.โ
์์ถํต์ ์ ํจ๊ณผ
Dylan: โ์ ๋๋ก ๋ง์ผ๋ ค๋ฉด โ์ฅ๋นยทํ๋ก์ธ์ค ์ ๋ฉด์ฐจ๋จโํด์ผ ํ๋๋ฐ, ํ์ค์ ์ค๊ตญ์ ๊ธฐ์ ๊ฐ๋ฐ ์์ง๋ง ๋ ๋ถ์ถ๊น.โ
์ฌ์ ํ SMIC ๋ฑ์ 7nm ๊ณต์ ์ฅ๋น๋ฅผ ํด์ธ์์ ์กฐ๋ฌํ๊ณ , ์ธ์ฌ ์์
์ผ๋ก ๊ธฐ์ด์ด ๋ง๋ค๊ณ ์์.
3. ์ ์ธ๊ณ ๋ฐ๋์ฒดยทAI ์นฉ ์์ฐ๊ณผ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ผํฐ ์ ๋ง
๋ฏธ๊ตญยท์ ๋ฝ vs. ์ค๊ตญ: ๋๊ฐ ๋ ๋จผ์ โ1GW~10GW๊ธ AI ๋ฐ์ดํฐ์ผํฐโ๋ฅผ ์ธ์ธ๊น?
๋ฏธ๊ตญ์ ์ํฐํ๋ผ์ด์ฆยท๋น
ํ
ํฌ(MS, ๊ตฌ๊ธ, ๋ฉํ ๋ฑ)๊ฐ โ๋ถ์ฐโ ํํ๋ก ๊ฐ์ ๋ํ ํด๋ฌ์คํฐ๋ฅผ ์ด์.
์ค๊ตญ์ ๊ตญ๊ฐ ์ฃผ๋๋ก โ์ง์คโ ํฌ์๊ฐ ๊ฐ๋ฅ. ๋ค๋ง, ์์ง์ ์ค์ ๋ก ๋๊ท๋ชจ ๋จ์ผ ํด๋ฌ์คํฐ๊ฐ ๋์จ ์ ์์.
Dylan: โ์ค๊ตญ์ด ์ง์ง ๋ง์๋จน๊ณ ์ถ์งํ๋ฉด, ์ ๋ ฅ ์ธํ๋ผยท๊ณต์ฌ ์๋ยทGPU ์ง์ค ์ธก๋ฉด์์ ๋ฏธ๊ตญ์ ์์ค ์๋ ์๋ค.โ
ํด๋ฌ์คํฐ ๊ท๋ชจ ์ถ์ด
2023๋
: OpenAI, xAI ๋ฑ ๋๋ต 10๋ง GPU๊ธ(์: H100) ํด๋ฌ์คํฐ โ 20242025๋
์ 3050๋ง GPU ๊ท๋ชจ(๋๋ ๋ ํผ).
NVIDIA๋ ์ฐ๊ฐ ์๋ฐฑ๋ง ๊ฐ GPU ์์ฐ. ๊ทนํ ์ผ๋ถ(์์ญ~์๋ฐฑ๋ง)๊ฐ ๋ํ AI ํด๋ฌ์คํฐ์ ํฌ์
๋ ์ ๋ง.
2026๋
์ดํ: ๋ฏธ๊ตญ ๋ด 1GW, 2~3GW ๋ฑ ์ด๊ฑฐ๋ AI ๋ฐ์ดํฐ์ผํฐ ์ฌ๋ฟ ๋ฑ์ฅํ ๊ฐ๋ฅ์ฑ.
โ20282029๋
์ด๋ฉด ๋จ์ผ ๋ชจ๋ธ ํ๋ จ ์ด FLOPs๊ฐ GPT-4 ๋๋น ์์ฒ์๋ง ๋ฐฐ(1e30 ์์ค)๋ก ๊ฐ ์ ์๋ค.โ (Dylan ์ถ์ )
TSMC/์ผ์ฑ ํ์ด๋๋ฆฌ์ ์ญํ
์ฐจ์ธ๋ ๊ณต์ (5โ3โ2nm)์ ๋น์ฉ ๊ธ์ฆ๊ณผ ๊ธฐ์ ํ๊ณ ๋๋ฌธ์ โ๊ฒฝ์ ์ฑ์ด ์ฌ๋ผ์ก๋คโ๊ณ ๋ณด๋ ์ด๋ค๋ ์์.
๊ทธ๋ฌ๋ AIยทGPU ์์ ํญ์ฆ์ด ๊ฒฐ๊ตญ 2nm ๋ฑ ์ด๋ฏธ์ธ ๊ณต์ ์ ๋๊ท๋ชจ ์ฆ์ค์ ์ ๋น์ฑ์ ๋ถ์ฌํ ๊ฒ.
โ๊ฒฐ๊ตญ TSMC๋ AI ์นฉ ์์๋ฅผ ์ํด์ 2nm ๋ผ์ธ ํ์ฅํ ๋ฏ. (์ ํ ๋จ์ผ ๊ณ ๊ฐ๋ง์ผ๋ก๋ ๊ฐ๋น ์ด๋ ค์ด ๊ท๋ชจ)โ
4. ๋ฐ๋์ฒด ์ ์กฐ ์ฐ์
์ ๊ทน๋จ์ ๋ณต์ก์ฑ
๋ถํ๋ ๊ณต๊ธ๋ง: ์จ์ดํผ, ๋
ธ๊ด(๋ฆฌ์๊ทธ๋ํผ), ์์นญ, ์์ฌ(ํฌํ ๋ ์ง์คํธ, Cu interconnect ๋ฑ), ํจํค์ง ๋ฑ ์์ฒ ๋จ๊ณ.
์ด ๋ถ์ผ์ ์ง์ ๊ฒฉ์ฐจ:
โAI๋ ๊ฐ์ธ์ด ๋
ผ๋ฌธยท์ฝ๋๋ก ๋น ๋ฅด๊ฒ ์์ต ๊ฐ๋ฅํ์ง๋ง, ๋ฐ๋์ฒด๋ ๋ฐฉ๋ํ ๊ธฐ์
๋ด๋ถ ๋
ธํ์ฐ+ํนํ+์ฅ๋น ๋งค๋ด์ผ๋ก ์ธ๋ถ ์ ๊ทผ ์ด๋ ค์.โ
๋ํ ์ฅ๋น(ASML EUV ๋ฑ) ํ๋ํ๋์ ์์ญ ๋
์ถ์ ๋ ์ฅ์ธยทํ์ยท์์ง๋์ด์ โ๋ง์คํฐ-๊ฒฌ์ตโ ์ฒด๊ณ๊ฐ ์กด์ฌ.
R&D์ ์ ์กฐ ํ์ฅ์ โ์ฅ์ธ ๋ฌธํโ
์: TSMC ์ธ๋ ฅ ๋๋ค์ ๊ณ ํ๋ ฅ(์๋ฐ์ฌ) + ๋ฐ์๊ตฌ์ ์ผ๊ทผยท์ค๋น ์คํ.
์ด๋ ํ ์ฌ๋๋ง์ด ์ ์ฒด ๊ณต์ ์ ์๋ ๊ฒ์ด ์๋๋ผ, ๊ฐ ๋จ๊ณ ์ ๋ฌธํ์ด ํ์
ํด ์ ์ฒด ํ๋ก์ธ์ค ์์ฑ.
5. AI ์ฐ์
๊ณผ ๋ฐ๋์ฒด์ ์ํธ์์ฉ
GPU ์ํคํ
์ฒ โ ๋ชจ๋ธ ๊ตฌ์กฐ
โGPU์ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ด ์ ํ์ ์ด๋ฉด, ์ค๊ตญ ์ชฝ ๋ชจ๋ธ์ ๋ ์์ถยทํนํ๋ ๊ตฌ์กฐ๋ฅผ ์ฑํํ ์๋ ์์.โ
๊ตฌ๊ธ TPU vs. NVIDIA GPU vs. ํ์จ์ด Ascend ๋ฑ ๊ฐ์ ํ๋์จ์ด ํน์ฑ์ ๋ง์ถฐ ๋ชจ๋ธ ์ค๊ณ๊ฐ ๋ฌ๋ผ์ง.
์ํคํ
์ฒ ํ์ ์ ์ ์ฌ๋ ฅ
โํ GPU/TPU๋ ์ ๋ ฅ์ ๋๋ถ๋ถ์ด ๋ฐ์ดํฐ ์ด๋์ ์ฐ์. ๊ทผ๋ณธ์ ๊ตฌ์กฐ ๊ฐ์ (Compute-In-Memory ๋ฑ) ๊ฐ๋ฅ.โ
๋ฐ๋์ฒด ์ค๊ณ ์๋ํ(EDA)์ AI ๊ฒฐํฉ โ 100๋ฐฐ ์ด์ ์ฑ๋ฅยท์ ๋ ฅ ํจ์จ ๋์ด์ฌ๋ฆด ๊ธฐํ ์กด์ฌ.
๋ฏธ๋ ์ ๋ง
๊ฑฐ๋ ๋ชจ๋ธ์ ํ๋ จยท์์นยทํฉ์ฑ๋ฐ์ดํฐ ์์ฑ ๋ฑ โ์ถ๊ฐ FLOPsโ ์์๋ก ์ธํด, ๊ณต์ ๋ฏธ์ธํ์ ์นฉ ์ค๊ณ ํ์ ์ง์ ๊ฐ์.
โ๋ฉ๋ชจ๋ฆฌ ํ์ (์ฐจ์ธ๋ HBM ๋ฑ), ์ํคํ
์ฒ ๊ฐํธ, ์ฒจ๋จ ํจํค์ง์ด ๋ชจ๋ ๋ณํ๋ผ์ผ ํ๋ค.โ
6. โ๋ฒ๋ธ์ธ๊ฐ, ์ง์ง ๊ธฐํ์ธ๊ฐ?โ
**Pascal's Wager(ํ์ค์นผ ๋ด๊ธฐ)**๋ฅผ ๋น๋ ์ค๋ช
โAI ํฌ์ ์ ํ๋ค๊ฐ ๋ค์ฒ์ง๋ฉด ๋งํ์ง๋ง, ํฌ์ํ๋ค ์คํจํด๋ ๊ทธ๋๋ง ๋ ๋งํ๋ค.โ
๋ํ ๋น
ํ
ํฌยทํฌ์๊ธฐ๊ด ๋ชจ๋ AI์ โ์ฌ์ธโ ์ค (Satya Nadella, Sundar Pichai, Mark Zuckerberg ๋ฑ).
1990๋
๋ ๋ท์ปด๋ฒ๋ธ์ฒ๋ผ ๊ณผ์ํฌ์์ผ ์๋ ์์ง๋ง, โ์ธํ๋ผ๊ฐ ๊น๋ฆฌ๋ฉด ํ๋ฐ ํ์ ์ ๊ณ์ ๋ํ๋๋ค.โ
์์ต์ฑ vs. ํ์ฅ ์๋
๋จ๊ธฐ์ ์ผ๋ก๋ GPUยท๋ฐ์ดํฐ์ผํฐ ๋น์ฉ > AI ๋งค์ถ, ๊ทธ๋ฌ๋ ํ ๋ฒ ๋ํ ๋ชจ๋ธ ์ฑ๊ณต ์ ์ฒ๋ฌธํ์ ROI ๊ธฐ๋.
โGPT-4 ํ๋ จ๋น์ฉ ์ฝ 5์ต ๋ฌ๋ฌ, ์ถ์ ๋งค์ถ ์์ญ~์๋ฐฑ์ต ๋ฌ๋ฌ ์์โ โ ํฌ์์ ์น๋ก ๋ ๋ค์ ๋ชจ๋ธ ํ๋ จ ๊ฐ๋ฅ.
1. AI Diffusion Rule (๋ฏธ๊ตญ ์๋ฌด๋ถ ๊ท์ ) ๊ฐ์
๋ฐฐ๊ฒฝ:
2022๋
10์ ๋ฐํ๋ ๋ฏธ๊ตญ์ ๋(ๅฐ)์ค๊ตญ ๋ฐ๋์ฒด ์์ถ ๊ท์ (โOctober 2022 rulesโ)๊ฐ ์์์.
์ง๊ธ๊น์ง ์ฌ๋ฌ ์ฐจ๋ก ๊ฐ์ ยท๋ณด์๋๋ฉด์, 2023๋
๋ง โAI Diffusion Ruleโ์ด ์ถ๊ฐ๋ผ ์ค๊ตญยท์ 3๊ตญ ๋ฑ์์์ ์ด๊ฑฐ๋ ๋ชจ๋ธ(Frontier Model) ๊ฐ๋ฐยท์ํ์ด ํฌ๊ฒ ์ ํ๋จ.
๋๋ฐ ํํ
์ โ์ด๋ฒ ๊ท์ ๊ฐ ๊ณผ๊ฑฐ ์ด๋ค ๊ท์ ๋ณด๋ค ๋ ๊ด๋ฒ์ํ๊ณ ๊ฐ๋ ๋๋คโ๋ฉฐ, ๋ฏธ๊ตญ์ด AI ํค๊ฒ๋ชจ๋๋ฅผ ๊ณต๊ณ ํ ํ๋ ค๋ ์๋๋ผ๊ณ ์ง์ .
ํต์ฌ ๋ด์ฉ ๋ฐ ์ํฅ:
ํด๋ผ์ฐ๋ ์ ๊ณต์(ํนํ ๋ฏธ๊ตญ ๊ธฐ์
)๋ โ๋น์ฐ๋ฐฉ๊ตญโ์์ GPU๋ฅผ 5๋ง ๊ฐ ์ด์ ๊ตฌ๋งคยทํ์ฉํ์ง ๋ชปํ๋๋ก ๊ท์ .
๋ฏธ๊ตญ ์ธ ๊ตญ๊ฐ(์: ๋ง๋ ์ด์์)์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ๊ตฌ์ถํ๋ ๊ฒ๋, ๊ท์ ์ค์(๊ฐ์ยท์ ๊ณ ์๋ฌด ๋ฑ)๊ฐ ๊ฐํ๋์ด ์ ์ฐจ ์ด๋ ค์์ง.
๋๋ฐ์ ์ด ๊ท์ ๊ฐ ๋ฏธ๊ตญ ๋น
ํ
ํฌยทํ์ดํผ์ค์ผ์ผ๋ฌ(์: Microsoft, Google, Meta, Amazon)๋ ์ฝ์ด์๋ธ(CoreWeave) ๋ฑ ์์ ํด๋ผ์ฐ๋์ ์คํ๋ ค ์ ๋ฆฌํ๊ฒ ์์ฉํ๋ค๊ณ ์ค๋ช
.
์์ ํด๋ผ์ฐ๋๋ ๊ท์ ์ค์ ๋ฐ GPU ์กฐ๋ฌ์ด ๋งค์ฐ ์ด๋ ค์์ ธ ๊ฒฝ์๋ ฅ์ด ์ฝํ.
์ฅ๊ธฐ์ ์ผ๋ก ์ค๊ตญ์ ์์ฒด ๋ฐ๋์ฒดยทํด๋ผ์ฐ๋ ์ธํ๋ผ๋ฅผ ๊ฐ์ ์ก์ฑํ ๊ฐ๋ฅ์ฑ์ด ์์.
Goldilocks ์ ๊ทผ:
๋๋ฐ์ ๊ท์ ์ ๊ณจ๋๋ฝ์ค(hardํ๋ ๋๋ฌด ์ง๋์น์ง๋ ์์) ์ง์ ์ด ์ค์ํ๋ค๊ณ ๋ด.
์ง๋์น๊ฒ ๊ฐํ๋ฉด ์ค๊ตญ์ด ๋ ๊ฐ๋ ฅํ๊ฒ ๋
์ ๋ฐ๋์ฒดยทํด๋ผ์ฐ๋ ๊ธฐ์ ์ ์ก์ฑํ ์ ์๊ณ , ๋ฐ๋๊ธ๋ถ๋ก ๋ฏธ๊ตญ ๋ด ํ์ ๋ ์ ํด๋ ๊ฐ๋ฅ์ฑ์ด ์กด์ฌ.
2. ๋๊ท๋ชจ ๋ฐ์ดํฐ์ผํฐ(โAI ํฉํ ๋ฆฌโ)ยทํด๋ฌ์คํฐ ๊ตฌ์ถ ๋ํฅ
GPU ํด๋ฌ์คํฐ ๊ท๋ชจ:
GPT-4(2022๋
๋ง)๋ ์ฝ 20k~30k A100 GPU๋ก ํ๋ จ๋์๋ค๊ณ ์ถ์ (์ด ์ ๋ ฅ 20MW ์์ค).
ํ์ฌ๋ 100k GPU(์ฃผ๋ก Nvidia h100) ๊ท๋ชจ ํด๋ฌ์คํฐ๊ฐ ์คํAI, Meta, x.ai ๋ฑ์์ ํ์ฉ๋๋ฉฐ, ์ ๋ ฅ 150MW ๋๊ฒ ์์.
2026~2027๋
์๋ ๊ธฐ๊ฐ์ํธ(GW) ๋จ์ ์ ๋ ฅ์ ๊ฐ์ถ ์ด๊ฑฐ๋ โAI ํฉํ ๋ฆฌโ๊ฐ ์์ ๋ฑ์ฅํ ์ ๋ง(์: ๋ฉํ๋ 2GW, ์์ฌ์ด x.ai๋ 1GW ๋ชฉํ).
Elon Musk์ x.ai ์ฌ๋ก (๋ฉคํผ์ค ๊ณต์ฅ):
์์ฌ์ด๋ ๊ธฐ์กด ๊ฐ์ ๊ณต์ฅ์ ๋งค์
ํด ๋๊ท๋ชจ AI ๋ฐ์ดํฐ์ผํฐ๋ก ๊ธด๊ธ ์ ํ, ์์ฒด ๋ฐ์ ์์ค(NG๋ฐ์ ๊ธฐ+ํ
์ฌ๋ผ ๋ฐฐํฐ๋ฆฌ) ๊ตฌ์ถ, ์๋ยท๋๊ฐ ๋ฌธ์ ๋ฑ ํด๊ฒฐ.
์ ๋ ฅยท์ค๋นยท๋๊ฐ ๋ฑ ๋์ ๊ฐ ์์ง๋ง, โํ๊ฒฝ ๊ท์ ๋ณด๋จ ์๋โ๋ผ๋ ๊ด์ ์ผ๋ก ์ด๊ณ ์ ๊ตฌ์ถ์ ์ถ์ง.
์ฌ์ง์ด ํด๋ฌ์คํฐ๋ฅผ ์ด์ฉ ์ค ์ ๋ ฅ ์์๊ฐ ๊ธ๋ฝโ๊ธ๋ฑํ ๋๋ฅผ ๋๋นํด, โ๊ฐ์ง ์ฐ์ฐโ์ ๋ฃ์ด ์ ๋ ฅ ์์ ํ๋ฅผ ์ ์งํ๋ค๋ ์ผํ๊ฐ ์๊ฐ๋จ.
๊ฐ์ฅ ํฐ ๋ณ๋ชฉ: ์ ๋ ฅ๋งยท๋ถ์ง ํ๊ฐ(๊ท์ )ยท๋ฐ๋์ฒด ์ ์กฐยท๋๊ฐยท๋คํธ์ํน ๋ฑ ์ข
ํฉ์ ๊ด์ .
๋๋ฐ์ โ๋ฏธ๊ตญ ๋ด ์ ๋ ฅ๋งยท์ธํ๋ผ ๊ท์ ์ํ๊ฐ ์๊ธํ๋ฉฐ, ๋น ๋ฅธ ๋ฐ์ดํฐ์ผํฐ ์ฆ์ค์ด ํ์ํ๋คโ๊ณ ๊ฐ์กฐ.
3. ์ค๊ตญ AI ๋ฐ๋์ฒดยท๋ชจ๋ธ์ ํฅ๋ฐฉ
๊ท์ ๊ฐ ์ ์ฉ๋ ์ค๊ตญ:
๊ตฌ์ฒด์ ์ผ๋ก ์ค๊ตญ ๊ธฐ์
์ ์ต์ฒจ๋จ GPU ๊ตฌ๋งค ํ๋๊ฐ ์ฐ 5๋ง ๊ฐ๋ก ์ ํ ๋ฑ.
์ด๋ฅผ ์ฐํํ๊ธฐ ์ํด ์
ธ ์ปดํผ๋(1,700๊ฐ ์ดํ ์นฉ ๊ตฌ๋งค) ๋ฑ์ ํตํ ํธ๋ฒ ์กฐ๋ฌ ๊ฐ๋ฅ์ฑ์ ์กด์ฌํด๋, ์ ์ ์ด๋ ค์์ง๋ ์ถ์ธ.
๋๋ฐ์ DeepSeek, Alibaba ๋ฑ ์ค๊ตญ AI ๋ฉ์ด โ๋ฐ์ด๋ ์ํคํ
์ฒยท์์ง๋์ด๋งโ์ผ๋ก ์ ํ๋ ์ปดํจํ
์์ ํจ์จ์ ๊ทน๋ํํ ๊ฒ์ด์ง๋ง, ๊ฒฐ๊ตญ ๋ฏธ๊ตญ ๋๋น ์์ญ~์๋ฐฑ์ต ๋ฌ๋ฌ ๊ท๋ชจ์ Capex ์ฐจ์ด๊ฐ ์ปค์ง๋ ๋ฌธ์ .
๋ง๋ ์ด์์๋ ์ค๋ฆฝ๊ตญ์ ๋ฐ์ดํฐ์ผํฐ ๊ฑด์ค:
๊ท์ ๊ฐํ๋ก ์ธํด ๋ง๋ ์ด์์์์ ๊ฑด์ค ์ค์ด๋ ๋๊ท๋ชจ AI ๋ฐ์ดํฐ์ผํฐ ๋ฑ์ด ๋ถํ์คํด์ง.
๋ฏธ๊ตญ์ โ๋๋งน๊ตญ ์ค์ฌโ์ ํด๋ผ์ฐ๋๋ง ํ์ฉํ๊ฒ ๋ค๋ ๊ธฐ์กฐ์ด๋ฉฐ, ๊ทธ ์ธ ๊ตญ๊ฐ(์1, ์2 ๊ตฌ๋ถ)์ ๋ํด์ ๋ณต์กํ ๊ท์ ๊ณผ ํ ๋น๋์ ์ ์ฉ.
4. AI ๋ชจ๋ธ ์งํ: ํ
์คํธ ํ์ ์ปดํจํธ(Test-time Compute) / Reasoning
์๋ก์ด ํจ๋ฌ๋ค์:
์ ํต์ ์ผ๋ก โ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ฅผ ๋๋ฆฌ๋ ์ ํต์ ์ค์ผ์ผ๋งโ ๋์ , ์ฌํํ๋ จ(post-training)๊ณผ Test-time Compute(์ฆ ์ฒด์ด๋๋ ์ถ๋ก ยทReasoning) ์ค์์ฑ์ด ๋ถ์.
์ด๋ ๋ชจ๋ธ ์ถ๋ก (Inference)์์๋ ์์ฒญ๋ ์ฐ์ฐ(โ์ถ๋ก ๋น์ฉโ)์ด ํ์ํด, ์๋ฐฑ์ต ๋ฌ๋ฌ ๊ท๋ชจ GPU ์ธํ๋ผ๊ฐ ํ์.
๋ฐ์ดํฐ ์ฆ๋ฅ(Synthetic Data Generation) ์ญํ :
๋๊ท๋ชจ ๋ชจ๋ธ๋ค์ GPT-4 ๋ฑ์ ํ์ฉํด ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค๊ณ , ๊ทธ์ค ์ ํํ ์ํ๋ง ๋ค์ ํ๋ จ์ ํ์ฉ(โReasoning ์ฌํํ๋ จโ).
์ด๋ ์ค๊ตญ ๋ฑ๋ ์ ๊ทน ์๋ํ๋๋ฐ, ๊ท์ ํ์์ ์ผ๋ง๋ ๊ท๋ชจ ์๊ฒ ํ์ฅํ ์ง๋ ๋ฏธ์ง์.
โOpen Sourceโ vs. โClosedโ
๋ฉํ๊ฐ llama๋ฅผ ๊ณต๊ฐํ์ผ๋, ์ค์ ์ต๊ณ ์ฑ๋ฅ(์: llama4)๊น์ง ์คํ์์คํ ์ง๋ ๋ถํฌ๋ช
.
Reasoning ๋ฅ๋ ฅ์ ๋์ธ ์ฒจ๋จ ๋ชจ๋ธ(์: GPT-5, Claude Next, OO ์๋ฆฌ์ฆ ๋ฑ)์ ์ถ๋ก ๋น์ฉ์ด ๋งค์ฐ ๋น์ธ์ ธ, ์๋ณธ์ง์ฝ์ ํฌ์๋ง์ด ๊ฐ๋ฅํด์ง๋ ๊ตฌ์กฐ.
5. ๊ธฐ์
/ํ์ดํผ์ค์ผ์ผ๋ฌ๋ณ ๋์ ์ ๋ต
Anthropic์ ํธ๋ ์ด๋(Trainium) ์ฌ๋ก:
โ์๋ง์กด ๋ฒ ์ด์(๊ธฐ๋ณธํ)โ TPU๋ผ๋ ๋ณ์นญ์ธ ํธ๋ ์ด๋์ ํ์ฉํ๋ ์คํธ๋กํฝ.
๋น์ฉ ์ ๊ฐ์ ์ํด GPU ๋์ ํธ๋ ์ด๋(์ฑ๋ฅ์ ์๋์ ์ด์ธ์ด์ง๋ง AWS์ ์ ํดยทํฌ์์ ์น)์ ํํจ.
์ด๋ฌํ ์ ๋ต์ด ์ฅ๊ธฐ์ ์ผ๋ก ํฉ๋ฆฌ์ ์ธ์ง ๋ถํ์คํ๋, ๋น์ฅ์ โ๊ฐ๋ ฅ ์๋ณธ + ํ ์ธ๋ ์ธํ๋ผโ๊ฐ ๋งค๋ ฅ ์์ธ.
OpenAI์ ์์ฒด์นฉ ์ค๊ณ ๊ฐ๋ฅ์ฑ:
ํ์ฌ Nvidia ๋
์ฃผ์ฒด์ ์ง๋ง, OpenAI๊ฐ ๋ ๊ท๋ชจ๊ฐ ์ปค์ง๋ค๋ฉด(๋งค์ถ ์๋ฐฑ์ต ๋ฌ๋ฌ ๋จ์) ์์ฒด ์นฉ ์ค๊ณ๋ฅผ ๋ณธ๊ฒฉํํ ์ ์์.
์ฌํ ํ์ดํผ์ค์ผ์ผ๋ฌ(์๋ง์กด, ๊ตฌ๊ธ, ๋ฉํ ๋ฑ)์ฒ๋ผ, โ์นฉ ํโ์ ์กด์ฌ ์์ฒด๊ฐ ํ์๋ ฅ ์์นํจ๊ณผ๋ฅผ ๋
ธ๋ฆฌ๋ ๋ฉด๋ ์์.
CoreWeave ์ฑ์ฅ ๋น๊ฒฐ:
์๋น๋์์ โGPU ๋ฌผ๋ ํ ๋น+์์ก ํฌ์โ๋ฅผ ํตํด ์ด๊ธฐ ๋ฌผ๋์ ํ๋ณด.
๋ฏผ์ฒฉํ ์ค๊ณ(์: ๋ฐ์ดํฐ์ผํฐ ๊ตฌ์ถ ์๋, ํด๋ผ์ฐ๋ ์ํํธ์จ์ด ์ต์ ํ)๋ก ๊ธฐ์กด ๋น
ํด๋ผ์ฐ๋๋ฅผ ๋ฅ๊ฐํ๋ ํน์ ์ญ๋ ๋ณด์ .
ESG๋ณด๋ค๋ โ๊ณ ์ ๊ตฌ์ถโ์ ๊ฐ์ ์ผ๋ก ๋ด์ธ์ ํ์ด์ค๋ฅผ ๋์.
6. ๋ฏธ๋ ์ ๋ง ๋ฐ ๊ฒฐ๋ก
1. ๊ท์ + ์ธํ๋ผ + ์ฐ๊ตฌ ํจ๋ฌ๋ค์:
๋ฏธ๊ตญ ๋ด AI ๋ฐ์ดํฐ์ผํฐ ์ธํ๋ผ ํฌ์๊ฐ ํญ๋ฐ์ ์ฆ๊ฐ(์์ฒ์ต ๋ฌ๋ฌ ๊ท๋ชจ). ๊ท์ ๋ก ์ธํด ๊ธ๋ก๋ฒ ํด๋ผ์ฐ๋ ์์ฅ์ ์์ ๋ฏธ๊ตญ ๊ธฐ์
์ด ๋
์ ๊ฐํํ ์๋ ์์.
์คยท์ฅ๊ธฐ์ ์ผ๋ก ์ค๊ตญ์ ์์ฒด ๊ธฐ์ ์งํ(๋ค๋ฅธ ๊ฒฝ๋ก์ ํ์ )๋ก ์ถ๊ฒฉ ๊ฐ๋ฅ์ฑ๋ ์ด๋ ค ์์.
2. ๋ถ์ฐ ํ๋ จ, ํ
์คํธํ์ ์ปดํจํธ, ์๋์ง ๊ณต๊ธ:
๋ชจ๋ธ ์์ฒด๊ฐ โReasoning ์ฒด์ธโ ๋ฐฉ์์ ์ฑํํด ์ถ๋ก ๋น์ฉ ๊ธ์ฆ โ ๋๊ท๋ชจ ์ ๋ ฅยท๋๊ฐยท๋คํธ์ํน ๋ณ๋ชฉ ๋ฐ์.
๋ฏธ๊ตญ ๋ด ์ ๋ ฅ ์ธํ๋ผ ํ์ถฉ, ๊ท์ ์ํ, ์น(่ฆช) ๋ฐ์ดํฐ์ผํฐ ์ ์ฑ
์ด ์ค์ํ๋ค๋ ์๊ฒฌ.
3. ํ๋์จ์ด ์คํํธ์
ยท์ํํธ์จ์ด ์ธํ๋ผ ๊ธฐํ:
์๋ก์ด AI ๋ฐ๋์ฒด(์์น๋, ๋ง๋ฑ์ค, ๋ฑ) ๋ฐ ๋ถ์ฐ ํ๋ จ ์คํํธ์
์ด ๋ฑ์ฅ ์ค์ด์ง๋ง, Nvidia ๋ฑ ๊ธฐ์กด ๊ฐ์ ๋๋น โ์ฌ์ฉ ๋ชจ๋ธ ์ํ๊ณโ ์ด์ ์ด ๋ถ์กฑ.
Infra ๋ ์ด์ด(ํจ์จ์ ์ธ AI serving, ๋ถ์ฐ ํ๋ จ, ๋ ์ดํด์ยท์ค๊ฐ ์บ์ฑ ๊ธฐ์ ๋ฑ)์ ํฐ ํฌ์ยทํ์ ์ฌ์ง๊ฐ ์๋ค๊ณ ๋ด.
๊ฑฐ์ ์์ฌ์ :
๋ฏธ๊ตญ์ โ์ค์ค๋ก ๋ ๋นจ๋ฆฌ (infrastructure๋ฅผ) ์ง๊ณ ์๋์ง๋ฅผ ํ๋ํ์ฌ ์น๋ฆฌโํ๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ผ ํ๋ค๊ณ ๋๋ฐ์ ์ฃผ์ฅ.
์ค๊ตญ, ์ค๋, ๋๋จ์ ๋ฑ ๋ค์ํ AI ํ๋ธ ์๋๊ฐ ์์์ง๋ง, ์ด๋ฒ ๊ด๋ฒ์ ๊ท์ ๋ก ์๋น ๋ถ๋ถ ์ ์ฝ.
https://youtu.be/KYzYOPkxLis
๊ธ๋ก๋ฒ AI ์ธํ๋ผ & ๋ํ ํฌ์ ๊ฒฝ์
GPU ์์ ํญ์ฆ๊ณผ ์บํ(Capacity) ํ๊ณ:
x.ai(Elon Musk)๋ Anthropic(์๋ง์กด ํ์), Google(DeepMind), Meta ๋ฑ ์ด๊ฑฐ๋ ๋ชจ๋ธ๋ค์ด ๋ชจ๋ GPU ์ฆ์ค ๊ฒฝ์.
์ ์กฐ์ฌ(Nvidia ๋ฑ)์ ์ฐ๊ฐ GPU ์์ฐ๋ฅ๋ ฅ์ ๊ฐ์ํ ๋, ๋๊ท๋ชจ ์ ๊ท ํ๋ก์ ํธ(Stargate ๋ฑ)๋ ๊ฒฐ๊ตญ GPUยท์ ๋ ฅยท๋ฉ๋ชจ๋ฆฌยท์์ง๋์ด๋ง์ด ๋ณ๋ชฉ์ด ๋ ๊ฒ์ผ๋ก ๋ณด์.
์ด ๊ณผ์ ์์ Nvidia์ ์์๊ฐ ๋์ฑ ์ฆ๊ฐ, ๊ธฐ์
๋งค์ถ ๊ธฐ๋์น ์์น.
Innovation vs. Commoditization:
์ผ๋ถ ์ ๋ฌธ๊ฐ๋ ๊ท๋ชจ์ ๊ฒฝ์ ์ ๋ญ์นซ๋์ด ๋ชจ์ด๋ฉด, ๊ณง AI ๋ชจ๋ธ๋ค์ โ์ ์ฌ Commoditizationโ์ด ์ฌ ์ ์๋ค๊ณ ์ง์ .
๊ทธ๋ฌ๋ Sam Altman(์คํAI), Elon Musk(x.ai)์ฒ๋ผ โ๋ง๋ํ ์๋ณธ+๋
๋ณด์ ๋ชจ๋ธ๋งยท๋ฐ์ดํฐโ ์กฐํฉ์ด ๊ฒฐ๊ตญ ์น์๋ก ๊ท๊ฒฐ๋ ๊ฒ์ด๋ผ๋ ์ ๋ง๋ ๊ณต์กด.
๊ตญ๊ฐ ๊ฒฝ์๊ตฌ๋:
๋ฏธ๊ตญ์ด ๋๊ท๋ชจ AI compute ์ผํฐ ๊ฑด์ค์ ๋ฐ์ฐจ๋ฅผ ๊ฐํ๋ฉด, MetaยทGoogleยทMicrosoft ๋ฑ ์๊ตญ ํ
ํฌ ๊ธฐ์
๋ ๋์ Capex ์ฆ์ค์ด ๋ถ๊ฐํผ.
์ค๊ตญ์ ์ด์ฉ ์ ์์ด โ์ ํ๋ ์นฉ ํ๊ฒฝโ์์ ํ์ (์์ถ ๋ชจ๋ธยท์ฆ๋ฅ ๋ชจ๋ธ ๋ฑ)์ ๊ฐ์ํ ์ค. DeepSeek ์ฌ๋ก๊ฐ ๋ํ์ .
๋๋ด์๋ค์ ํํ ์์ถ ์ ํ์ด ์คํ๋ ค ์ค๊ตญ ์ธก์ ์ฐฝ์์ ์๋ฃจ์
์ ์ ๋ํ ์ ์๋ค๊ณ ์ง์ .
์ ๋ ฅ ์์๊ฐ ๊ธฐ๊ฐ์ํธ(GW) ๊ธ:
10๋ง GPU ์์ค์ โAI ํฉํ ๋ฆฌโ๋ 100MW ์ด์์ ์ ๋ ฅ์ด ์์๋๋ค๊ณ ์๋ ค์ ธ ์์ต๋๋ค.
๊ทธ ์ด์์ ๊ท๋ชจ๊ฐ ๋๋ฉด ์ต๋ 1GW์ ์ด๋ฅด๋ ์ ๋ ฅ ์ธํ๋ผ๋ ํ์ํฉ๋๋ค(์ฐธ๊ณ ๋ก, 1GW๋ ์ฝ 100๋ง ๊ฐ๊ตฌ๊ฐ ์ฌ์ฉํ๋ ์ ๋ ฅ๋์ ํด๋น).
์ GW ๊ท๋ชจ์ ๋ถ์งยท์ ๋ ฅยท๋๊ฐ ์ธํ๋ผ๋ฅผ ๊ฑด์คํ ์ ์์ด์ผ โ๋งค์ฐ ํฌ๋คโ๊ณ ํ๊ฐํ๊ฒ ๋ฉ๋๋ค.
์๋ฐฑ์ต~์์ฒ์ต ๋ฌ๋ฌ๊ธ ํฌ์ ๊ท๋ชจ:
์๋น๋์ H100 GPU 1์ฅ๋ง ํด๋ ์ฝ 2~3๋ง ๋ฌ๋ฌ, ์๋ฒยท๋๊ฐยท๋คํธ์ํนยท๋ถ์ง ๋ฑ์ ์ข
ํฉํ๋ฉด GPU 1์ฅ๋น 4~5๋ง ๋ฌ๋ฌ์ Total System Cost๊ฐ ๋ ๋ค๋ ์ถ์ ์ด ์์ต๋๋ค.
์์ปจ๋ 10๋ง ์ฅ๋ง ํด๋, ํ๋์จ์ดยท์ธํ๋ผ ๋น์ฉ์ด 50์ต ๋ฌ๋ฌ์ ๋ฌํ๊ณ , ์ค์ ๋ก๋ ์ ๋ ฅ ์ค๋น/์๊ณต ๋น์ฉ ๋ฑ์ด ๋ํด์ ธ ๊ทธ 2~3๋ฐฐ๋ก ๋ธ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค.
SoftBank(Arm)์ OpenAI์ ํ์
์ด ๊ตฌ์ฒดํ๋ ๊ฒฝ์ฐ, ์์ญ๋ง ์ฅ GPU ์ฌ์ฉ, ์๋ฐฑ์ต ๋ฌ๋ฌ๊ธ Capex๊ฐ ๋ค์ด๊ฐ ์ ์์ด โ์ด๋ํโ์ด๋ผ ํ๊ฐ๋๋ ๊ฒ์
๋๋ค.
AI Helm vs. Micro-model ํ์
๋ฅ์จํฌ(DeepSeek) ๋ฑ์ ์ ํ๋ GPU๋ก๋ ๊ณ ์ฑ๋ฅ ๋ชจ๋ธ ๋ฌ์ฑ(๋ชจ๋ธ ์์ถยท์ฆ๋ฅ ๊ธฐ๋ฒ) โ ๊ท์ ๊ฐ ์ญ์ค์ ์ผ๋ก ํ์ .
์ค์ ์คํ ๊ณผ์
์ ๋ ฅ ํ๋ณด(7GW~10GW ์ด์), GPU ์์ฐํ ํน ์บํ(3nm ๊ณต์ ), ๋๊ท๋ชจ HBM ๊ณต๊ธ, ๋๊ฐยท์ผ์ด๋ธ ์ธํ๋ผ ๋ฑ ์ข
ํฉ์ ์ฐจ์์ ํ์
ํ์.
๋ฏธ๊ตญ ๋ํ ํ
ํฌ ๊ธฐ์
(๊ตฌ๊ธ, ๋ฉํ, ์๋ง์กด, x.ai)๋ ํน๋
ํ Capex ๊ฒฝ์ ์์.
๋ฐ๋์ฒด ์์ฐ ์บํ(Capacity) ์์ฒด ํ์ถฉ:
GPUยทAI์ฉ ASIC ๋ฑ ์์ฐ์ ๋ด๋นํ๋ ํ์ด๋๋ฆฌ(์ฃผ๋ก TSMC)๋ ์ธํ
ยท์ผ์ฑ์ ์๊ฐ 3nmยท2nm ๊ณต์ ์ผ๋ก ๋๋ ์์ฐํ ์ ์๋๋ก ๊ณต์ฅ๋ผ์ธยท์ฅ๋น(ASML ๋
ธ๊ด์ฅ๋น ๋ฑ)๋ฅผ ์ฆ์คํด์ผ ํจ.
CPU ์์ฐ์ ๊ฒฝ์ฐ๋ Arm ์ํคํ
์ฒ ๊ธฐ๋ฐ SoC๋ฅผ ๋๊ท๋ชจ๋ก ๋ง๋ค๋ ค๋ฉด, ํ์ด๋๋ฆฌ์์ ํ์
ยทํฌ์ ํ์.
HBM(๊ณ ๋์ญํญ ๋ฉ๋ชจ๋ฆฌ) ๋ฑ ๋ณด์กฐ ๋ถํ์ ์์ ์ ์กฐ๋ฌ๋ง ๊ตฌ์ถ:
AI ์๋ฒ์๋ GPU๋ฟ ์๋๋ผ ๋์ฉ๋ HBM ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์์ธ๋ฐ, HBM ์ ์กฐ(์ผ์ฑยทํ์ด๋์ค ๋ฑ)๋ ์บํ๊ฐ ์ ํ์ ์.
์ค์ ๋ก 2023๋
~2024๋
์ ์ธ๊ณ HBM์ด ๊ณต๊ธ ๋ถ์กฑ์ด ๋ ์ ์๋ค๋ ์ฐ๋ ค๊ฐ ๊พธ์คํ ์ ๊ธฐ๋์์ต๋๋ค.
๋ฐ๋ผ์ AI ๊ธฐ์
๋ค์ โCPU/GPU์นฉ+HBM+Advanced Packagingโ ๋ฑ ์ ์ฒด ๋ฐ๋์ฒด ๊ณต๊ธ๋ง์ ์ฅ๊ธฐ ๊ณ์ฝยท์ง์ ํฌ์ ๋ฑ์ผ๋ก ํ๋ณดํด์ผ ํ๋ฉฐ, ์ด๊ฒ์ โ๋ฐ๋์ฒด ํ์ดํ๋ผ์ธ ํ์ถฉโ์ด๋ผ ๋ถ๋ฆ
๋๋ค.
โ์ํ์ด ๊ณง ์ถ๋ก โ์ด๋ผ๋ ๋ฏฟ์
์ํ์ ์ง์ ๊ฐ๋ฅด์ณ์ผ ํ๋ ์ด์
๋๊ท๋ชจ ํ์ด๋ฐ์ด์
๋ชจ๋ธ(LLM)๋ค์ด ์ธํฐ๋ท ํ
์คํธ ์ ๋ฐ(์ฝ๋, ์์ฐ์ด, ๋
ผ๋ฌธ ๋ฑ)์ ํ์ตํด โ์์ฐ์ค๋ฝ๊ฒโ ์ํ ๋ฅ๋ ฅ์ ์ตํ ์ ์๋ค๊ณ ๊ธฐ๋ํ์ง๋ง, ์ค์ ๋ก๋ ๋ฏธํกํจ.
โ์ํ์ ๊ฐ๊ด์ ์ด๊ณ ์๊ฒฉํ ๋
ผ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐโ, ์ด๋ฅผ AI์ ์ง์ ํ์ต์์ผ์ผ ์ง์ ํ โ์ถ๋ก ๋ฅ๋ ฅโ์ด ์๊ธด๋ค๊ณ ๋ด.
์ธ๊ฐ ์ฌ๋ก: ์ด๋ฆด ๋ ์ํ(ํนํ ์ด๋ ต๊ณ ์ถ์์ ์ธ ๋ฌธ์ )์ ํ๋ จํ ์ฌ๋๋ค์ด ๋ค๋ฅธ ๊ณผํยท๊ณตํยท๋
ผ๋ฆฌ์ ์์
์ ๋ฐ์ด๋ ์ญ๋์ ๋ฐํํ๋ฏ, AI๋ ๋ง์ฐฌ๊ฐ์ง ํจํด์ ๋ณด์ผ ๊ฒ์ผ๋ก ์์.
์ํ์ ์ํ๋ฉด ๋ค๋ฅธ ๋ถ์ผ๋ ์ํ ์ ์๋๊ฐ?
์ฝ๋ ์์: ์ด๋ฏธ ์
๊ณ์์ โ์ฝ๋ ๋ฐ์ดํฐ๋ก ํ์ตํ๋ฉด ๋
ผ๋ฆฌยท์ถ๋ก ๋ฒค์น๋งํฌ ์ ์๊ฐ ํฌ๊ฒ ์ฌ๋ผ๊ฐ๋คโ๋ ์ฌ์ค์ด ์๋ ค์ ธ ์์. ์ํ์ ๊ทธ๋ณด๋ค ๋ ํ์ฅ๋ ๋ฒ์์ ๋
ผ๋ฆฌ ํ๋ จ์ ์ ๊ณต.
๋ธ๋ผ๋ ํ
๋ค๋ธ ๋ณธ์ธ์ ๊ฒฝํ: ๋ํ ์์ ์ํ์ ๋ชฐ๋ํ์ผ๋, ์ดํ ํ๋ก๊ทธ๋๋ฐยท๊ธฐ์
๊ฒฝ์ยท๊ณ์ฝ์ ๋ถ์ ๋ฑ ๋ค์ํ ๋ถ์ผ๋ฅผ ๋น ๋ฅด๊ฒ ์ตํ ์ ์์๋ค๊ณ ์ธ๊ธ.
AI๊ฐ ๋ฆฌ๋ง ๊ฐ์ค(Riemann Hypothesis) ๋ฑ์ ํ ์ ์์๊น?
์ํ๊ณ์ ์๊ฐ
์ ์ ์ํ์๋ค์ Lean, ์๋์ฆ๋ช
, AI ์ฐ๊ตฌ์ ๋น๊ต์ ๊ฐ๋ฐฉ์ ยท๊ธ์ ์ ์ธ ๋ฐ๋ฉด, ์ ํต์ ์ธ ํ๊ณ ์๋ก๋ค์ ์์ง ๋ค์ ํ์์ .
๊ทธ๋ฌ๋ ์ ์ฐจ โAI ๋ณด์กฐ ์ํ ์ฐ๊ตฌ(Human+AI ํ๋ ฅ)โ๊ฐ ๋ณดํธํ๋ ๊ฒ์ด๋ผ๋ ๋ฐ์๋ ๊ณต๊ฐ๋๊ฐ ํ์ฑ๋๊ณ ์์.
๋ฆฌ๋ง ๊ฐ์ค ๋ฑ ๋ฐ๋ ๋์ ๋์
๋ฉํํ๋ฌ์ค(Metaculus) ์์ธก: โ๋ค์ ๋ฐ๋ ๋์ ํ๋ผ์ด์ฆ๋ฅผ AI ํน์ AI ๋ณด์กฐ๋ก ํด๊ฒฐํ ํ๋ฅ ์ด 43%โ๋ผ๋ ์ง๊ณ๊ฐ ์์ผ๋, ๋ธ๋ผ๋๋ ์ด๋ฅผ โ๊ณผ์ํ๊ฐโ๋ผ๊ณ ๋ด.
์กฐ๋ง๊ฐ(๊ฐ๋ น 2020๋
๋ ๋ง~2030๋
๋ ์ด)์ AI๊ฐ ์ธ๊ฐ ํ์
๋๋ ๋จ๋
์ผ๋ก ์ฃผ์ ๋์ ๋ฅผ ํด๊ฒฐํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค๊ณ ์ ๋ง.
์ธ๊ฐ์ด ํด์ผ ํ ์ญํ
AI๊ฐ ์ ์ฐจ ์ํ ๋ฌธ์ ํด๊ฒฐ๋ ฅ์ ๋์ด๋๋ผ๋, โ์ด๋ค ๋ฌธ์ ์ compute ์์์ ํฌ์
ํ ์ง ๊ฒฐ์ โํ๋ ๊ฒ์ ์ธ๊ฐ์ ๋ชซ.
๋ํ โ์๋ก์ด ๋ฌธ์ ๋ฅผ ์ด๋ป๊ฒ ์ ์ํ๊ณ , ์ฆ๋ช
๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ป๊ฒ ํด์ํ ์งโ ๋ฑ์ ๊ณผ์ ์์ ์ธ๊ฐ ์ํ์๋ค์ ๊ณ์ ์ค์ํ ์ญํ ์ ํ ๊ฒ.
Lean(๊ณต์ ์ฆ๋ช
์์คํ
) ํ์ฉ๊ณผ ์๊ธฐ๊ฐํ(Self-play)
Lean์ด๋?
๋ง์ดํฌ๋ก์ํํธ ์ฐ๊ตฌ์(ํ์ฌ๋ AWS ์์) ๋ ์ค ๋ ๋ชจ๋ผ(Leo de Moura)๊ฐ ๊ฐ๋ฐํ ํ์ ๋
ผ๋ฆฌ(Proof Assistant) ๊ธฐ๋ฐ ์ธ์ด.
์๋๋ โ์ํํธ์จ์ด ๊ฒ์ฆโ์ ๋ชฉํ๋ก ํ์ง๋ง, ์ํ๊ณ์์ ํญ๋ฐ์ ์ผ๋ก ํ์ฐ๋์ด ์์ฒ ๋ช
์ด์์ ์ํ์๋ค์ด Mathlib ์คํ์์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๊ตฌ์ถ ์ค.
๋ชจ๋ ์ ๋ฆฌ๋ Lean์ ํ์
์์คํ
์์ โํจ์(signature)โ ํํ๋ก ํํ๋๋ฏ๋ก, ์ฆ๋ช
๋ง ํต๊ณผํ๋ฉด 100% ์ณ์ ๊ฒ์ผ๋ก ๊ฐ์ฃผ ๊ฐ๋ฅ.
์ ์ํ AI์ Lean์ด ํ์์ธ๊ฐ?
์ผ๋ฐ ํ
์คํธ ๊ธฐ๋ฐ์ โ์ ๋ต ์ฌ๋ถโ ํ๋จ์ ๋ชจํธํ๊ฑฐ๋ ์ก์์ด ๋ง๋ค.
Lean ์์์๋ โ์ฆ๋ช
์ด ์ปดํ์ผ๋๋ฉด ์ณ์์ด ํ์ โ๋๋ฏ๋ก, ๊ฐํํ์ต(RL)๊ณผ ์๊ธฐ๊ฒ์ฆ(self-play)์ ์ด์์ .
์ฒด์ค๋ ๋ฐ๋์ฒ๋ผ ํด๊ฐ ์ ํํ ๊ฒ์๊ณผ ๋ฌ๋ฆฌ, ์ํ ๋ฌธ์ ๋ ๋ฌดํํ ๋ค์์ฑ๊ณผ ๋์ด๋๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฏ๋ก AI๊ฐ ๋์์์ด ๋ ๋์ ๊ฒฝ์ง๋ก ์ฌ๋ผ๊ฐ ์ ์์(โAlphaZeroโ ๋ฐฉ์).
ํฉ์ฑ ๋ฐ์ดํฐ(synthetic data)
ํ๋ชจ๋์ ๊ธฐ์กด์ ์กด์ฌํ๋ Mathlibยท๋
ผ๋ฌธยท์ธํฐ๋ท ์ํ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ๋ถ์กฑํ๋ค๊ณ ํ๋จ.
๊ฒฐ๊ตญ AI๊ฐ ์์ฒด์ ์ผ๋ก ์๋ง์ ๋ฌธ์ ๋ฅผ ๋ง๋ค์ด(์๊ธฐ ์ถ์ ) ํ๊ณ (์๊ธฐ ํด๊ฒฐ), ๊ฒ์ฆํ๋ ๋ฃจํ๋ฅผ ํตํด ๋ฐ์ดํฐ๋ฅผ ์์ฑํด์ผ ํจ.
์ด๋ ๊ฒ โ์ฆ๋ช
๋์ด๋โ๋ ์ ์ฐจ ๋์ด๋ ๋ฐฉ์์ผ๋ก ์ ์ง์ ์๊ธฐํ์ต์ ๊ตฌํ.
๋ชฉํ: ์ธ๊ฐ ์ง์์ ๊ฒฝ๊ณ๋ฅผ ํ์ฅ
๋น์ฅ์๋ โAI ์ํ ์ฐ๊ตฌ์โ๊ฐ ๋์ด, ๋ํ ๋์ ๋ฅผ ํธ๋ ๋ฐ ๊ธฐ์ฌ. (์: ๋ฐ๋ ๋์ ๋ฌธ์ , ๋ฆฌ๋ง ๊ฐ์ค, ๋๋ธ-์คํก์ค ๋ฑ)
๊ทธ ๊ณผ์ ์์ ํ์ฑ๋๋ โ์๋ฆฌ ์ถ๋ก ๋ฅ๋ ฅโ์ด ๊ฒฐ๊ตญ ๋ฌผ๋ฆฌํ, ์ด๋ก ๊ณผํ, ์ํํธ์จ์ด ๊ฒ์ฆ ๋ฑ์ผ๋ก ํ์ฅ๋ ๊ฒ.
์ถํ์๋ โ์ํํธ์จ์ด๋ฅผ ์๋์ผ๋ก ์๋ฒฝ ๊ฒ์ฆโํ๋ ์๋๊ฐ ๋๋ํ ๊ฐ๋ฅ์ฑ์ด ๋์.
์ํํธ์จ์ด ์์ง๋์ด๋ง ํจ๋ฌ๋ค์ ์ ํ
์ธ๊ฐ์ด ์ง์ ์ฝ๋๋ฅผ ์์ฑํ๊ณ ๊ฒํ ํ๋ ๋ฐฉ์์์, ์์ผ๋ก๋ โ์ฌ์(์คํ)โ ์์ฃผ๋ก ํ์
ํ๊ณ , ์ค์ ์ฝ๋ ๊ตฌํ๊ณผ ๊ฒ์ฆ์ ๊ฑฐ์ AI๊ฐ ์ํ.
๋น์ฉ์ด ๋น์ธ๊ณ ๋ณต์กํ๋ โํฌ๋ฉ ๊ฒ์ฆ(formal verification)โ๋ AI ๋๋ถ์ ์ ๋น์ฉยท์๋ํ๋ก ์ ํ๋ ์ ์์.
๊ธฐ์ ์ ์ผ๋ก ๋จ์ ๊ณผ์
์์ง Lean๊ณผ Mathlib์ด ์ผ๋ถ ๋ถ์ผ(์: ๊ธฐํํ, ๋ฌผ๋ฆฌ ๋ฑ)์์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์ ํ์ .
โAI๊ฐ ์๋์ผ๋ก ์๋ก์ด ์ด๋ก ยท๊ณต๋ฆฌ๋ฅผ ์ ์ํ๊ณ , ์ด๋ฅผ ๋ค์ Lean์ ํฌ์ญโํ๋ ์์
์ด ์์ ํ ์๋ํ๋๋ ค๋ฉด ์ฐ๊ตฌ๊ฐ ๋ ํ์.
๊ทธ๋ฌ๋ 1~2๋
์ด๋ด์ โIMO ์์ค(๊ตญ์ ์ํ์ฌ๋ฆผํผ์๋ ์ฐ์น ์์ค)โ์ ๋ฌ์ฑํ ์ ์๊ณ , ๊ทธ ํ ๋งค์ฐ ๋น ๋ฅธ ์๋๋ก ์ฑ์ฅํ ๊ฒ์ด๋ผ๋ ์ ๋ง.
https://youtu.be/NvAxuCIBb-c
๋ฉํ์ ์์ฑ AI ์กฐ์ง์ด ํจ๋ ์ํ์ ๋น ์ก์ต๋๋ค.
๋ชจ๋ ๊ฒ์ deepseek v3์์ ์์๋์์ต๋๋ค.
์ด ๋ชจ๋ธ์ด Llama 4๋ฅผ ์ด๋ฏธ ๋ฒค์น๋งํฌ์์ ๋ค์ฒ์ง๊ฒ ๋ง๋ค์์ฃ .
์ค์๊ฐ์์ผ๋ก โ5~5๋ฐฑ๋ง ๋ฌ๋ฌ์ ์์ฐ์ผ๋ก ํ๋ จํ ์ ์ฒด๋ถ๋ช
์ ์ค๊ตญ ํ์ฌโ๊ฐ ๋ํ๋ฌ์ต๋๋ค.
์์ง๋์ด๋ค์ deepseek์ ํ์ฌ์ ์ผ๋ก ๋ถ์ํ๋ฉฐ ๊ฑฐ๊ธฐ์ ๋ฐฐ์ธ ์ ์๋ ๋ชจ๋ ๊ฒ์ ๋ฒ ๊ปด ์ค๋ ค๊ณ ํ๊ณ ์์ต๋๋ค. ์ ๋ง ๊ณผ์ฅ์ด ์๋๋๋ค.
๊ฒฝ์์ง์ ์์ฑ AI ์กฐ์ง์ ๋ง๋ํ ๋น์ฉ์ ์ด๋ป๊ฒ ์ ๋นํํ ์ ์์์ง ์ฐ๋ คํ๊ณ ์์ต๋๋ค. ์กฐ์ง ๋ด โ๋ฆฌ๋โ ํ ๋ช
์ด deepseek v3์ ์ ์ฒด ํ๋ จ ๋น์ฉ๋ณด๋ค ๋ ๋ง์ ์ฐ๋ด์ ๋ฐ๊ณ ์๊ณ , ๊ทธ๋ฐ โ๋ฆฌ๋โ๊ฐ ์ฌ๋ฌ ๋ช
์ด๋ ๋๋ ๋ง์
๋๋ค.
deepseek r1์ ์ํฉ์ ๋์ฑ ์
ํ์์ผฐ์ต๋๋ค. ๊ธฐ๋ฐ ์ ๋ณด๋ผ ์์ธํ ๋ฐํ ์๋ ์์ง๋ง ๊ณง ๊ณต๊ฐ๋ ๊ฒ์
๋๋ค.
์ฌ์ค ์ด ์กฐ์ง์ ์๊ท๋ชจ์ ์์ง๋์ด๋ง ์ค์ฌ ์กฐ์ง์ด ๋์์ด์ผ ํ์ต๋๋ค. ๊ทธ๋ฌ๋ ์ฌ๋ฌ ์ฌ๋๋ค์ด ์ํฅ๋ ฅ์ ์ป๊ธฐ ์ํด ์กฐ์ง์ผ๋ก ๋ชฐ๋ ค๋ค๊ณ , ์ธ๋ ฅ์ ์ธ์์ ์ผ๋ก ๋ถํ๋ฆฐ ๊ฒฐ๊ณผ ๋ชจ๋์๊ฒ ํด๊ฐ ๋๊ณ ๋ง์์ต๋๋ค.
https://youtu.be/XJsHIoIDhPY
1) ๋ฅ๋ฌ๋์ ํจ์จ์ ๋ฐฉ์๊ณผ โํ์ฅ(์ค์ผ์ผ์
) + ํต๊ณโ ์ ๊ทผ
(1) ๋ฅ๋ฌ๋์ ํจ์จ์ ๋ฐฉ์์ด๋?
์ ํต์ ์ธ โ๊ธฐํธ์ AIโ๋ โ๊ท์น ๊ธฐ๋ฐ(If-Then)โ ์ ๊ทผ์, ์ฌ๋์ด ์ง์ ๊ท์น์ ๋ง๋ค์ด์ค์ผ ํ์.
๋ฐ๋ฉด ๋ฅ๋ฌ๋์ ๋ชจ๋ธ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ๋ฃ๊ณ , ๋ชจ๋ธ์ด ํ๋ผ๋ฏธํฐ(๊ฐ์ค์น)๋ฅผ ์ค์ค๋ก ํ์ตํ์ฌ ๊ท์น์ โ์ถ๋ก โํ๋ค.
์ด ๊ณผ์ ์์ ํ์ํ ๊ฒ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ, ๋๊ท๋ชจ ๊ณ์ฐ(์ปดํจํ
), ํจ์จ์ ์ธ ๋ชจ๋ธ ๊ตฌ์กฐ(์: ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง, ํธ๋์คํฌ๋จธ ๋ฑ).
(2) ์ค์ผ์ผ ์
(scaling)์ด ์ค์ํ ์ด์
์ค์ผ์ผ ์
์ด๋ ๋ชจ๋ธ์ ํฌ๊ธฐ(ํ๋ผ๋ฏธํฐ ์), ํ์ต ๋ฐ์ดํฐ ์, ํ์ต์ ์ธ ์ปดํจํ
์์ ๋ฑ์ ๋จ์ํ ๋๋ฆฌ๋ ๊ฒ์ ์๋ฏธ.
2012๋
๋ฌด๋ ต๋ถํฐ GPU์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์ด ๊ฒฐํฉ๋๋ฉด์, ๋ฅ๋ฌ๋์ด ๊ธฐ์กด ์ ๊ทผ(๊ธฐํธ์ AI ๋ฑ)์ ์๋ํ๋ ์ฑ๋ฅ์ ๋ด๊ธฐ ์์.
์ค์ ํฌ์ธํธ: โ๊ท๋ชจ๋ฅผ ๋๋ฆฌ๋ฉด(dB)์์๋ก ์ฑ๋ฅ์ด ๊ฐ์ ๋ ์ฌ์งโ๊ฐ ํฌ๋ค๋ ์ฌ์ค. ์์ปจ๋ ํธ๋์คํฌ๋จธ ๊ณ์ด ๋ชจ๋ธ(GPT, Claude ๋ฑ)์ ํ๋ผ๋ฏธํฐยท๋ฐ์ดํฐ๋ฅผ ํ์ฅํ ์๋ก, ์ธ์ด ์ดํดยท์์ฑ ๋ฅ๋ ฅ์ด ๊ธ์์นํด ์๋ค.
์ค์ผ์ผ๋ง์ด ์๋ฏธ ์๋ ์ด์ ๋, โ์ค๊ณ์๊ฐ ์ผ์ผ์ด ์๋์ง ์์๋โ, ๋จ์ํ ๋ชจ๋ธ ์ฉ๋๊ณผ ๋ฐ์ดํฐ๋ง ๋๋ฆฌ๋ฉด ์ฑ๋ฅ์ด ๊พธ์คํ ํฅ์๋๋ โ์ค์ผ์ผ๋ง ๋ฒ์น(scaling law)โ์ด ๊ด์ฐฐ๋์๊ธฐ ๋๋ฌธ.
(3) โ๋ฌผ๋ฆฌํ์ ํต๊ณ์ญํ์ ๊ด์ โ๊ณผ์ ์ฐ๊ฒฐ
Dan์ด ๋งํ๋ โํต๊ณ์ญํ์ ๊ด์ โ์, ๋ฏธ์์ ์์๋ค์ด ๋ฌด์ํ ๋ง์ ๋, ๊ฑฐ์์ ์ผ๋ก ๋จ์ํ ๋ฒ์น์ด ๋๋ฌ๋๋ค๋ ๋ฌผ๋ฆฌํ ๋ฒ์น(์: ์ด์๊ธฐ์ฒด๋ฒ์น ๋ฑ)์ ์ผ์ปซ๋๋ค.
๋ฅ๋ฌ๋๋ ๋ง์ฐฌ๊ฐ์ง๋ก, ์๋ง์ ํ๋ผ๋ฏธํฐ(๊ฐ์ค์น)์ ๋ด๋ฐ์ด ๋ฏธ์์ ์ผ๋ก ๋ณต์กํ๊ฒ ์ฝํ ์์ง๋ง, ๋๊ท๋ชจ๋ก ์ค์ผ์ผ์
ํ์ ๋ ์ด๋ค ๊ฐ๋จํ ํต๊ณ์ ๊ฑฐ๋(์: ์ผ์ ํ ์์ค ํ๋ฝ ์ถ์ธ, ์ฑ๋ฅ ๊ณก์ )์ด ๋ํ๋๋ค.
๋ฌผ๋ฆฌํ์๋ ์ด๋ฌํ โํฐ ๊ท๋ชจ์์์ ๋จ์ํจโ์ ์ดํดํ๊ณ ๋ชจ๋ธ๋งํ๋ ๋ฐ ์ต์ํ๋ฏ๋ก, ๋๊ท๋ชจ ์ ๊ฒฝ๋ง(๋ฅ๋ฌ๋)์๋ ๋๊ฐ์ ์ฌ๊ณ ๋ฅผ ์ ์ฉํ ์ ์๋ค๋ ๊ฒ.
2) ๋จ์ผ ๋๊ท๋ชจ ๋ชจ๋ธ vs. ์ ๋ฌธ ๋ถ์ผ๋ณ ๋ชจ๋ธ
(1) ํ์ฌ ํธ๋ ๋: โํ๋์ ๋ฒ์ฉ ์ด๋๊ท๋ชจ ๋ชจ๋ธโ
๊ตฌ๊ธ, OpenAI, Meta ๋ฑ ๋น
ํ
ํฌ๋ค์ โํ๋์ ๊ฑฐ๋ํ ์ธ์ด๋ชจ๋ธ(GPT, PaLM, Llama ๋ฑ)โ์ด ๋ชจ๋ ์ธ์ด ์
๋ฌด๋ฅผ ์ ์ฒ๋ฆฌํ ์ ์๋ค๋ ๋ฏฟ์/์คํ์ ๊ณ์ํด ์๋ค.
์ฅ์ :
์ฌ๋ฌ ๋ถ์ผ๋ณ ๋ชจ๋ธ์ ๊ฐ๊ฐ ๋ง๋๋ ๊ฒ๋ณด๋ค, ํ๋์ ๋ฒ์ฉ ๋ชจ๋ธ์ ์ ํค์๋์ผ๋ฉด ๋ค์ํ ํ์คํฌ์ ์กฐ๊ธ์ฉ ํ๋ํด์ ์ธ ์ ์์.
๋ฐ์ดํฐ ๊ณต์ ๋ ํ์ต ์ธํ๋ผ ์ธก๋ฉด์์ โ๊ท๋ชจ์ ๊ฒฝ์ โ ๋ฐ์.
(2) ํ์ง๋ง ์์ยท๊ฒฝ์ ์ฑ ํ๊ณ ๊ฐ๋ฅ
ํฌ๊ธฐ๊ฐ ์ปค์ง์๋ก ํ๋ จ ๋น์ฉ, ์ถ๋ก ๋น์ฉ, ์ ๋ ฅ ์๋ชจ๊ฐ ํญ๋ฐ์ ์ผ๋ก ์ฆ๊ฐ.
โ๋ฌด์์ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๋ค๊ฐ, ๊ฒฝ์ ์ ์ผ๋ก/๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ฐ๋น ์ ๋๋ ์ง์ โ์ด ์จ๋ค๋ ์ฐ๋ ค๊ฐ ์กด์ฌ.
์๋ฅผ ๋ค์ด, GPT-4๋ณด๋ค ํจ์ฌ ํฐ ๋ชจ๋ธ์ ๋ง๋ค๋ ค๋ฉด ์ฒ๋ฌธํ์ ์ธ GPU ํด๋ฌ์คํฐ, ์ ๋ ฅ, ์๊ฐ ๋ฑ์ด ํ์ํด์ง ์ ์์.
(3) ์์ ํ ๋๋ฉ์ธ๋ณ ๋ชจ๋ธ๋ก ์ชผ๊ฐ์ง๋ ๊ฒ์ ๋ณด์ฅ๋์ง ์์
โ์ด๋ํ ๋ฒ์ฉ ๋ชจ๋ธโ๊ณผ ๋ฐ๋๋ก, ๊ฐ ๋๋ฉ์ธ(์ํ, ๋ฒ๋ฅ , ๊ธ์ต ๋ฑ)์ ์ต์ ํ๋ โ์ ๋ฌธ ๋ชจ๋ธโ์ ๋ง๋ค์๋ ์๊ฐ๋ ์์.
๊ทธ๋ฌ๋ ์ ๋ฌธ ๋ชจ๋ธ๋ง ๋ง๋ค ๊ฒฝ์ฐ, ๋งค ๋๋ฉ์ธ๋ง๋ค ๋ฐ์ดํฐ, ํ๋, ์ ์ง๋ณด์๊ฐ ๋ถ์ฐ๋์ด ๋นํจ์จ์ด ์ปค์ง ์ ์์.
์ค์ ๋ก๋ ๋ ์ ๊ทผ์ด ์ด๋ป๊ฒ ์ตํฉ๋ ์ง ์์ง ๋ถ๋ช
ํ.
์) ํ๋์ ํฐ ๋ฒ์ฉ ๋ชจ๋ธ+ํ์ ์ ๋๋ฉ์ธ๋ณ ์ถ๊ฐ ๋ชจ๋(ํน์ ํ์ ๋ชจ๋ธ)์ ํผํฉํ๋ โMixture of Expertsโ ๊ตฌ์, ํน์ API๋ก ์๋ก ํ์
ํ๋ ๊ตฌ์กฐ ๋ฑ๋ฑ.
3) AI ๋ฏธ๋ ์ ๋ง (๋จ๊ธฐ ~ ์ฅ๊ธฐ)
Dan์ ์
์ฅ์์, AI๊ฐ ์ด๋ค ๊ฒฝ๋ก๋ฅผ ๊ฐ์ง ํ์คํ์ง ์์ง๋ง, ๋ค์๊ณผ ๊ฐ์ ์๋๋ฆฌ์ค๋ฅผ ์ธ๊ธ:
(1) ๋จ๊ธฐ (์ฝ 5๊ฐ์ ์ ๋)
GPT-n ์ฐจ์ธ๋ ๋ชจ๋ธ: ์์ปจ๋ GPT-5, GPT-4.5 ํน์ ๋ค๋ฅธ ํ์ฌ ๋ชจ๋ธ์ด ๋์ฌ ๊ฐ๋ฅ์ฑ.
์ด ๋ **โ์ค์ผ์ผ๋ง์ ๋ ๋ฐ์ด๋ถ์ผ ๊ฒฝ์ฐ, ์ด๋ ์ ๋ ์ฑ๋ฅ ํฅ์โ**์ด ๋ฐ์ํ๋์ง ์ฒด๊ฐํ๊ฒ ๋ ๊ฒ.
๋ง์ฝ ์ด์ GPT์์ ๋ค์ GPT๋ก ์ฑ๋ฅ์ด ํฌ๊ฒ ๋ฌ๋ผ์ง๋ค๋ฉด, โ์ค์ผ์ผ๋ง ์์ง ์ฌ๋ ฅ ์๋คโ๋ ๊ฒฐ๋ก ์ด ๊ฐ๋ฅ.
๋ฐ๋ฉด ํฅ์์ด ๋ฏธ๋ฏธํ๋ค๋ฉด, โ์ค์ผ์ผ๋ง ํ๊ณ๊ฐ ์ด๋ฏธ ๋๋ํ๋?โ๋ผ๋ ์ง๋ฌธ ๋ฐ์.
(2) ์ค๊ธฐ (์ฝ 5๋
)
์ค์ผ์ผ ์
์ ๊ฒฝ์ ์ /๋ฌผ๋ฆฌ์ ํ๊ณ๊ฐ ์ฐพ์์ฌ ์๋.
โ๋๋ฌด ๋น์ฉ์ด ์ปค์ ๋ชป ํค์ด๋คโ โ AI ์ํฐ(ํฌ์ยท์ด๊ธฐ ์๋ ํ์) ๊ฐ๋ฅ์ฑ.
๋ฐ๋๋ก, ์๋ก์ด ์์ด๋์ด(์: ์๋ก์ด ํ์ต ํจ๋ฌ๋ค์, ์ํคํ
์ฒ, ๋ฉ๋ชจ๋ฆฌยท์ถ๋ก ๋ฐฉ์ ๋ฑ)๊ฐ ๋ฑ์ฅํด โ๋ ๋ค๋ฅธ ๋์ฝโ์ ์ด๋ฃฐ ์๋.
๊ฒฐ๊ตญ ์ด ์๊ธฐ์๋ โ์ค์ผ์ผ๋ง ์ง์ vs. ์ ์์ด๋์ดยท๊ธฐ์ ์ ํโ ๊ฐ๋ฆผ๊ธธ์ด ๊ด๊ฑด.
(3) ์ฅ๊ธฐ (์์ญ ๋
)
์ฌ๋ฌ ๊ฐ์ง ๊ฐ๋ฅ์ฑ์ด ๊ณต์กด:
AI๊ฐ ๋ชจ๋ ๊ฒ์ ๋ฐ๊พธ๋ ์๋๋ฆฌ์ค: ์ธ๊ฐ ๋
ธ๋ ๋์ฒด, ์ง์ ๋ฐ๊ฒฌ ๊ฐ์, ๊ฒฝ์ ์ฒด๊ณ ์ฌํธ ๋ฑ.
์๋ก์ด ํจ๋ฌ๋ค์ ๋ฑ์ฅ: โAI๋ ํ๊ณ์ ๋ถ๋ชํ๊ณ ์์ ํ ๋ค๋ฅธ ์ปดํจํ
/๋ชจ๋ธ ๋ฐฉ์โ์ด ๋๋๋ ์๋.
โ์ ํํ ์ด๋ค ๋ฐฉํฅ์ผ๋ก ๊ฐ์ง๋ ๋งค์ฐ ์์ธกํ๊ธฐ ์ด๋ ต๋คโ๋ฉฐ Dan ๋ณธ์ธ๋ ์ ์คํ ํ๋๋ฅผ ์ ์ง.
Available now! Telegram Research 2025 โ the year's key insights 
