en
Feedback
Continuous Learning_Startup & Investment

Continuous Learning_Startup & Investment

Open in Telegram

We journey together through the captivating realms of entrepreneurship, investment, life, and technology. This is my chronicle of exploration, where I capture and share the lessons that shape our world. Join us and let's never stop learning!

Show more
2 309
Subscribers
No data24 hours
-87 days
-3130 days
Posts Archive
DeepSeek์—์„œ ๋‚˜์˜จ ํ…Œํฌ๋‹ˆ์ปฌ ๋ฆฌํฌํŠธ๋“ค์— ๋Œ€ํ•œ ๊ธ€์€ ์ด์ „์— ์“ด ์ ์ด ์žˆ์—ˆ๋‹ค. (https://rosinality.substack.com/p/deepseek-llm) ์ง€๊ธˆ DeepSeek-V3๊ฐ€ ๋‚˜์˜จ ์‹œ์ ์—์„œ ๋“œ๋Š” ์ƒ๊ฐ์ด ์žˆ์–ด ๊ทธ๊ฑธ ์จ๋ณผ๊นŒ ํ•œ๋‹ค. ์ข‹์€ LLM์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ฌด์—‡์ด ํ•„์š”ํ• ๊นŒ? ์ข‹์€ ์•„ํ‚คํ…์ฒ˜์™€ ํ•™์Šต ๊ธฐ๋ฒ•, ์ข‹์€ ๋ฐ์ดํ„ฐ, ์ข‹์€ ์ธํ”„๋ผ์ผ ๊ฒƒ์ด๋‹ค. ์ข‹์€ ์•„ํ‚คํ…์ฒ˜๋Š” ๋ฌด์—‡์ผ๊นŒ? ์ผ๋‹จ ์ถ”๋ก ์€ ๋…ผ์™ธ๋กœ ํ•˜๋ฉด ๊ฐ™์€ ์—ฐ์‚ฐ๋Ÿ‰์—์„œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์— ๋„๋‹ฌํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด ๋ฌธ์ œ์—์„œ ํŠธ๋žœ์Šคํฌ๋จธ์—์„œ ๊ฐ€์žฅ ๊ฐ€๋Šฅ์„ฑ ์žˆ๋Š” ๋ฐฉํ–ฅ ์ค‘ ํ•˜๋‚˜๊ฐ€ MoE์ด๋‹ค. ๊ทธ๋ž˜์„œ MoE ์—ฐ๊ตฌ๋ฅผ ํ–ˆ๊ณ  (https://arxiv.org/abs/2401.06066) MoE์˜ ์ด์Šˆ ์ค‘ ํ•˜๋‚˜์ธ ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ ๋ฌธ์ œ์— ๋Œ€ํ•œ ๊ฐœ์„ ์„ ํ–ˆ๋‹ค. (https://arxiv.org/abs/2408.15664) DeepSeekMoE์˜ Fine grained Expert์€ ์ด์ œ ํ‘œ์ค€์ ์ด๋‹ค. ์ถ”๋ก ์—์„œ ๊ฐ€์žฅ ํฐ ๋ฌธ์ œ๋Š” ๋ฌด์—‡์ผ๊นŒ? Key/Value ์บ์‹œ์˜ ํฌ๊ธฐ์ผ ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ MLA๋ฅผ ๊ฐœ๋ฐœํ–ˆ๋‹ค. (https://arxiv.org/abs/2405.04434) ์ด๋Ÿฐ ํ˜•ํƒœ์˜ ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์„ ์„ ์‚ฌ์šฉํ•˜๋ฉด ์ผ๋ฐ˜์ ์ธ Llama์™€๋Š” ํ˜ธํ™˜๋˜์ง€ ์•Š๊ฒŒ ๋œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Llama ์•„ํ‚คํ…์ฒ˜์™€์˜ ํ˜ธํ™˜์„ฑ์„ ํ†ตํ•ด์„œ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์„ (์ถ”๋ก  ์—”์ง„์šฉ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜๋Š” ๋“ฑ) ์ง์ ‘ ํ•œ๋‹ค๋ฉด ์•„ํ‚คํ…์ฒ˜์˜ ๊ฐœ์„ ์œผ๋กœ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ์ด์ต์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. ์ด๋ฅผ ๋’ค์ง‘์œผ๋ฉด ์ฝ”๋“œ ์ž‘์„ฑ์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด์„œ ํ˜ธํ™˜์„ฑ์„ ์ถ”๊ตฌํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์•„ํ‚คํ…์ฒ˜์˜ ์—ด์œ„๋ฅผ ์„ ํƒํ•˜๊ณ  ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ํ•™์Šต ๊ธฐ๋ฒ•์— ๋Œ€ํ•ด์„œ๋Š” GRPO ๊ฐ™์€ ์ •๋ ฌ๊ณผ ํƒ์ƒ‰ ๋ฐฉ๋ฒ•๋“ค. (https://arxiv.org/abs/2402.03300, https://arxiv.org/abs/2312.08935, https://arxiv.org/html/2408.08152), ๊ทธ๋ฆฌ๊ณ  DeepSeek-V3์—์„œ์˜ Multi Token Prediction ๊ฐ™์€ ๋ฐฉ๋ฒ•. ๊ทธ๋ฆฌ๊ณ  ์š”์ฆ˜ ๋˜ํ•œ ์ธ๊ธฐ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ธ Scaling Law๋ฅผ ํ†ตํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ถ”์ •๋„ DeepSeek LLM์—์„œ ๋“ฑ์žฅํ–ˆ๋‹ค. ์ข‹์€ ๋ฐ์ดํ„ฐ๋Š”? DeepSeek LLM์—์„œ๋ถ€ํ„ฐ Common Crawl์„ ์ง์ ‘ ์ฒ˜๋ฆฌํ–ˆ๊ณ  (https://arxiv.org/abs/2401.02954) DeepSeek-Coder์—์„œ๋Š” ์ฝ”๋“œ ๋ฐ์ดํ„ฐ๋ฅผ ์ง์ ‘ ์ฒ˜๋ฆฌํ•˜๊ณ  Dependency ๊ธฐ๋ฐ˜ ์ •๋ ฌ์„ ๋„์ž…ํ–ˆ์œผ๋ฉฐ (https://arxiv.org/abs/2401.14196) DeepSeekMath์—์„œ๋Š” ์ด์ œ ๊ฑฐ์˜ ํ‘œ์ค€์ ์ธ ๋ฐฉ๋ฒ•์ธ Common Crawl์—์„œ ์ˆ˜ํ•™ ๊ด€๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€ ์ˆ˜์ง‘ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๊ฐœ๋ฐœํ–ˆ๋‹ค. (https://arxiv.org/abs/2402.03300) ๊ทธ๋ฆฌ๊ณ  DeepSeek-V2๋ฅผ ๊ฑฐ์น˜๋ฉด์„œ ๋ฐ์ดํ„ฐ์˜ ๊ทœ๋ชจ๋„ ๊ณ„์† ์ฆ๊ฐ€ํ–ˆ๋‹ค. ํ•™์Šต ์ธํ”„๋ผ์— ๋Œ€ํ•ด์„œ๋Š”? DeepSeek-V2์—์„œ Zero-Bubble Pipeline Parallel์„ ์ด๋ฏธ ๋„์ž…ํ–ˆ๊ณ  (https://arxiv.org/abs/2401.10241) DeepSeek-V3์—์„œ๋Š” Pipeline Parallel ์Šค์ผ€์ค„, MoE๋ฅผ ์œ„ํ•œ All-to-All ํ†ต์‹ ์˜ ์ตœ์ ํ™”, FP8 ํ•™์Šต์„ ์œ„ํ•œ Quantization ๋ฐฉ๋ฒ•์˜ ๊ฐœ์„  ๋“ฑ์ด ํฌํ•จ๋˜์—ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด๋Ÿฐ ๊ณผ์ •๋“ค์„ ๊ฑฐ์ณ DeepSeek-V3๊ฐ€ ๋“ฑ์žฅํ–ˆ๋‹ค. ์‚ฌ์‹ค DeepSeek LLM์€ ํ…Œํฌ๋‹ˆ์ปฌ ๋ฆฌํฌํŠธ์˜ ํ€„๋ฆฌํ‹ฐ์™€๋Š” ๋ณ„๊ฐœ๋กœ ๊ทธ ์‹œ์ ์—์„œ Mistral 7B ๊ฐ™์€ ๋ชจ๋ธ์— ๋น„ํ•ด ๊ทธ๋ ‡๊ฒŒ ๊ณ ์„ฑ๋Šฅ์ธ ๋ชจ๋ธ์€ ์•„๋‹ˆ์—ˆ๋‹ค. Llama 1 ์ •๋„์˜ ๋ชจ๋ธ์ด์—ˆ๊ธฐ ๋•Œ๋ฌธ์—. ๊น€์„ฑํ˜„๋‹˜

Deepseek has over 50k Hopper GPUs to be clear. Dylan Patel https://x.com/dylan522p/status/1859302712803807696 50k H100 GPU: ํ‰๊ท  2000~4000๋งŒ์› ๊ธฐ์ค€ 1~2์กฐ

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf ๋‹จ์ง€ RL(๊ฐ•ํ™”ํ•™์Šต)๋งŒ์œผ๋กœ Instruct Model์„ Reasoning Model๋กœ ๋ณ€ํ™” ๊ธฐ์กด DeepSeek-V3 Base๋ฅผ ๋Œ€์ƒ์œผ๋กœ ์„ ํ–‰ SFT ์—†์ด RL๋งŒ์„ ์ ์šฉํ•˜์—ฌ, โ€œDeepSeek-R1-Zeroโ€๋ผ๋Š” ์ˆœ์ˆ˜ํ•œ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ๋งŒ๋“ค์—ˆ๋‹ค. โ€œ์ด ๋ชจ๋ธ์ด ๊ณผ์—ฐ, ์ธ๊ฐ„์ด ์ฃผ์ž…ํ•ด์ค€ ์ •๊ตํ•œ ์ง€๋„ ๋ฐ์ดํ„ฐ ์—†์ด๋„ ๊นŠ์ด ์žˆ๋Š” Reasoning์„ ์Šต๋“ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?โ€๋ผ๋Š” ์˜๋ฌธ์—์„œ ์ถœ๋ฐœํ–ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ R1-Zero๋Š” ๋†€๋ž„ ๋งŒํผ ๊ฐ•๋ ฅํ•œ Reasoning ๋Šฅ๋ ฅ์„ ๋ฐœํœ˜ํ•˜๊ธฐ ์‹œ์ž‘ํ–ˆ๋‹ค. ์›๋ž˜๋Š” โ€œ์‚ฌ๋žŒ์ด ๋จผ์ € CoT ์˜ˆ์‹œ๋ฅผ ๋Œ€๊ทœ๋ชจ๋กœ ๋ถ™์—ฌ ๋ชจ๋ธ์„ ๊ต์ •(SFT)ํ•ด์•ผ ํ•œ๋‹คโ€๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ ์ด์—ˆ๋‹ค. ํ•˜์ง€๋งŒ DeepSeek-R1-Zero๋Š” โ€œSFT ์—†๋Š” ๋Œ€๊ทœ๋ชจ RLโ€๋งŒ์œผ๋กœ๋„ ๊ธด ์‚ฌ๊ณ  ๊ณผ์ •์„ ์‚ฌ์šฉํ•ด ๋ฌธ์ œ๋ฅผ ํ’€๊ณ  ๊ฐœ์„ ํ•ด๋‚˜๊ฐ”๋‹ค. โ€œAha Momentโ€๋ผ ๋ถˆ๋ฆด ์ •๋„๋กœ ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ๋” ๊นŠ์€ ๊ณ ์ฐฐ์„ ํ•˜๊ฒŒ ๋œ ๊ฒƒ์ด๋‹ค. ์ด R1-Zero๋กœ๋ถ€ํ„ฐ ์ƒ์„ฑ๋œ Reasoning ๋ฐ์ดํ„ฐ์…‹์„ ์ธ๊ฐ„์ด ์•ฝ๊ฐ„ ๋ณด์ •ํ•˜๊ณ , SFT+RL ๊ณผ์ •์„ ์ถ”๊ฐ€ R1-Zero๊ฐ€ ๋งŒ๋“ค์–ด๋‚ธ ๊ธด Chain-of-Thought(CoT)๋“ค ์ค‘ ์œ ์šฉํ•œ ๊ฒƒ๋งŒ ๊ณจ๋ผ์„œ โ€œCold Startโ€๋กœ ๋ถˆ๋ฆฌ๋Š” ์†Œ๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹์„ ๋งˆ๋ จํ–ˆ๋‹ค. ์ด๋ฅผ ์‹œ์ž‘์ ์œผ๋กœ ๋‹ค์‹œ ํ•œ ๋ฒˆ RL๊ณผ SFT ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์น˜์ž, ์ „๋ฐ˜์ ์œผ๋กœ ํ›จ์”ฌ ๋” ์ธ๊ฐ„ ์นœํ™”์ ์ด๊ณ  ๊ฐ€๋…์„ฑ๋„ ๋›ฐ์–ด๋‚œ ๋ชจ๋ธ์ธ โ€œDeepSeek-R1โ€์ด ํƒ„์ƒํ–ˆ๋‹ค. ์ฆ‰, ๋‹จ์ˆœ ๊ฐ•ํ™”ํ•™์Šต๋งŒ์œผ๋กœ๋Š” ์ž์—ฐ์–ธ์–ด ์‚ฌ์šฉ(๊ฐ€๋…์„ฑ, ํ˜ผ์šฉ์–ด ๋ฌธ์ œ ๋“ฑ)์— ์–ด๋ ค์›€์ด ์žˆ์—ˆ์œผ๋‚˜, ์†Œ๋Ÿ‰์˜ ์ •์ œ๋œ CoT ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์ „ ์ฃผ์ž…ํ•จ์œผ๋กœ์จ ์•ˆ์ •์„ฑ๊ณผ ํ’ˆ์งˆ์„ ๊ทน์ ์œผ๋กœ ๋Œ์–ด์˜ฌ๋ ธ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ ๋งŒ๋“ค์–ด์ง„ 80๋งŒ(800k) ๊ฑด์˜ Reasoning ๋ฐ์ดํ„ฐ๋กœ, ์ž‘์€ ๋ชจ๋ธ๋„ RL ์—†์ด SFT๋งŒ์œผ๋กœ ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ ์ด๋ ‡๊ฒŒ ๊ตฌ์ถ•ํ•œ 800k ๊ทœ๋ชจ์˜ ๊ณ ํ’ˆ์งˆ Reasoning ๋ฐ์ดํ„ฐ์…‹์€ ํ›จ์”ฌ ์ž‘์€ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ(Qwen, Llama ๋“ฑ)์—๋„ ๋‹จ์ˆœํžˆ SFT๋กœ๋งŒ ์ ์šฉํ•ด๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ๋ฐ˜๋ฉด, ์ž‘์€ ๋ชจ๋ธ์—์„œ๋Š” ๋™์ผํ•œ RL ๊ณผ์ •์„ ์•„๋ฌด๋ฆฌ ์˜ค๋ž˜ ํ•ด๋„ ์„ฑ๋Šฅ ์ด๋“์ด ๋งค์šฐ ๋ฏธ๋ฏธํ–ˆ๋‹ค. ๊ฒฐ๋ก ์€, โ€œ์‹œ์ž‘์ (๋ฒ ์ด์Šค ๋ชจ๋ธ)์˜ ํ’ˆ์งˆ์ด ์ถฉ๋ถ„ํžˆ ์ข‹์•„์•ผ RL์„ ํ•ด๋„ ๋น›์„ ๋ฐœํ•œ๋‹คโ€๋Š” ๊ฒƒ์ด๋‹ค. ๋ฒ ์ด์Šค ๋ชจ๋ธ์ด ์ž‘์„์ˆ˜๋ก, ๋Œ€๊ทœ๋ชจ RL ์ž์ฒด๊ฐ€ ์‹ค์ต์ด ํฌ์ง€ ์•Š์Œ์„ ํ™•์ธํ–ˆ๋‹ค. ๋ณด์ƒ์˜ ๋ช…ํ™•์„ฑ์ด ๊ณง ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ ์ขŒ์šฐํ•œ๋‹ค DeepSeek-R1 ์—ฐ๊ตฌ์ง„์€ ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ์„ ๋ถˆํ•„์š”ํ•˜๊ฒŒ ๋ณต์žกํ•˜๊ฒŒ ๋งŒ๋“ค์ง€ ์•Š์•˜๋‹ค. ์ฆ‰, โ€œ์˜ค๋‹ต/์ •๋‹ต, ํฌ๋งท ์ค€์ˆ˜ ์—ฌ๋ถ€โ€ ๋“ฑ ๋ช…ํ™•ํžˆ ํŒ๋‹จ ๊ฐ€๋Šฅํ•œ ์ง€ํ‘œ๋งŒ์œผ๋กœ ๋ณด์ƒ์„ ์„ค๊ณ„ํ–ˆ๋‹ค. ๋ณต์žกํ•œ PPO or PRM(Process Reward Model)๋ณด๋‹ค๋Š”, โ€œ๋”ฑ ๋งž๋ƒ ์•„๋‹ˆ๋ƒโ€๋กœ ๊ฒฐ์ •๋˜๋Š” ์ง์ ‘ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋‹ต์•ˆ ์œ„์ฃผ๋กœ RL์„ ์‹ค์‹œํ–ˆ๋‹ค. ์ด๋Š” ์žฅํ™ฉํ•œ ๋ณด์ƒ ์„ค๊ณ„(MCTS+Value Model, ์„ธ๋ฐ€ํ•œ ์ค‘๊ฐ„ ๋‹จ๊ณ„ ์ฑ„์  ๋“ฑ)๋ณด๋‹ค ๋” ํšจ๊ณผ์ ์ด์—ˆ๊ณ , โ€œ์ด ๋ฌธ์ œ๋ฅผ ๋งžํ˜”๋Š”๊ฐ€? / ์ง€์ •๋œ ํ˜•์‹์„ ์ง€์ผฐ๋Š”๊ฐ€?โ€๋ผ๋Š” ๋ช…ํ™•ํ•œ ๋ณด์ƒ๋งŒ์œผ๋กœ๋„ ์Šค์Šค๋กœ Reasoning ๋Šฅ๋ ฅ์„ ๋ฐœ์ „์‹œ์ผฐ๋‹ค. Stage 1: (R1-Zero) Base ๋ชจ๋ธ + RL (SFT ์—†์ด) DeepSeek-V3 Base๋ฅผ ๋ฐ”๋กœ RL ํ›ˆ๋ จ์— ํˆฌ์ž… โ†’ ์ •๋‹ต ์—ฌ๋ถ€, ํ˜•์‹ ์ค€์ˆ˜ ์—ฌ๋ถ€๋กœ๋งŒ ํ‰๊ฐ€(์ •ํ™•๋„๊ฐ€ ๊ณง ๋ณด์ƒ). ๋Œ€๊ทœ๋ชจ ์Šคํ…์„ ๊ฑฐ์น˜๋ฉฐ Reasoning ๋Šฅ๋ ฅ์ด ์Šค์Šค๋กœ ์ƒ๊ฒจ๋‚จ(๊ทธ ์™ธ ์–ธ์–ด ํ’ˆ์งˆ ๋ฌธ์ œ๋Š” ๊ณ ๋ ค X). Stage 2: Cold Start ๋ฐ์ดํ„ฐ ์ƒ์„ฑ + SFT ํ›„ RL (R1) R1-Zero๋กœ๋ถ€ํ„ฐ ์ƒ์„ฑ๋œ ๊ธด CoT ์ค‘ โ€œ์ฝ๊ธฐ ์‰ฌ์šด ํ˜•์‹โ€์˜ ์˜ˆ์‹œ๋งŒ ์ˆ˜์ฒœ ๊ฑด ๋ชจ์•„์„œ, ์ธ๊ฐ„์ด ์กฐ๊ธˆ ๋‹ค๋“ฌ์–ด Cold Start ์šฉ SFT ์‹œํ–‰. ์ด ์ดˆ๊ธฐ ๋ชจ๋ธ๋กœ ๋‹ค์‹œ Reasoning ์ „์šฉ RL ์ˆ˜ํ–‰ โ†’ ์–ธ์–ด ํ’ˆ์งˆ ๋ฌธ์ œ(ํ˜ผ์šฉ์–ดยท๊ฐ€๋…์„ฑ) ์ผ๋ถ€ ํ•ด๊ฒฐ & ์„ฑ๋Šฅ ํ–ฅ์ƒ. ํ•„์š”ํ•˜๋‹ค๋ฉด, RL ๋งˆ์ง€๋ง‰ ๋‹จ๊ณ„์—์„œ Rejection Sampling์œผ๋กœ ์ •ํ™•ํ•œ ์‘๋‹ต๋งŒ ๊ณจ๋ผ ์ƒˆ๋กœ SFT ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“  ๋’ค, ์ „ ๋ฒ”์œ„ RL์„ ์žฌ์‹คํ–‰ ํ•œ๋‹ค. Stage 3: Rejection Sampling์œผ๋กœ ์–ป์€ ๋ฐ์ดํ„ฐ + ์ถ”๊ฐ€ ๋„๋ฉ”์ธ(SFT) ์ด์ „ RL ๊ฒฐ๊ณผ๋ฌผ์„ ๋ฐ”ํƒ•์œผ๋กœ ์•ฝ 60๋งŒ ๊ฑด์˜ Reasoning ๋ฐ์ดํ„ฐ + 20๋งŒ ๊ฑด์˜ ์ผ๋ฐ˜๋ฌธ์„œ(์ž‘๋ฌธ, QA, ์ž๊ธฐ์†Œ๊ฐœ ๋“ฑ)๋ฅผ ๋ชจ์•„์„œ, ์ตœ์ข… SFT ์ˆ˜ํ–‰. ์ด๋กœ์จ โ€œReasoningโ€๊ณผ โ€œ์ผ๋ฐ˜ ์งˆ์˜์‘๋‹ต, ์ž‘์„ฑ๋Šฅ๋ ฅโ€์„ ๋ชจ๋‘ ์–ด๋А ์ •๋„ ์ปค๋ฒ„ํ•˜๋Š” ๋ชจ๋ธ ์™„์„ฑ. Stage 4: Distillation (์ž‘์€ ๋ชจ๋ธ๋กœ ์ „์ด) ์œ„ ๊ณผ์ •์—์„œ ํƒ„์ƒํ•œ R1์˜ Reasoning ๋…ธํ•˜์šฐ๊ฐ€ ๋‹ด๊ธด 80๋งŒ ์ƒ˜ํ”Œ์„, Qwen-32B, Llama-70B ๋“ฑ์˜ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์— โ€œ๋‹จ์ˆœ Fine-Tuningโ€๋งŒ ์ ์šฉํ•ด๋„ ๋†€๋ผ์šด ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ํ™•์ธ๋จ. RL ์—†์ด๋„ ์†Œํ˜• ๋ชจ๋ธ๋“ค์ด Reasoning์„ ์ƒ๋‹นํžˆ ์Šต๋“ํ•จ. ๋ฐ˜๋ฉด, ์ด ์†Œํ˜• ๋ชจ๋ธ๋“ค์— ์ง์ ‘ RL์„ ์ ์šฉํ•˜๋ฉด ๋†’์€ ๊ณ„์‚ฐ ๋น„์šฉ ๋Œ€๋น„ ํšจ์œจ์ด ๋–จ์–ด์ง(์‹คํ—˜์ƒ ์„ฑ๋Šฅ ์ƒ์Šน์ด ๋ฏธ๋ฏธ). 1. ์‹œ์ž‘์ (๋ฒ ์ด์Šค ๋ชจ๋ธ)์ด ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค ํฐ ๋ชจ๋ธ์—๋‹ค RL์„ ์ ์šฉํ•ด์•ผ โ€˜์Šค์Šค๋กœ CoT๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋Š”โ€™ ๋น„์•ฝ์  ๋ฐœ์ „์ด ๋‚˜ํƒ€๋‚œ๋‹ค. ์ž‘์€ ๋ชจ๋ธ๋กœ๋Š” ๊ฐ™์€ RL ํˆฌ์ž๋ฅผ ํ•ด๋„ ํšจ๊ณผ๊ฐ€ ํ›จ์”ฌ ๋–จ์–ด์ง„๋‹ค. ๋ณด์ƒ์„ ๊ฐ„๋‹จํ•˜๊ฒŒ, ๋ช…ํ™•ํ•˜๊ฒŒ ์„ค์ •ํ•˜๋ผ โ€œ๋‹ต์ด ๋งž๋Š”๊ฐ€, ํ˜•์‹์ด ๋งž๋Š”๊ฐ€?โ€ ์ •๋„๋กœ๋„ ์ถฉ๋ถ„ํžˆ ์ง€๋„ํ•™์Šต(ํ˜น์€ RL) ํšจ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ๋‹ค. ๋ณต์žกํ•œ ์ค‘๊ฐ„ ๋‹จ๊ณ„ ๋ณด์ƒ(์˜ˆ: PRM, MCTS+Value Model)์€ ๋งŽ์€ ๋ฆฌ์†Œ์Šค์™€ ๋ฆฌ์Šคํฌ(Reward Hacking)๋ฅผ ์œ ๋ฐœํ•˜์ง€๋งŒ ์ตœ์ข…์  ์‹ค์ต์ด ํฌ์ง€ ์•Š์•˜๋‹ค. ๋‹จ์ˆœ CoT ์ƒ์„ฑ ๋Šฅ๋ ฅ์ด ๋ชฐ๊ณ  ์˜จ โ€˜์ž๋ฐœ์  ์ž๊ธฐ์ •์ •(Reflection), Aha Momentโ€™ ์Šค์Šค๋กœ ์ƒ๊ฐ์„ ์žฌํ‰๊ฐ€ํ•˜๊ณ (Reflection), ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์œผ๋กœ ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์‹œ๋„ํ•˜๋ฉฐ(Aha Moment) Reasoning ๋Šฅ๋ ฅ์„ ๊ธ‰๊ฒฉํžˆ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ํ˜„์ƒ์ด RL ์ค‘๊ฐ„์—์„œ ํฌ์ฐฉ๋˜์—ˆ๋‹ค. Future Works Language Mixing ํ•ด๊ฒฐ: ํ˜„์žฌ๋Š” ์˜์–ดยท์ค‘๊ตญ์–ด์— ์ตœ์ ํ™”. ํ”„๋กœ์ ํŠธ ๊ทœ๋ชจ ํ™•์žฅ: ๋” ๋ฐฉ๋Œ€ํ•œ ๋ฌธ์ œ ๋„๋ฉ”์ธ(์˜ˆ: SW ์—”์ง€๋‹ˆ์–ด๋ง, ๊ตฌ์กฐ์  ์ถœ๋ ฅ, ๋Œ€ํ™”ํ˜• ์‹œ์Šคํ…œ ๋“ฑ)์„ ์ปค๋ฒ„ํ•˜๊ธฐ ์œ„ํ•œ RL/๋ฐ์ดํ„ฐ์…‹ ํ™•์žฅ์ด ๊ฐ€๋Šฅ. Prompt Engineering ์—ฐ๊ตฌ: R1 ๊ณ„์—ด์€ few-shot prompt๋ณด๋‹ค zero-shot prompt์— ์ตœ์ ํ™”๋˜๋Š” ๊ฒฝํ–ฅ. ์ถ”ํ›„ ์ด์— ๋งž์ถฐ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„๋ฅผ ์žฌ๊ฒ€ํ† ํ•  ํ•„์š”๊ฐ€ ์žˆ๋‹ค.

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf 1.1 ์ฃผ์š” ๊ธฐ์—ฌ (Contributions) ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์ถ”๋ก  ์„ฑ๋Šฅ ํ–ฅ์ƒ ์ง€๋„ ๋ฐ์ดํ„ฐ ์—†์ด ์ˆœ์ˆ˜ ๊ฐ•ํ™”ํ•™์Šต๋งŒ์œผ๋กœ LLM ์ถ”๋ก  ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒํ•˜๋Š” ๋ฐฉ์‹ ์ œ์•ˆ(DeepSeek-R1-Zero). ์ด๋กœ์จ SFT ์—†์ด๋„ ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ๋ฐ˜์‚ฌ(reflection)ยท์ž์ฒด ๊ฒ€์ฆ(self-verification) ๋“ฑ ๊ณ ๊ธ‰ ์ถ”๋ก  ํŒจํ„ด์„ ํ•™์Šต ๊ฐ€๋Šฅํ•จ์„ ์‹ค์ฆ. AIME 2024 ๋ฒค์น˜๋งˆํฌ์—์„œ pass@1 ๊ธฐ์ค€ 15.6% โ†’ 71.0%๋กœ ์ƒ์Šน, ํ•ฉ์˜ํˆฌํ‘œ ์‹œ 86.7%๋กœ OpenAI-o1-0912์— ๊ทผ์ ‘. DeepSeek-R1 ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ ์ œ์‹œ ์†Œ๋Ÿ‰ โ€œcold-startโ€ ๋ฐ์ดํ„ฐ๋ฅผ ์šฐ์„  ํŒŒ์ธํŠœ๋‹ โ†’ ๋Œ€๊ทœ๋ชจ RL โ†’ Rejection Sampling + ์ง€๋„ํ•™์Šต(SFT) โ†’ ๋‹ค์‹œ RL. ์ด๋Ÿฐ ๋‹ค๋‹จ๊ณ„ ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ OpenAI-o1-1217๊ธ‰ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ ์ตœ์ข… ๋ชจ๋ธ(DeepSeek-R1) ์™„์„ฑ. ์ง€์‹ ์ฆ๋ฅ˜(Distillation)๋กœ ์†Œํ˜• ๋ชจ๋ธ ์ถ”๋ก ๋ ฅ ๊ฐ•ํ™” DeepSeek-R1์ด ์ƒ์„ฑํ•œ 80๋งŒ ๊ฑด ์ถ”๋ก  ๋ฐ์ดํ„ฐ๋ฅผ QwenยทLlama ๋ชจ๋ธ(1.5B~70B)์— ์ ์šฉ ์‹œ, ์ง์ ‘ RL๋ณด๋‹ค ๋†’์€ ์ถ”๋ก  ์„ฑ๋Šฅ ์‹คํ˜„. ์˜ˆ) DeepSeek-R1-Distill-Qwen-14B๋Š” QwQ-32B-Preview๋ณด๋‹ค ์šฐ์ˆ˜, ์ผ๋ถ€ ์ง€ํ‘œ๋Š” o1-mini์™€ ๋™๊ธ‰. 1.2 ํ‰๊ฐ€ ๊ฒฐ๊ณผ ์š”์•ฝ (Summary of Evaluation Results) ์ˆ˜ํ•™ยท๋…ผ๋ฆฌยท์ฝ”๋”ฉ DeepSeek-R1: AIME 2024์—์„œ pass@1 ๊ธฐ์ค€ 79.8%, MATH-500์—์„œ 97.3% ๋“ฑ ์ตœ์ƒ์œ„. Codeforces ๋ ˆ์ดํŒ… 2029(์ƒ์œ„ 96.3%). ์†Œํ˜• ๋ชจ๋ธ ์ฆ๋ฅ˜ํŒ ์—ญ์‹œ AIMEยทMATH ๋“ฑ์—์„œ GPT-4oยทClaude-3.5-Sonnet ์ƒํšŒํ•˜๋Š” ์„ฑ๋Šฅ. ์ง€์‹ยทQA MMLU ๋“ฑ ๊ต์œกยท์ƒ์‹ ๋ถ„์•ผ์—์„œ DeepSeek-R1์ด 90% ์ „ํ›„ ์ ์ˆ˜(์˜คํ”ˆAI o1-1217๊ณผ ๊ทผ์ ‘). GPQA Diamond(๊ณ ๊ธ‰ QA)์—์„œ๋„ 71.5%๋กœ ์šฐ์ˆ˜. ์ „๋ฐ˜์  ์งˆ์  ํ‰๊ฐ€ ์—์„ธ์ดยท๋กคํ”Œ๋ ˆ์ดยท์š”์•ฝ ๋“ฑ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ๋ฅผ GPT-4 ์‹ฌ์‚ฌ๋กœ ํ‰๊ฐ€(AlpacaEval2.0, Arena-Hard) โ†’ DeepSeek-R1์ด DeepSeek-V3 ๋Œ€๋น„ ์ „๋ฐฉ์œ„๋กœ ์šฐ์ˆ˜. ๋‹ค๋งŒ Python API ์—ฐ๋™ ๋“ฑ ์‹ค์งˆ์  ์—”์ง€๋‹ˆ์–ด๋ง ํƒœ์Šคํฌ๋Š” ์ฐจ๊ธฐ ๋ฒ„์ „์—์„œ ๊ฐœ์„  ์˜ˆ์ •. 2. ์ ‘๊ทผ ๋ฐฉ๋ฒ• (Approach) 2.1 ์ „์ฒด ๊ฐœ์š” SFT ์—†์ด ๊ณง๋ฐ”๋กœ RLํ•œ ๋ชจ๋ธ(DeepSeek-R1-Zero)๊ณผ, ์†Œ๋Ÿ‰ Cold-start ํ›„ RL ์ง„ํ–‰(DeepSeek-R1) ๋‘ ๊ฒฝ๋กœ. ์ตœ์ข…์ ์œผ๋กœ ์ง€์‹ ์ฆ๋ฅ˜(Distillation)๋กœ ์†Œํ˜• ๋ชจ๋ธ(QwenยทLlama ์‹œ๋ฆฌ์ฆˆ)๋„ ๊ณ ์„ฑ๋Šฅ ์ถ”๋ก  ๊ฐ€๋Šฅํ•˜๊ฒŒ. 2.2 DeepSeek-R1-Zero: ์ง€๋„ํ•™์Šต ์—†์ด ๋ฒ ์ด์Šค ๋ชจ๋ธ์— ์ง์ ‘ RL GRPO(Group Relative Policy Optimization) ์•Œ๊ณ ๋ฆฌ์ฆ˜ Critic(๊ฐ€์น˜๋ง) ์—†์ด๋„ ๊ทธ๋ฃน ๋‚ด ์ƒ๋Œ€ ์ ์ˆ˜๋กœ ํ•™์Šต โ†’ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์— ์ ํ•ฉ. ๋ณด์ƒ ์„ค๊ณ„ ์ •ํ™•๋„ ๋ณด์ƒ(์ˆ˜ํ•™ยท์ฝ”๋”ฉ ํ…Œ์ŠคํŠธ ํ†ต๊ณผ) + ์ถœ๋ ฅ ํ˜•์‹ ๋ณด์ƒ(<think>์™€ <answer>๋กœ ๋ถ„๋ฆฌ). ํ•™์Šต ๊ฒฐ๊ณผ AIME 2024: 15.6% โ†’ 71.0%(ํˆฌํ‘œ ์‹œ 86.7%). RL ๊ณผ์ •์—์„œ ์ถ”๋ก  ๊ธธ์ด ํ™•์žฅยทReflectionยท์ž์ฒด ๊ต์ •์ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ƒ๊น€. ๋‹จ, ์–ธ์–ด ํ˜ผํ•ฉยท๊ฐ€๋…์„ฑ ๋ฌธ์ œ ์กด์žฌ. 2.3 DeepSeek-R1: Cold Start + ๋‹ค๋‹จ๊ณ„ RL Cold Start๋กœ ์ˆ˜์ฒœ ๊ฑด SFT โ†’ 2) ์ถ”๋ก  ์ค‘์‹ฌ RL(์ˆ˜ํ•™ยท์ฝ”๋”ฉ ์œ„์ฃผ) โ†’ 3) Rejection Sampling + ๋‹ค์‹œ SFT โ†’ 4) ๋ชจ๋“  ์‹œ๋‚˜๋ฆฌ์˜ค RL. ์ตœ์ข… ์ฒดํฌํฌ์ธํŠธ๊ฐ€ DeepSeek-R1 (๋Œ€ํ™” ๊ฐ€๋…์„ฑ ๋ฐ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ ์„ฑ๋Šฅ ๋ณด๊ฐ•). 2.4 Distillation DeepSeek-R1์ด ๋งŒ๋“  80๋งŒ ๊ฑด ๋ฐ์ดํ„ฐ๋กœ Qwen/Llama ์‹œ๋ฆฌ์ฆˆ ์†Œํ˜• ๋ชจ๋ธ์„ SFT โ†’ ๋Œ€๊ทœ๋ชจ RL ๋Œ€์‹  โ€˜์šฐ์ˆ˜ํ•œ ์ถ”๋ก  ๋ฐ์ดํ„ฐ ์ฆ๋ฅ˜โ€™๋กœ ์„ฑ๋Šฅ ํ–ฅ์ƒ. 3. ์‹คํ—˜ (Experiment) 3.1 DeepSeek-R1 ์„ฑ๋Šฅ ์˜์–ด ์ง€์‹ยท์ฝ”๋“œยท์ˆ˜ํ•™ ๋“ฑ์—์„œ DeepSeek-V3 ๋Œ€๋น„ ํฐ ํญ ํ–ฅ์ƒ. Codeforces: ์ƒ์œ„ 96.3%, AIME 79.8%, MATH 97.3% ๋“ฑ. 3.2 ์†Œํ˜• ๋ชจ๋ธ ์ฆ๋ฅ˜ํŒ Qwen-7Bยท14Bยท32B, Llama 8Bยท70B์— DeepSeek-R1 ๋ฐ์ดํ„ฐ๋ฅผ ํˆฌ์ž… ์‹œ ์ˆ˜ํ•™ยท์ฝ”๋”ฉ ์„ฑ๋Šฅ ๊ธ‰์ƒ์Šน. RL์„ ์ง์ ‘ ๋Œ๋ฆฐ ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ํšจ์œจ์ . 4.1 Distillation vs RL ์†Œํ˜• ๋ชจ๋ธ์— ๋Œ€๊ทœ๋ชจ RL์€ ์ˆ˜๋ ด ์–ด๋ ต๊ณ  ๋น„ํšจ์œจ์ . Distillation์ด ๊ฒฝ์ œ์ ์ด๊ณ  ์„ฑ๋Šฅ๋„ ๋›ฐ์–ด๋‚จ. 4.2 ์‹คํŒจ ์‚ฌ๋ก€ PRM(Process Reward Model): ์ค‘๊ฐ„๋‹จ๊ณ„ ๋ณด์ƒ ์„ค์ •์ด ๋ณต์žกํ•˜๊ณ  reward hacking ์œ„ํ—˜. MCTS(Monte Carlo Tree Search): ํ…์ŠคํŠธ ์ƒ์„ฑ์€ ๊ฒ€์ƒ‰ ๊ณต๊ฐ„์ด ๋ฐฉ๋Œ€ํ•ด ํšจ๊ณผ ์ œํ•œ์ . 5. ๊ฒฐ๋ก  ๋ฐ ํ–ฅํ›„ ๊ณผ์ œ (Conclusion & Future Work) ๊ฒฐ๋ก  ์ˆœ์ˆ˜ RL๋กœ ์ƒ์„ฑ๋œ DeepSeek-R1-Zero, ๊ทธ๋ฆฌ๊ณ  Cold-start + ๋‹ค๋‹จ๊ณ„ RLยทSFT๋กœ OpenAI-o1-1217๊ธ‰ ์„ฑ๋Šฅ ๋‹ฌ์„ฑํ•œ DeepSeek-R1 ์†Œ๊ฐœ. ์ด๋ฅผ ํ™œ์šฉํ•ด ์†Œํ˜• ๋ชจ๋ธ์— ์ฆ๋ฅ˜ํ•ด๋„ ํฐ ์‹œ๋„ˆ์ง€ ํšจ๊ณผ. ํ•œ๊ณ„ ํ•จ์ˆ˜ ํ˜ธ์ถœยทJSON ์ถœ๋ ฅยท๋‹ค์ค‘ ํ„ด ๋Œ€ํ™” ๋“ฑ ๊ธฐ๋Šฅ ๋ถ€์กฑ, ์–ธ์–ด ํ˜ผํ•ฉ ๋ฌธ์ œ, Few-shot ํ”„๋กฌํ”„ํŠธ์— ์ทจ์•ฝ, ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง ํƒœ์Šคํฌ์— ์•„์ง ์ œํ•œ์ . ํ–ฅํ›„ ๊ณ„ํš ๋ฒ”์šฉ ๊ธฐ๋Šฅ(ํ•จ์ˆ˜ยท๋ฉ€ํ‹ฐํ„ด) ๊ฐ•ํ™”, ๋‹ค๊ตญ์–ด ์ง€์›, ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง ์ตœ์ ํ™”, ์—”์ง€๋‹ˆ์–ด๋ง ํƒœ์Šคํฌ RL ๋ฐ์ดํ„ฐ ๋ณด๊ฐ• ๋“ฑ.

### 4.2. Distillation vs. RL ์ง์ ‘ ์ ์šฉ - ์†Œํ˜• ๋ชจ๋ธ์— RL์„ ์ง์ ‘ ๊ฑฐ๋Š” ๊ฒฝ์šฐ๋Š” ํฐ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์ฒ˜๋Ÿผ ํšจ์œจ์ ์ด์ง€ ์•Š์œผ๋ฉฐ, ์„ฑ๋Šฅ๋„ ์ž˜ ์•ˆ ๋‚˜์˜ด. - ๋ฐ˜๋ฉด, **ํฌ๊ฒŒ ํ•™์Šต๋œ ๋ชจ๋ธ(R1)์˜ ์ถœ๋ ฅ์„ ์ฆ๋ฅ˜**ํ•˜๋ฉด ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ์–ป์„ ์ˆ˜ ์žˆ์Œ. - ์˜ˆ) Qwen-32B ๋ฒ ์ด์Šค์— RL์„ ์ง์ ‘ ์ ์šฉํ–ˆ๋”๋‹ˆ ์„ฑ๋Šฅ์ด ๊ธฐ์กด QwQ-32B-Preview ์ˆ˜์ค€์— ๊ทธ์ณค์ง€๋งŒ, R1์œผ๋กœ๋ถ€ํ„ฐ ์ฆ๋ฅ˜ํ•˜๋ฉด ๊ทธ๋ณด๋‹ค ํ›จ์”ฌ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ. --- ## 5. ํ•œ๊ณ„ ๋ฐ ์ „๋ง 1. ์ „์ฒด ๊ธฐ๋Šฅ์„ฑ - DeepSeek-R1์€ ๋Œ€ํ™”ํ˜• ํƒœ์Šคํฌยทํ•จ์ˆ˜ ํ˜ธ์ถœยท์—ญํ•  ๋†€์ด ๋“ฑ์—์„œ๋„ ์ข‹์ง€๋งŒ, DeepSeek-V3 ์ˆ˜์ค€์˜ ์ข…ํ•ฉ์  ๊ธฐ๋Šฅ์„ฑ์—๋Š” ๋ถ€์กฑํ•œ ๋ฉด์ด ์žˆ์„ ์ˆ˜ ์žˆ์Œ(์ถ”๋ก  ์ง‘์ค‘ํ˜•์ด๋ผ). 2. ์–ธ์–ด ํ˜ผ์šฉ - ์ค‘๊ตญ์–ด/์˜์–ด์— ํŽธ์ค‘๋˜์–ด, ๋‹ค๋ฅธ ์–ธ์–ด์—” ์™„๋ฒฝ ๋Œ€์‘์ด ์–ด๋ ค์›€. 3. ํ”„๋กฌํ”„ํŠธ ๋ฏผ๊ฐ์„ฑ - Few-shot ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋„ฃ์œผ๋ฉด ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๊ธฐ๋„ ํ•จ. - Zero-shot์œผ๋กœ โ€˜๋ฌธ์ œ ๋‚ด์šฉโ€™๋งŒ ์ฃผ๊ณ , ์‘๋‹ต ํ˜•์‹๋งŒ ์ œํ•œํ•ด ์ฃผ๋Š” ๋ฐฉ์‹์ด ๊ถŒ์žฅ๋จ. 4. SW ์—”์ง€๋‹ˆ์–ด๋ง ํƒœ์Šคํฌ - ๋งค์šฐ ๋ณต์žกํ•˜๊ณ  ๊ธด ์‹œ์Šคํ…œ ์ฝ”๋“œ๋ฅผ ์งœ๊ฑฐ๋‚˜ ๋””๋ฒ„๊น…ํ•˜๋Š” ๋“ฑ ์‹ค์ œ ์—”์ง€๋‹ˆ์–ด๋ง ๊ณผ์ •๊นŒ์ง€๋Š” ์•„์ง ๋ณด๊ฐ• ์—ฌ์ง€ ์žˆ์Œ. ### ์ฐจ๊ธฐ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ - ์ถ”๋ก  + ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ, ํˆด ์‚ฌ์šฉ ํ™•์žฅ - **๋‹ค๊ตญ์–ด ๋‹จ์ผ CoT**์—์„œ ์–ธ์–ด ํ˜ผ์šฉ ๋ฐฉ์ง€, ํŠน์ • ์–ธ์–ด๋งŒ ์“ธ ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋Š” ์ œ์–ด - ํšจ์œจ์ ์ธ RL: RL์€ ๋น„์šฉ์ด ํฌ๋ฏ€๋กœ, RL ๋‹จ๊ณ„์—์„œ ํ‰๊ฐ€/ํ”ผ๋“œ๋ฐฑ ํŒŒ์ดํ”„๋ผ์ธ ๊ฐœ์„  - Distillation ๊ณ ๋„ํ™”: ์ž‘์€ ๋ชจ๋ธ๋„ R1๊ณผ ์œ ์‚ฌํ•œ ๋ฐ˜์‚ฌ(Reflection) ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๋„๋ก ํ•˜๋Š” ๊ธฐ๋ฒ•.

- *๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)**์€ ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ํ…์ŠคํŠธ๋กœ๋ถ€ํ„ฐ ํŒจํ„ด์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. - ๊ธฐ์กด ์—ฐ๊ตฌ์—์„œ *์ˆ˜ํ•™, ์ฝ”๋”ฉ, ๊ณผํ•™์  ์‚ฌ๊ณ ๋ ฅ* ๋“ฑ ๋…ผ๋ฆฌ์ ยท๋‹จ๊ณ„์  ๊ณผ์ •์„ ๊ฑฐ์น˜๋Š” ๋ฌธ์ œ์—์„œ, **์ฒด๊ณ„์ ์œผ๋กœ ์ถ”๋ก (Chain-of-Thought, ์ดํ•˜ CoT)์„ ํ™œ์šฉ**ํ•˜๋ฉด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋จ์ด ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. - ์˜ˆ) OpenAI์˜ o1 ์‹œ๋ฆฌ์ฆˆ: ๋‹ต๋ณ€ ์‹œ ๋งค์šฐ ๊ธด CoT(์ƒ๊ฐ ๊ณผ์ •)๋ฅผ ํ†ตํ•ด ์ˆ˜ํ•™ยท์ฝ”๋“œ ๋ฌธ์ œ์—์„œ ๋›ฐ์–ด๋‚œ ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑ. - ํ•˜์ง€๋งŒ, ๋ชจ๋ธ์ด CoT๋ฅผ ์ถฉ๋ถ„ํžˆ ํ™œ์šฉํ•˜๋„๋ก โ€˜์–ด๋–ป๊ฒŒ ํ•™์Šต์‹œํ‚ฌ ๊ฒƒ์ธ๊ฐ€?โ€™๋Š” ์—ฌ์ „ํžˆ ํ’€๋ฆฌ์ง€ ์•Š์€ ๋„์ „ ๊ณผ์ œ. - SFT(Supervised Fine-Tuning)๋กœ ๊ธธ๊ณ  ๋ณต์žกํ•œ CoT ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•˜๋ฉด ๊ฐœ์„ ๋˜์ง€๋งŒ, ๋Œ€๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ CoT๋ฅผ ๋ชจ์œผ๊ธฐ์—๋Š” ๋น„์šฉ์ด ํผ. - ๋…ผ๋ฆฌ์  ์‚ฌ๊ณ ๋Š” ๊ตฌ์กฐ์ ์œผ๋กœ ๊ฐ•ํ™”ํ•™์Šต(RL)๊ณผ ์ž˜ ๋ถ€ํ•ฉ๋œ๋‹ค๋Š” ์•„์ด๋””์–ด๊ฐ€ ์žˆ์–ด, *์ˆœ์ˆ˜ RL*๋งŒ์œผ๋กœ๋„ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•œ์ง€, ๊ทธ๋ฆฌ๊ณ  ๊ทธ ํšจ์œจ์ด ์–ด๋– ํ•œ์ง€๊ฐ€ ์ฃผ์š” ๊ด€์‹ฌ์‚ฌ. ### 1.2. DeepSeek-R1์˜ ์—ญํ•  - **DeepSeek-R1 ์‹œ๋ฆฌ์ฆˆ**๋Š” ์ด๋Ÿฐ ์ƒํ™ฉ์—์„œ โ€œLLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ RL๋กœ ๋Œ์–ด์˜ฌ๋ฆฌ์žโ€๋Š” ๋ชฉํ‘œ๋กœ ์—ฐ๊ตฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. - ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ๋ชจ๋ธ ๋ผ์ธ์—…์„ ์†Œ๊ฐœ: 1. DeepSeek-R1-Zero: ์•„์˜ˆ SFT ๋ฐ์ดํ„ฐ ์—†์ด, ๋ฒ ์ด์Šค ๋ชจ๋ธ์—์„œ RL๋งŒ์œผ๋กœ ํ•™์Šต. 2. DeepSeek-R1: ์ดˆ๊ธฐ๋ถ€ํ„ฐ ์†Œ๋Ÿ‰์˜ โ€œ๊ธธ๊ณ  ์ƒ์„ธํ•œ CoT ์˜ˆ์ œโ€๋กœ SFTํ•œ ๋‹ค์Œ, ๋Œ€๊ทœ๋ชจ RL + ์ถ”๊ฐ€ SFT + RL์„ ๋ฐ˜๋ณต. - ์ดํ›„, ์ด๋ ‡๊ฒŒ ํ•™์Šต๋œ R1 ๋ชจ๋ธ๋กœ๋ถ€ํ„ฐ ์†Œํ˜• ๋ชจ๋ธ(์˜ˆ: 7B, 14B, 32B ๋“ฑ)์„ distillation(์ง€์‹ ์ฆ๋ฅ˜)ํ•จ์œผ๋กœ์จ โ€œ์ž‘์€ ๋ชจ๋ธ์—์„œ๋„ ๊ฐ•๋ ฅํ•œ ์ถ”๋ก ๋ ฅโ€์„ ์–ป๊ฒŒ ํ•จ. --- ## 2. ํ•ต์‹ฌ ์•„์ด๋””์–ด: ์ˆœ์ˆ˜ RL์„ ํ†ตํ•œ โ€œ์ถ”๋ก  ์—ญ๋Ÿ‰โ€ ํ˜•์„ฑ ### 2.1. ๋ฒ ์ด์Šค ๋ชจ๋ธ ๋ฐ RL ํ”„๋ ˆ์ž„์›Œํฌ - ๋ฒ ์ด์Šค ๋ชจ๋ธ: DeepSeek-V3-Base(์‚ฌ์ „ํ•™์Šต๋งŒ ๋งˆ์นœ ์ƒํƒœ, ์•„์ง SFT/์ถ”๊ฐ€ ํ•™์Šต ์—†์Œ). - *GRPO(Group Relative Policy Optimization)**๋ผ๋Š” RL ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์‚ฌ์šฉ. - ๋งค ์Šคํ…๋งˆ๋‹ค ์ด์ „ ์ •์ฑ…(๐œ‹_old)์—์„œ ์—ฌ๋Ÿฌ ๊ฐœ(๊ทธ๋ฃน) ์ƒ˜ํ”Œ์„ ๋ฝ‘๊ณ , ์ด๋“ค ๊ฐ๊ฐ์˜ โ€˜๋ณด์ƒโ€™์„ ๊ณ„์‚ฐํ•ด ์ƒ๋Œ€์  ์šฐ์ˆ˜ยท์—ด์„ธ๋ฅผ ๋น„๊ตํ•˜์—ฌ ์—…๋ฐ์ดํŠธ. - ์ผ๋ฐ˜ PPO์™€ ๋‹ฌ๋ฆฌ ๋™์ผ ํฌ๊ธฐ์˜ Value ๋ชจ๋ธ(critic)์ด ์—†์–ด๋„ ๋˜๋ฏ€๋กœ, ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์— ๊ฒฝ์ œ์ . ### 2.2. DeepSeek-R1-Zero: SFT ์—†์ด RL๋งŒ์œผ๋กœ ํ›ˆ๋ จ ### (1) ๊ทœ์น™ ๊ธฐ๋ฐ˜(Reinforcement) ๋ณด์ƒ ์„ค๊ณ„ - ์ •ํ™•๋„ ๋ณด์ƒ(Accuracy Reward): ์ˆ˜ํ•™ ๋ฌธ์ œ๋‚˜ ์ฝ”๋“œ ๋ฌธ์ œ์ฒ˜๋Ÿผ ์ •๋‹ต์„ ๋ช…ํ™•ํžˆ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒฝ์šฐ, ์ตœ์ข… ๋‹ต ํ˜•์‹(์˜ˆ: โ€œ<answer> ์ •๋‹ต </answer>โ€)์„ ์ •ํ•˜๊ณ , ๋ฌธ์ž์—ด ๋งค์นญ์ด๋‚˜ ์ปดํŒŒ์ผ ํ…Œ์ŠคํŠธ๋กœ ์ •๋‹ต ์—ฌ๋ถ€๋ฅผ ํ™•์ธํ•˜์—ฌ ๋ณด์ƒ. - ํฌ๋งท ๋ณด์ƒ(Format Reward): ์ค‘๊ฐ„ ์ƒ๊ฐ(CoT)์€ <think>...</think> ํƒœ๊ทธ ์•ˆ์— ๋„ฃ๊ณ , ์ตœ์ข… ์ •๋‹ต์€ <answer>...</answer> ํƒœ๊ทธ๋กœ ๊ตฌ๋ถ„ํ•˜๋„๋ก ์š”๊ตฌ. - ์ด๋Ÿฐ ์‹์œผ๋กœ ๋ชจ๋ธ์ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ…์ŠคํŠธ๋ฅผ ์ถœ๋ ฅํ•˜๋ฉด ๋ณด์ƒ์„ ์–ป๋Š”๋‹ค:

    javascript
    ๋ณต์‚ฌํŽธ์ง‘
    User: ๋ฌธ์ œ ...
    Assistant: <think> ์ƒ๊ฐ๊ณผ์ • </think><answer> ์ตœ์ข… ์ •๋‹ต </answer>
    
    
### (2) ๊ฒฐ๊ณผ์™€ ํŠน์ง• - ํ•™์Šต ์ดˆ๋ฐ˜: ๋ฒ ์ด์Šค ๋ชจ๋ธ์€ ๊ธธ๊ณ  ๋ณต์žกํ•œ ์ถ”๋ก  ๊ณผ์ •์„ ์ž˜ ๋ชป ๋งŒ๋“ฆ โ†’ ์ ์ฐจ RL์„ ํ†ตํ•ด (๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋ ค) ๋‹ค์–‘ํ•œ ์‹œ๋„๋ฅผ ํ•˜๋ฉฐ ํ•™์Šต. - ํ•™์Šต์ด ์ง„ํ–‰๋ ์ˆ˜๋ก, ์Šค์Šค๋กœ ์ƒ๊ฐ(Chain-of-Thought) ๊ธธ์ด๋ฅผ ๋Š˜๋ฆฌ๊ณ , ๋ณธ์ธ์ด ์“ด ๊ณผ์ •์„ Reflection(โ€œWait, wait. Let me re-check...โ€) ํ•˜๋Š” ํ–‰ํƒœ๋ฅผ ์ž๋ฐœ์ ์œผ๋กœ ํ„ฐ๋“. - ์ด๋ฅผ **โ€œSelf-evolution ๊ณผ์ •โ€**์ด๋ผ ์ผ์ปซ๋Š”๋‹ค. - ์„ฑ๋Šฅ: - ์˜ˆ) **AIME 2024**๋ผ๋Š” ์ˆ˜ํ•™ ๋Œ€ํšŒ ๋ฌธ์ œ์…‹์—์„œ pass@1 15.6% โ†’ 71%๋กœ ๋น„์•ฝ์  ์ƒ์Šน. - ๋‹ค์ค‘ ์ƒ˜ํ”Œ์—์„œ ํˆฌํ‘œ(Majority Voting) ์‹œ 86% ๋‹ฌ์„ฑ, OpenAI-o1 ์ค‘ ํŠน์ • ๋ฒ„์ „๋ณด๋‹ค๋„ ์šฐ์ˆ˜. ### (3) ํ•œ๊ณ„ - ์ฝ๊ธฐ ๋ถˆํŽธํ•œ ํ˜•์‹์ด๋‚˜ **์˜์–ด+์ค‘๊ตญ์–ด ํ˜ผํ•ฉ**์ด ์ž์ฃผ ๋ฐœ์ƒ, ์ค‘๊ฐ„ ์‚ฐ์ถœ๋ฌผ์ด ๋‚œ์žก. - SFT ์—†์ด ์™„์ „ํžˆ RL๋งŒ ์จ์„œ ์–ป์€ ๋ชจ๋ธ์ด๋ผ, ์„œ๋น™(Serving)์— ์ ํ•ฉํ•œ ๋งˆ๊ฐ ํ’ˆ์งˆ์ด๋‚˜ ๋Œ€ํ™” ํ˜•์‹์ด ๋ถ€์กฑ. --- ## 3. DeepSeek-R1: Cold Start + ๊ฐ•ํ™”ํ•™์Šต + SFT ๋ฐ˜๋ณต DeepSeek-R1์€ R1-Zero์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ ์ž **โ€œ์†Œ๋Ÿ‰์˜ SFT๋กœ ์‹œ์ž‘(Cold Start) โ†’ ๋Œ€๊ทœ๋ชจ RL(Reasoning ์œ„์ฃผ) โ†’ Rejection Sampling์œผ๋กœ ๋‹ค์‹œ SFT ๋ฐ์ดํ„ฐ ์ƒ์„ฑ โ†’ ์ตœ์ข…์ ์œผ๋กœ RL(์ „์ฒด ์‹œ๋‚˜๋ฆฌ์˜ค) ์ ์šฉโ€**์˜ 4๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋œ ๊ณ ๋„ํ™” ๋ฒ„์ „์ž…๋‹ˆ๋‹ค. ### 3.1. ๋‹จ๊ณ„๋ณ„ ์š”์•ฝ 1. Cold Start SFT - ์ˆ˜์ฒœ ๊ฑด์˜ โ€œ๊ธธ๊ณ  ์ƒ์„ธํ•œ CoTโ€ ์˜ˆ์‹œ๋ฅผ ์ธ์œ„์ ์œผ๋กœ(๋˜๋Š” R1-Zero์˜ ๊ฒฐ๊ณผ ์ค‘ ์šฐ์ˆ˜ํ•œ ๊ฒƒ ์„ ๋ณ„) ๋ชจ์Œ. - ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ DeepSeek-V3-Base์— ์Šˆํผ๋ฐ”์ด์ฆˆ๋“œ ํŒŒ์ธํŠœ๋‹(SFT)์„ ํ•˜์—ฌ, ์ผ๋‹จ โ€œ์ฝ๊ธฐ ์ข‹์€ CoTโ€๋ฅผ ์ถœ๋ ฅํ•˜๋„๋ก ์ดˆ๊ธฐํ™”. 2. Reasoning-oriented RL - 1๋ฒˆ ๊ณผ์ •์œผ๋กœ ์™„์„ฑ๋œ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ์ถœ๋ฐœ์ ์œผ๋กœ, - ์ˆ˜ํ•™ยท์ฝ”๋”ฉยท๋…ผ๋ฆฌ ๋ฌธ์ œ ๋“ฑ ์ •๋‹ต์ด ๋ช…ํ™•ํžˆ ํŒ๋ณ„๋˜๋Š” ๋ฌธ์ œ์— ๋Œ€ํ•ด ๋‹ค์‹œ RL. - ์ด๋•Œ๋Š” ์–ธ์–ด ํ˜ผ์šฉ ๋ฐฉ์ง€ ๋“ฑ์˜ ์ถ”๊ฐ€ ๋ณด์ƒ(์˜ˆ: โ€˜๋ชฉํ‘œ ์–ธ์–ด ๋น„์œจ์ด ๋†’์„์ˆ˜๋ก ๋ณด์ƒโ€™)์„ ํ•ฉ์นจ. - ๋ชจ๋ธ์ด ๊ณ ๋„๋กœ ๊ธด ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜๊ฑฐ๋‚˜, ๊นŠ์ด ์žˆ๋Š” ์ˆ˜ํ•™ ์ฆ๋ช…์„ ํŽผ์น˜๋Š” ๋“ฑ ์ด์œ  ์žˆ๋Š”(Reasoning) ์ถœ๋ ฅ์„ ํ•™์Šต. 3. Rejection Sampling & SFT - 2๋ฒˆ RL ์ฒดํฌํฌ์ธํŠธ๋กœ๋ถ€ํ„ฐ ๋Œ€๊ทœ๋ชจ ์‘๋‹ต(์˜ˆ: 60๋งŒ ๊ฑด ์ด์ƒ)์„ ์ƒ์„ฑํ•˜๋˜, - ์ •๋‹ต ์—ฌ๋ถ€/ํ˜•์‹ ์—ฌ๋ถ€ ๋“ฑ์„ ๊ฑธ๋Ÿฌ๋‚ด โ€œ๊ณ ํ’ˆ์งˆ Reasoning ๋ฐ์ดํ„ฐโ€๋กœ ์„ ๋ณ„. - ์—ฌ๊ธฐ์— ๋˜ ๋‹ค๋ฅธ ์ผ๋ฐ˜ SFT์šฉ ๋ฐ์ดํ„ฐ(์ฑ—๋ด‡, ์ง€์‹ QA ๋“ฑ)๋ฅผ ํ•ฉ์ณ, ์ƒˆ๋กœ์šด SFT ๋ฐ์ดํ„ฐ์…‹ ์™„์„ฑ(์ด ์•ฝ 80๋งŒ ๊ฑด). - ์ด๋ฅผ ๋‹ค์‹œ DeepSeek-V3-Base์— Supervised Fine-Tuning, ๋ชจ๋ธ์ด โ€œํ•ฉ๋ฆฌ์  ์ถ”๋ก  + ์ผ๋ฐ˜ ๋Œ€ํ™” ๋Šฅ๋ ฅ + ๊น”๋”ํ•œ ํ˜•์‹โ€์„ ๊ฐ–์ถ”๋„๋ก ํ•จ. 4. Final RL (All Scenario) - ๋งˆ์ง€๋ง‰์œผ๋กœ, (1) Reasoning ๊ด€๋ จ ๋ฐ์ดํ„ฐ(๋ฃฐ ๊ธฐ๋ฐ˜), (2) ์ผ๋ฐ˜ ์‚ฌ์šฉ์ž ์‘๋Œ€์šฉ ๋ฐ์ดํ„ฐ(๋ชจ๋ธ ๋ณด์ƒ) ๋“ฑ **๋‹ค์–‘ํ•œ ๋ณด์ƒ**์„ ํ†ตํ•ฉํ•ด RL ์ง„ํ–‰. - ์ตœ์ข… Checkpoint โ†’ DeepSeek-R1. ### 3.2. DeepSeek-R1 ๊ฒฐ๊ณผ - ์ถ”๋ก  ๊ณผ์ œ - ์ˆ˜ํ•™: AIME 79.8%, MATH-500 97.3% (๊ฑฐ์˜ ์˜คํƒˆ์ž ์—†๋Š” ์ˆ˜์ค€). - ์ฝ”๋”ฉ: ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฌธ์ œ(์ฝ”๋“œํฌ์Šค ๋“ฑ)์—์„œ ์ƒ์œ„ 96% ์ธ๊ฐ„ ์ฐธ๊ฐ€์ž๋ฅผ ๋„˜์–ด์„œ๋Š” ๋Šฅ๋ ฅ. - ์ง€์‹ยท์–ธ์–ด - MMLU Pro, GPQA Diamond ๋“ฑ ๋Œ€ํ•™์› ์ˆ˜์ค€ ํ€ด์ฆˆ์—์„œ ์šฐ์ˆ˜. - ๋‹จ์ˆœ factual QA(SimpleQA) ๋“ฑ์—์„œ๋„ ์„ฑ๋Šฅ ๊ฐœ์„ . - ์—ฌํƒ€ - ์ž์—ฐ์–ด ๊ธ€์“ฐ๊ธฐ, ๋ฌธ๋‹จ ์š”์•ฝ, ํฌ๋งท ์ค€์ˆ˜(IF-Eval) ๋“ฑ๋„ ํ–ฅ์ƒ. - ์ „๋ฐ˜์ ์œผ๋กœ DeepSeek-V3 ๋Œ€๋น„ Reasoning์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ๊ณ , ๋‹ค๋ฅธ ์ผ๋ฐ˜ ํƒœ์Šคํฌ๋„ ์œ ์‚ฌ ๋˜๋Š” ์šฐ์ˆ˜. --- ## 4. Distillation: R1์˜ ์ถ”๋ก ๋Šฅ๋ ฅ์„ ์ž‘์€ ๋ชจ๋ธ๋กœ ์ด์ „ ### 4.1. ๊ธฐ๋ณธ ์•„์ด๋””์–ด - R1 ๋ชจ๋ธ์ด ๋Œ€๊ทœ๋ชจ RL๋กœ โ€œ๊ธด ์‚ฌ์Šฌ ์ถ”๋ก โ€ ๋Šฅ๋ ฅ์„ ํš๋“ํ–ˆ์œผ๋‹ˆ, ์ด๋ฅผ **์†Œํ˜• ๋ชจ๋ธ**(์˜ˆ: Qwen 7B, 14B, 32B, Llama 8B, 70B ๋“ฑ)์— ์ „๋‹ฌํ•˜๊ณ ์ž ํ•จ. - ๋ฐฉ๋ฒ•: **DeepSeek-R1**์ด ์ƒ์„ฑํ•œ ์•ฝ 80๋งŒ ๊ฑด์˜ SFT ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ , ์†Œํ˜• ๋ชจ๋ธ์„ ํŒŒ์ธํŠœ๋‹. - ๋ณ„๋„์˜ RL ์—†์Œ, ๋‹จ์ˆœ ํŒŒ์ธํŠœ๋‹๋งŒ. - ๊ฒฐ๊ณผ์ ์œผ๋กœ **DeepSeek-R1-Distill-Qwen-7B(๋˜๋Š” -32B ๋“ฑ)**๊ฐ€, ๊ฐ™์€ ์‚ฌ์ด์ฆˆ์—์„œ SFT๋งŒ ํ•œ ๋ชจ๋ธ(๋‹ค๋ฅธ AI ๋ชจ๋ธ๋“ค)๋ณด๋‹ค ํ›จ์”ฌ ๋›ฐ์–ด๋‚œ ์ถ”๋ก ๋ ฅ์„ ๋ณด์ž„.

### 2.3 DeepSeek-R1: Cold Start + ๋‹ค๋‹จ๊ณ„ Reinforcement Learning 1. Cold Start - DeepSeek-R1-Zero๋Š” ์ถ”๋ก ๋ ฅ์€ ๋›ฐ์–ด๋‚˜์ง€๋งŒ, ๊ฐ€๋…์„ฑ ๋ฌธ์ œ ๋“ฑ์ด ์žˆ์–ด **์ดˆ๋ฐ˜๋ถ€ํ„ฐ ์‚ฌ๋žŒ์ด ์ฝ๊ธฐ ์ข‹์€ ํฌ๋งท**(๊ธด CoT, ์š”์•ฝ)์œผ๋กœ ์†Œ๋Ÿ‰(์ˆ˜์ฒœ ๊ฐœ)์˜ โ€œcold-start ๋ฐ์ดํ„ฐโ€๋ฅผ ์ˆ˜์ง‘ยทํ•™์Šต. - ์ด๋กœ ์ธํ•ด RL ์ดˆ๋ฐ˜์˜ ๋ถˆ์•ˆ์ •ํ•จ์„ ์ค„์ด๊ณ , ๋น ๋ฅธ ์ˆ˜๋ ด**๊ณผ **๊ฐ€๋…์„ฑ ํ–ฅ์ƒ ๊ฐ€๋Šฅ. 2. ์ถ”๋ก  ์ค‘์‹ฌ RL(1์ฐจ) - Cold-start๋กœ ํŒŒ์ธํŠœ๋‹ํ•œ ๋ชจ๋ธ์—, DeepSeek-R1-Zero์™€ ๋™์ผํ•œ ๋ฐฉ์‹์˜ ๋Œ€๊ทœ๋ชจ RL ์ ์šฉ. - ์ˆ˜ํ•™, ์ฝ”๋”ฉ, ๊ณผํ•™, ๋…ผ๋ฆฌ ๊ฐ™์ด ์ฑ„์ ์ด ์ˆ˜์›”ํ•œ ํƒœ์Šคํฌ ์ค‘์‹ฌ + ์–ธ์–ด ์ผ๊ด€์„ฑ ๋ณด์ƒ(์–ธ์–ด ํ˜ผํ•ฉ ๋ฐฉ์ง€). - ์„ฑ๋Šฅ ํ–ฅ์ƒ๊ณผ ํ•จ๊ป˜, ์ฝ๊ธฐ ์ข‹์€ ์ฒด์ธ ์˜ค๋ธŒ ์ƒ๊ฐ ํ™•๋ณด. 3. Rejection Sampling + ์ง€๋„ํ•™์Šต(2์ฐจ SFT) - RL๋กœ ํ•™์Šต๋œ ์ฒดํฌํฌ์ธํŠธ์—์„œ **์ •ํ™•ํ•œ ๋‹ต๋ณ€**๋งŒ ๋‹ค์‹œ ์ถ”์ถœํ•˜์—ฌ, ์•ฝ 60๋งŒ ๊ฑด ์ด์ƒ์˜ ๊ณ ํ’ˆ์งˆ ์ถ”๋ก  ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•. - ๊ทธ ์™ธ ์—์„ธ์ดยทQAยท์ž๊ธฐ์†Œ๊ฐœ ๋“ฑ ์ผ๋ฐ˜ ํƒœ์Šคํฌ 20๋งŒ ๊ฑด์„ ์ถ”๊ฐ€(DeepSeek-V3์—์„œ ์‚ฌ์šฉํ•˜๋˜ ์ง€๋„ ๋ฐ์ดํ„ฐ). - ์ด 80๋งŒ ๊ฑด ์ˆ˜์ค€์œผ๋กœ ๋‹ค์‹œ **SFT**(DeepSeek-V3-Base ๊ธฐ๋ฐ˜). 4. ์ „์ฒด ์‹œ๋‚˜๋ฆฌ์˜ค RL(2์ฐจ) - ์ตœ์ข…์ ์œผ๋กœ ๋ชจ๋“  ์‹œ๋‚˜๋ฆฌ์˜ค(์ถ”๋ก +์ผ๋ฐ˜ ํƒœ์Šคํฌ) ๋ณด์ƒ์„ ๊ฒฐํ•ฉํ•œ RL ์ˆ˜ํ–‰(์•ˆ์ „์„ฑยท๋„์›€๋จยทํฌ๋งท ๋“ฑ). - ๊ฒฐ๊ณผ๋ฌผ: DeepSeek-R1 (์„ฑ๋Šฅ ๋ฐ ๊ฐ€๋…์„ฑ ๋ชจ๋‘ ์šฐ์ˆ˜) ### 2.4 Distillation: ์†Œํ˜• ๋ชจ๋ธ๋„ ์ถ”๋ก ๋ ฅ์„ ๊ฐ–์ถ”๋„๋ก - **DeepSeek-R1**์ด ๋งŒ๋“ค์–ด๋‚ธ ์•ฝ 80๋งŒ ๊ฑด์˜ ๋ฐ์ดํ„ฐ๋กœ Qwen2.5-์‹œ๋ฆฌ์ฆˆ(1.5B~32B, 70B)์™€ Llama3-์‹œ๋ฆฌ์ฆˆ(8B, 70B) ๋ชจ๋ธ์„ ๊ฐ„๋‹จํžˆ **SFT**๋งŒ์œผ๋กœ ํŠœ๋‹. - ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ˆ˜ํ•™ยท๋…ผ๋ฆฌยท์ฝ”๋“œ ๋ฒค์น˜๋งˆํฌ์—์„œ **์›๋ž˜ ํฐ ๋ชจ๋ธ์— ๋ชป์ง€์•Š์€ ์„ฑ๋Šฅ**์„ ๋‹ค์ˆ˜ ๋‹ฌ์„ฑ. - ์ง์ ‘ RL์„ ์†Œํ˜• ๋ชจ๋ธ์— ์ ์šฉํ•œ ๊ฒƒ๋ณด๋‹ค, **์ž˜ ์ถ”๋ก ํ•˜๋Š” ํฐ ๋ชจ๋ธ์˜ ๊ฒฐ๊ณผ๋ฅผ ์ฆ๋ฅ˜ํ•˜๋Š” ํŽธ์ด ํ›จ์”ฌ ํšจ๊ณผ์ **์ž„์„ ํ™•์ธ. --- ## 3. ์‹คํ—˜ (Experiment) ### 3.1 DeepSeek-R1 ์„ฑ๋Šฅ ํ‰๊ฐ€ - ์˜์–ด ์ง€์‹ยทQA ๋ถ„์•ผ - MMLU, GPQA Diamond, SimpleQA ๋“ฑ์—์„œ DeepSeek-R1์ด DeepSeek-V3 ๋Œ€๋น„ ์œ ์˜๋ฏธํ•œ ์šฐ์œ„. - MMLU์—์„œ 90.8%(OpenAI-o1-1217์˜ 91.8%์™€ ๋น„๋“ฑ), GPQA Diamond์—์„œ 71.5%๋กœ ๋งค์šฐ ๋†’์Œ. - ์ฝ”๋“œ - Codeforces(์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋Œ€ํšŒ ๋ฌธ์ œ)์—์„œ ์ธ์› ๋Œ€๋น„ 96.3% ์ƒ์œ„ ๋ ˆ์ดํŒ…(2029). - LiveCodeBench์—์„œ 65.9%๋กœ Claude, GPT-4o, DeepSeek-V3๋ณด๋‹ค ๋†’์Œ. - ๋‹จ, SWE Verified(์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง ํƒœ์Šคํฌ)์—์„œ๋Š” 49.2%๋กœ, RL ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋•Œ๋ฌธ์— DeepSeek-V3 ๋Œ€๋น„ ์ œํ•œ์  ์ƒ์Šน. - ์ˆ˜ํ•™ - AIME 2024์—์„œ 79.8% (OpenAI-o1-1217์˜ 79.2%์™€ ์‚ฌ์‹ค์ƒ ๋™๊ธ‰), MATH-500์—์„œ 97.3%, CNMO 2024์—์„œ 78.8%. - **STEM ์ถ”๋ก **์—์„œ ๋งค์šฐ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๊ธฐ๋ก. - ์ค‘๊ตญ์–ด ํ‰๊ฐ€ - CLUEWSC, C-Eval ๋“ฑ์—์„œ 90% ์ด์ƒ์œผ๋กœ ๋†’์€ ์ ์ˆ˜. - C-SimpleQA(ํŒฉํŠธ์„ฑ ์ค‘๊ตญ์–ด QA)์—์„œ ์•ˆ์ „์„ฑ ๋ชจ๋“ˆ์ด ๊ณผ๋„ํ•œ ๊ฑฐ๋ถ€๋ฅผ ์œ ๋ฐœํ•ด ์™„๋ฒฝํžˆ ๋†’์€ ์ ์ˆ˜์— ๋„๋‹ฌํ•˜์ง€ ๋ชปํ–ˆ์ง€๋งŒ, ์•ˆ์ „์„ฑ RL ์—†์ด ํ…Œ์ŠคํŠธ ์‹œ 70% ์ด์ƒ. ### 3.2 Distilled Model (์†Œํ˜• ๋ชจ๋ธ ์ฆ๋ฅ˜ํŒ) ํ‰๊ฐ€ - Qwen2.5-32B, Llama3.3-70B ๋“ฑ ์†Œํ˜•ยท์ค‘ํ˜• ๋ชจ๋ธ์— DeepSeek-R1์—์„œ ์ถ”์ถœํ•œ 80๋งŒ ๊ฑด ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šต. - DeepSeek-R1-Distill-Qwen-7B: - AIME 2024์—์„œ 55.5%, MATH-500์—์„œ 83.3%, GPQA Diamond 92.8%๋กœ, GPT-4o๋‚˜ Claude-3.5-Sonnet์™€ ๋งž๋จน๊ฑฐ๋‚˜ ๋›ฐ์–ด๋„˜๋Š” ์ˆ˜์ค€. - 14B, 32B, 70B ๋ฒ„์ „๋“ค์€ AIME, LiveCodeBench, Codeforces ๋“ฑ์—์„œ QwQ-32B-Preview๋ฅผ ๋„˜์–ด์„œ๋Š” ๋“ฑ ์—ด์„ธ์˜€๋˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ๋›ฐ์–ด๋„˜๋Š” ์„ฑ๋Šฅ ๋ฐœํœ˜. - ๋Œ€๊ทœ๋ชจ RL์„ ์ง์ ‘ โ€œ์ž‘์€ ๋ชจ๋ธโ€์— ์ ์šฉํ•˜๊ธฐ๋ณด๋‹ค, โ€œํฐ ๋ชจ๋ธ์ด ์ฐพ์€ ์ถ”๋ก  ํŒจํ„ดโ€์„ ์ฆ๋ฅ˜ํ•˜๋Š” ํŽธ์ด ํ›จ์”ฌ ํšจ๊ณผ์ ์ž„์„ ํ™•์ธ. --- ## 4. ํ† ์˜ (Discussion) ### 4.1 Distillation vs Reinforcement Learning - **์†Œํ˜• ๋ชจ๋ธ์— ์ง์ ‘ RL**์„ ๋Œ€๊ทœ๋ชจ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒฝ์šฐ, ํ•™์Šต ๋น„์šฉ์ด ํฌ๊ณ , ์ข…์ข… ์ œ๋Œ€๋กœ ์ˆ˜๋ ดํ•˜์ง€ ๋ชปํ•จ(์‹คํ—˜ ๊ฒฐ๊ณผ, ์„ฑ๋Šฅ์ด QwQ-32B-Preview ์ˆ˜์ค€์— ๋จธ๋ฌด๋ฆ„). - ๋ฐ˜๋ฉด, **DeepSeek-R1 ์ถ”๋ก  ๋ฐ์ดํ„ฐ๋ฅผ ์ฆ๋ฅ˜**ํ•˜๋Š” ๊ฒฝ์šฐ, ์ ์€ ๋น„์šฉ์œผ๋กœ ๋งค์šฐ ๋†’์€ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ ๊ฐ€๋Šฅ. ### 4.2 ์‹คํŒจ ์‚ฌ๋ก€ (Unsuccessful Attempts) - Process Reward Model(PRM) - ์ค‘๊ฐ„ ๋‹จ๊ณ„๋ณ„ ๋ณด์ƒ์„ ์ •์˜ํ•ด ์ถ”๋ก  ๊ณผ์ •์„ ์„ธ๋ฐ€ํžˆ ์œ ๋„ํ•˜๊ณ ์ž ํ–ˆ์ง€๋งŒ, - ์ค‘๊ฐ„๋‹จ๊ณ„๋ฅผ ๋ฏธ๋ฆฌ ์ •์˜ํ•˜๊ธฐ ์–ด๋ ต๊ณ , - ๋ชจ๋ธ์ด **์ค‘๊ฐ„ ๋‹ต๋ณ€ ๋ณด์ƒ**์„ ์•…์šฉ(reward hacking)ํ•  ์šฐ๋ ค๊ฐ€ ํฌ๋ฉฐ, - ๋งค ๋ณด์ƒ๋ชจ๋ธ์„ ๋‹ค์‹œ ํ•™์Šตํ•ด์•ผ ํ•˜๋Š” ๋ณต์žก๋„ ๋•Œ๋ฌธ์— ๋Œ€๊ทœ๋ชจ RL ๋‹จ๊ณ„์—๋Š” ์ ์šฉ์ด ์–ด๋ ค์› ์Œ. - Monte Carlo Tree Search(MCTS) - ์ฒด์Šค๋‚˜ ๋ฐ”๋‘‘์ฒ˜๋Ÿผ ๋‹จ๊ณ„์ ์œผ๋กœ ํŠธ๋ฆฌ ํƒ์ƒ‰์„ ์‹œ๋„ํ–ˆ์œผ๋‚˜, - ์ผ๋ฐ˜ ํ…์ŠคํŠธ ์ƒ์„ฑ์€ ํƒ์ƒ‰ ๊ณต๊ฐ„์ด ๋งค์šฐ ์ปค์„œ ํŠธ๋ฆฌ ํ™•์žฅ์— ์ œํ•œ์„ ๊ฑธ์–ด์•ผ ํ–ˆ๊ณ , - ๊ฐ€์น˜ํ•จ์ˆ˜(value model) ํ•™์Šต์ด ๊นŒ๋‹ค๋กญ๋‹ค ๋ณด๋‹ˆ ๋ชจ๋ธ ์ž์ฒด๋ฅผ ์ ์ง„์ ์œผ๋กœ ๊ฐœ์„ ํ•˜๊ธฐ ์–ด๋ ค์› ์Œ. - **์ถ”๋ก  ์‹œ ์ผํšŒ์„ฑ**์œผ๋กœ ์“ธ ์ˆ˜๋Š” ์žˆ์œผ๋‚˜, **์Šค์Šค๋กœ ์„ฑ๋Šฅ ํ–ฅ์ƒ**ํ•˜๋Š” ๊ตฌ์กฐ๋กœ๋Š” ํ•œ๊ณ„. --- ## 5. ๊ฒฐ๋ก  ๋ฐ ํ–ฅํ›„ ๊ณผ์ œ (Conclusion, Limitations, and Future Work) - ๊ฒฐ๋ก  - ์ง€๋„ ๋ฐ์ดํ„ฐ ์—†์ด ์ˆœ์ˆ˜ RL๋กœ ๋ชจ๋ธ ์ถ”๋ก ๋ ฅ์„ ๋Œ์–ด์˜ฌ๋ฆฐ **DeepSeek-R1-Zero**์™€, Cold-start ๋ฐ์ดํ„ฐ ๋ฐ ๋‹ค๋‹จ๊ณ„ RLยทSFT ๊ณผ์ •์„ ํ†ตํ•ด OpenAI-o1-1217๊ธ‰์— ๋„๋‹ฌํ•œ **DeepSeek-R1**์„ ์ œ์‹œ. - ์ด๋ฅผ ํ†ตํ•ด ์–ป์€ ๋ฐ์ดํ„ฐ๋กœ ์†Œํ˜• ๋ชจ๋ธ ์ฆ๋ฅ˜ ์‹œ, ๋งŽ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ง์ ‘ ํ›ˆ๋ จํ•˜๋Š” ๋ฐฉ๋ฒ•๋ณด๋‹ค ํšจ์œจ์ ์ด๊ณ  ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•จ์„ ๋ณด์ž„. - ํ•œ๊ณ„ 1. ๊ธฐ๋Šฅ์  ํ•œ๊ณ„: ํ•จ์ˆ˜ ํ˜ธ์ถœ, JSON ์ถœ๋ ฅ, ๋‹ค์ค‘ ํ„ด ๋Œ€ํ™” ๋“ฑ ์‹ค์ œ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ ํ•„์š”ํ•œ ์„ธ๋ถ€ ๊ธฐ๋Šฅ์€ ์ถ”๋ก  ๊ธฐ๋ฐ˜ ํ•™์Šต๋งŒ์œผ๋กœ๋Š” ์ถฉ๋ถ„ํžˆ ๋‹ค๋ฃจ์ง€ ๋ชปํ•จ. 2. ์–ธ์–ด ํ˜ผํ•ฉ: ํ˜„์žฌ ์ฃผ๋กœ ์ค‘ยท์˜ ๋Œ€์‘๋งŒ ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์—, ๋‹ค๋ฅธ ์–ธ์–ด ์งˆ๋ฌธ ์‹œ ํ˜ผํ•ฉ ์ถœ๋ ฅ ๊ฐ€๋Šฅ์„ฑ ์žˆ์Œ. 3. ํ”„๋กฌํ”„ํŠธ ๋ฏผ๊ฐ๋„: Zero-shot์œผ๋กœ ์‚ฌ์šฉ ์‹œ ์ตœ์  ์„ฑ๋Šฅ์ด ๋‚˜์˜ค๋‚˜, Few-shot์œผ๋กœ ์•ˆ๋‚ดํ•˜๋ฉด ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๋Š” ๊ฒฝํ–ฅ. 4. ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง ํƒœ์Šคํฌ: RL์— ๊ธด ์‹คํ–‰ ์‹œ๊ฐ„์ด ํ•„์š”ํ•œ ์—”์ง€๋‹ˆ์–ด๋ง ํƒœ์Šคํฌ๋ฅผ ์ถฉ๋ถ„ํžˆ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•ด ์„ฑ๋Šฅ ๊ฐœ์„ ์ด ์ œํ•œ๋จ. - ํ–ฅํ›„ ๊ณ„ํš - ๋ฒ”์šฉ ๊ธฐ๋Šฅ(ํ•จ์ˆ˜ ํ˜ธ์ถœ, ๋ฉ€ํ‹ฐํ„ด ๋Œ€ํ™” ๋“ฑ) ๊ฐ•ํ™”, - ๋‹ค๊ตญ์–ด ์ง€์›, - ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง ์ตœ์ ํ™”, - **์—”์ง€๋‹ˆ์–ด๋ง ํƒœ์Šคํฌ ๋ฐ์ดํ„ฐ ๋ณด๊ฐ•**์„ ํ†ตํ•œ ๊ฐœ์„ . [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://www.notion.so/DeepSeekMath-Pushing-the-Limits-of-Mathematical-Reasoning-in-Open-Language-Models-1872857ddb1680df916dd44ff5482c77?pvs=21) ### 1.1. ์™œ ์ถ”๋ก (Reinforcement Learning)์ด ์ค‘์š”ํ•œ๊ฐ€?

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf ## 1.1 ์ฃผ์š” ๊ธฐ์—ฌ (Contributions) 1. ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์ถ”๋ก  ์„ฑ๋Šฅ ํ–ฅ์ƒ - ์ง€๋„ ๋ฐ์ดํ„ฐ ์—†์ด **์ˆœ์ˆ˜ ๊ฐ•ํ™”ํ•™์Šต**๋งŒ์œผ๋กœ LLM ์ถ”๋ก  ์„ฑ๋Šฅ์„ ๋น„์•ฝ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆ(DeepSeek-R1-Zero). - ์ด๋ฅผ ํ†ตํ•ด SFT๊ฐ€ ์—†์–ด๋„ ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ๋ฐ˜์‚ฌ(reflection)ยท์ž์ฒด ๊ฒ€์ฆ(self-verification) ๋“ฑ๊ณผ ๊ฐ™์€ ๊ณ ๊ธ‰ ์ถ”๋ก  ํ–‰์œ„๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹ค์ฆ. - ์„ฑ๋Šฅ์€ AIME 2024์—์„œ pass@1 ๊ธฐ์ค€ 15.6% โ†’ 71.0%๋กœ ์ƒ์Šน, ํ•ฉ์˜ํˆฌํ‘œ(majority voting) ์‹œ 86.7%๋กœ OpenAI-o1-0912 ๋™๊ธ‰. 2. DeepSeek-R1 ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ ์ œ์‹œ - ์†Œ๋Ÿ‰์˜ โ€œcold-start(์ดˆ๊ธฐ ์”จ์•—)โ€ ๋ฐ์ดํ„ฐ๋ฅผ ๋จผ์ € ์‚ฌ์šฉํ•ด ๋ฒ ์ด์Šค ๋ชจ๋ธ์„ ํŒŒ์ธํŠœ๋‹ํ•œ ํ›„, ๋Œ€๊ทœ๋ชจ ๊ฐ•ํ™”ํ•™์Šต์„ ์ ์šฉ. - ์ดํ›„ ์ž์ฒด ์ƒ์„ฑ(Rejection Sampling) + ๊ธฐ์กด ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ์œผ๋กœ ์ง€๋„ํ•™์Šต โ†’ ๋‹ค์‹œ RL๋กœ ๋งˆ๋ฌด๋ฆฌํ•˜๋Š” ๋‹ค๋‹จ๊ณ„ ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์ถ•. - ์ตœ์ข…์ ์œผ๋กœ OpenAI-o1-1217 ๊ธ‰์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ ๋ชจ๋ธ(DeepSeek-R1)์„ ์™„์„ฑ. 3. ์ง€์‹ ์ฆ๋ฅ˜(Distillation)๋ฅผ ํ†ตํ•œ ์†Œํ˜• ๋ชจ๋ธ ์ถ”๋ก ๋ ฅ ๊ฐ•ํ™” - DeepSeek-R1์—์„œ ์ƒ์„ฑ๋œ 80๋งŒ ๊ฑด ์ด์ƒ์˜ ์ถ”๋ก  ๋ฐ์ดํ„ฐ๋กœ Qwen/Llama ๊ธฐ๋ฐ˜ ์†Œํ˜• ๋ชจ๋ธ(1.5B~70B)์„ ํŠœ๋‹ํ•˜๋ฉด, **์ง์ ‘ RLํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋” ๋†’์€ ์ถ”๋ก  ์„ฑ๋Šฅ**์„ ๋‹ฌ์„ฑ. - DeepSeek-R1-Distill-Qwen-14B ๋“ฑ์€ ๊ธฐ์กด QwQ-32B-Preview๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ์ผ๋ถ€ ์ง€ํ‘œ์—์„œ o1-mini์™€ ๋งž๋จน๋Š” ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ ์‹œ์—ฐ. --- ## 1.2 ํ‰๊ฐ€ ๊ฒฐ๊ณผ ์š”์•ฝ (Summary of Evaluation Results) - ์ˆ˜ํ•™ยท๋…ผ๋ฆฌยท์ฝ”๋”ฉ ๋“ฑ ์ถ”๋ก  ๊ณผ์ œ - DeepSeek-R1: - AIME 2024์—์„œ pass@1 ๊ธฐ์ค€ 79.8%, MATH-500์—์„œ 97.3% ๋“ฑ ์ตœ์ƒ์œ„ ์ˆ˜์ค€. - Codeforces(์ฝ”๋”ฉ ๋Œ€ํšŒ ๋ฌธ์ œ)์—์„œ 2029 ๋ ˆ์ดํŒ…, ์ด๋Š” ์ƒ์œ„ 96.3% ์ด์ƒ์˜ ์‹ค๋ ฅ์— ํ•ด๋‹น. - **์†Œํ˜• ๋ชจ๋ธ ์ฆ๋ฅ˜ํŒ**๋„ AIME, MATH, ์ฝ”๋“œ ๋ฌธ์ œ์—์„œ ๋Œ€์ฒด๋กœ GPT-4o๋‚˜ Claude-3.5-Sonnet๋ณด๋‹ค ์šฐ์ˆ˜. - ์ง€์‹ยทQA ๊ณผ์ œ - MMLU ๋“ฑ ๊ต์œกยท์ƒ์‹ ๊ด€๋ จ ํ…Œ์ŠคํŠธ์—์„œ DeepSeek-R1์ด 90% ์ „ํ›„์˜ ๋†’์€ ์ ์ˆ˜. (OpenAI-o1-1217๊ณผ ๊ทผ์ ‘) - GPQA Diamond(๊ณ ๊ธ‰ QA)์—์„œ๋„ 71.5%๋กœ ์šฐ์ˆ˜. - ์ „๋ฐ˜์  ์งˆ์  ํ‰๊ฐ€ - ์ผ๋ฐ˜ QA, ์—์„ธ์ด ์ž‘์„ฑ, ์š”์•ฝ, ๋กคํ”Œ๋ ˆ์ด ๋“ฑ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ์—์„œ AlpacaEval2.0, Arena-Hard ํ…Œ์ŠคํŠธ๋ฅผ ์‚ฌ์šฉํ•ด GPT-4 ๊ธฐ๋ฐ˜ ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•œ ๊ฒฐ๊ณผ, DeepSeek-R1์ด DeepSeek-V3 ๋Œ€๋น„ ์ „๋ฐฉ์œ„๋กœ ์šฐ์ˆ˜. - (๋‹จ, Python API ์—ฐ๋™ ๊ฐ™์€ ๊ตฌ์ฒด์  ์—”์ง€๋‹ˆ์–ด๋ง ๊ณผ์ œ๋‚˜ ๋ณต์žกํ•œ ํ•จ์ˆ˜ ํ˜ธ์ถœ ๋“ฑ์€ ์ฐจ๊ธฐ ๋ฒ„์ „์—์„œ ๊ฐœ์„  ์˜ˆ์ •.) --- ## 2. ์ ‘๊ทผ ๋ฐฉ๋ฒ• (Approach) ### 2.1 ์ „์ฒด ๊ฐœ์š” (Overview) - ๋ชจ๋ธ ์ถ”๋ก ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๊ธฐ ์œ„ํ•ด **SFT๋ฅผ ํ•˜์ง€ ์•Š์€ ์ƒํƒœ**์—์„œ ๋ฐ”๋กœ RL์„ ์ ์šฉํ•œ ๋ชจ๋ธ(DeepSeek-R1-Zero)๊ณผ, ์†Œ๋Ÿ‰์˜ Cold-start ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ๋’ค RL์„ ์ ์šฉํ•œ ๋ชจ๋ธ(DeepSeek-R1) ๋‘ ๊ฐ€์ง€ ๊ฒฝ๋กœ๋ฅผ ํƒ์ƒ‰. - ์ดํ›„ ์™„๋ฃŒ๋œ ๋ชจ๋ธ์„ **์ง€์‹ ์ฆ๋ฅ˜**ํ•˜์—ฌ ๋” ์ž‘์€ ๋ชจ๋ธ(Qwen, Llama ์‹œ๋ฆฌ์ฆˆ)๋กœ ์ด์‹. ### 2.2 DeepSeek-R1-Zero: ์ง€๋„ํ•™์Šต ์—†์ด ๋ฒ ์ด์Šค ๋ชจ๋ธ์— ์ง์ ‘ RL 1. ํ›ˆ๋ จ ์•Œ๊ณ ๋ฆฌ์ฆ˜: - GRPO(Group Relative Policy Optimization) ํ™œ์šฉ - ์ „ํ†ต์  PPO์™€ ์œ ์‚ฌํ•˜๋‚˜, Critic(๊ฐ€์น˜๋ง) ์—†์ด โ€œ๊ทธ๋ฃน ๋‚ด ์ƒ๋Œ€ ์ ์ˆ˜โ€๋กœ Advantage๋ฅผ ๊ณ„์‚ฐํ•ด ๋Œ€๊ทœ๋ชจ ํ›ˆ๋ จ ๋น„์šฉ์„ ์ ˆ๊ฐ. - Value ํ•จ์ˆ˜(๋˜๋Š” Critic)๋ฅผ ์•„์˜ˆ ์“ฐ์ง€ ์•Š์Œ - ๊ธฐ์กด PPO๋Š” โ€œActor + Criticโ€์ด์—ˆ๋Š”๋ฐ, GRPO๋Š” Actor(์ •์ฑ…)๋งŒ ๋‚จ๊ฒจ, Critic ํ•™์Šต ๋น„์šฉ/๋ฉ”๋ชจ๋ฆฌ ์š”๊ตฌ๋ฅผ ์ œ๊ฑฐ. - **๊ทธ๋ฃน ๋‹จ์œ„ ์ƒ๋Œ€ ๋ณด์ƒ**(Group Relative) - ํ•œ ์งˆ๋ฌธ(์˜ˆ: ์ˆ˜ํ•™ ๋ฌธ์ œ)๋‹น **์—ฌ๋Ÿฌ ๊ฐœ(G๊ฐœ) ์ •๋‹ต ํ›„๋ณด**๋ฅผ ์ •์ฑ…์œผ๋กœ๋ถ€ํ„ฐ ์ƒ˜ํ”Œ๋ง. - ๊ฐ ํ›„๋ณด ์ •๋‹ต์— ๋Œ€ํ•ด **Reward ๋ชจ๋ธ**(๋˜๋Š” ๋ฃฐ ๊ธฐ๋ฐ˜ ์ฑ„์ )๋กœ ๋ณด์ƒ์„ ๊ณ„์‚ฐ. - **๋ณด์ƒ์˜ ํ‰๊ท ยทํ‘œ์ค€ํŽธ์ฐจ**๋ฅผ ๊ตฌํ•œ ๋’ค, Ai=std({r1,โ€ฆ,rG})riโˆ’mean({r1,โ€ฆ,rG}) ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ, ๊ทธ๋ฃน ๋‚ด์—์„œ ์ƒ๋Œ€์ ์œผ๋กœ ์–ผ๋งˆ๋‚˜ ๋” ๋‚˜์€์ง€(Advantage)๋ฅผ ๊ณ„์‚ฐ. - PPO์ฒ˜๋Ÿผ ์—…๋ฐ์ดํŠธ - PPO์—์„œ ์‚ฌ์šฉ๋˜๋˜ โ€œclip ๊ธฐ๋ฒ•โ€์ด๋‚˜ โ€œKL ํŽ˜๋„ํ‹ฐโ€ ๋“ฑ์„ ๊ทธ๋Œ€๋กœ ์ ์šฉํ•˜๋˜, Advantage ๊ณ„์‚ฐ๋งŒ Critic ๋Œ€์‹  **๊ทธ๋ฃน ๋‚ด ์ ์ˆ˜ ์ฐจ์ด**๋กœ ๋Œ€์ฒด. clip\mathrm{clip} - ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด, - Critic์„ ์ƒ๋žตํ•ด ๋ฆฌ์†Œ์Šค ์ ˆ์•ฝ, - ๊ทธ๋ฃน ๋‚ด ์ƒ๋Œ€ ๋น„๊ต๋กœ๋„ ์ถฉ๋ถ„ํ•œ ํ•™์Šต ์‹ ํ˜ธ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์–ด ํ•™์Šต์ด ์•ˆ์ •. 2. ๋ณด์ƒ(Reward) ์„ค๊ณ„ - ์ •ํ™•๋„ ๋ณด์ƒ: ์ •๋‹ต์ด ๋ช…ํ™•ํ•œ ์ˆ˜ํ•™ ๋ฌธ์ œ, ์ฝ”๋”ฉ ๋ฌธ์ œ ๋“ฑ์—์„œ ์ตœ์ข… ํ•ด๊ฐ€ ๋งž์„ ๊ฒฝ์šฐ ๋ณด์ƒ์„ ์ฃผ๋Š” ์‹(ํ…Œ์ŠคํŠธ์ผ€์ด์Šค ํ†ต๊ณผ ๋“ฑ). - ์ถœ๋ ฅ ํ˜•์‹ ๋ณด์ƒ: reasoning์€ <think>...</think> ํƒœ๊ทธ ์•ˆ์—, ์ตœ์ข… ๋‹ต์€ <answer>...</answer> ํƒœ๊ทธ ์•ˆ์— ๋„ฃ๋„๋ก ์œ ๋„. GRPO๋“  PPO๋“ , โ€œ์–ด๋А ์‹œ์ ์— ๋ณด์ƒ์„ ์ฃผ๋А๋ƒ?โ€๊ฐ€ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. 1. Outcome Supervision (OS) - ์ตœ์ข… ์ถœ๋ ฅ(๋งˆ์ง€๋ง‰ ํ† ํฐ)๋งŒ ํ‰๊ฐ€. - ์˜ˆ: โ€œ์ด ๋‹ต์•ˆ์ด ์ „์ฒด์ ์œผ๋กœ ๋งž์•˜๋Š”์ง€ ํ‹€๋ ธ๋Š”์ง€โ€๋กœ ํ•œ ๋ฒˆ์— ๋ณด์ƒ. 2. Process Supervision (PS) - ์ถ”๋ก  ๊ณผ์ •(์ค‘๊ฐ„ ํ† ํฐ์ด๋‚˜, ๋‹จ๊ณ„๋ณ„ ์ฝ”๋“œ ๋ผ์ธ)์„ ์„ธ๋ถ„ํ™”ํ•ด ๊ฐ ๋‹จ๊ณ„ ๋ณด์ƒ. - ์˜ˆ: โ€œ์ค‘๊ฐ„ ๊ณ„์‚ฐ ๊ณผ์ •์ด ๋งž์œผ๋ฉด ๋ถ€๋ถ„ ๋ณด์ƒโ€ โ†’ ๋” ์„ธ๋ฐ€ํ•œ ํ•™์Šต ๊ฐ€๋Šฅ. 3. ํ•™์Šต ํ…œํ”Œ๋ฆฟ - ๋งค์šฐ ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ. ์˜ˆ:

        javascript
        ๋ณต์‚ฌํŽธ์ง‘
        User: prompt
        Assistant: <think> ... </think><answer> ... </answer>
        
        
### 2.5 Iterative RL (๋ฐ˜๋ณต ํ›ˆ๋ จ) - **Policy ๋ชจ๋ธ**๊ณผ **Reward ๋ชจ๋ธ**์„ ๋ฒˆ๊ฐˆ์•„๊ฐ€๋ฉฐ, ํ˜น์€ ์—ฐ์†์ ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•˜๋Š” ์ „๋žต. - ์˜ˆ: 1. ์ •์ฑ… ๋ชจ๋ธ์ด ์ƒ˜ํ”Œ ์ƒ์„ฑ โ†’ 2. ์ด๋ฅผ ํ†ตํ•ด Reward ๋ชจ๋ธ(๋˜๋Š” ๋ฃฐ ๊ธฐ๋ฐ˜)์— ์ƒˆ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€ โ†’ 3. Reward ๋ชจ๋ธ์„ ์žฌํ•™์Šต โ†’ 4. ์ƒˆ๋กœ์šด Reward ๋ชจ๋ธ๋กœ ๋‹ค์‹œ ์ •์ฑ… ๋ชจ๋ธ ๊ฐ•ํ™”ํ•™์Šต โ†’ โ€ฆ - ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋ณด์ƒ ๋ชจ๋ธ๋„ ์ ์ฐจ โ€œํ˜„์žฌ ์ •์ฑ…์ด ๋งŒ๋“ค์–ด๋‚ด๋Š” ๋‹ค์–‘ํ•˜๊ณ  ์ƒˆ๋กœ์šด ์ƒ˜ํ”Œโ€์— ๋งž์ถฐ **์ง„ํ™”**ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, RL ํŒŒ์ดํ”„๋ผ์ธ์ด ๋”์šฑ ๊ณ ๋„ํ™”. 4. ํ•™์Šต ๊ฒฐ๊ณผ - AIME 2024 ๊ธฐ์ค€ pass@1์ด 15.6% โ†’ 71.0%(ํ•ฉ์˜ํˆฌํ‘œ ์‹œ 86.7%). - OpenAI-o1-0912(74.4%)์™€ ๋™๊ธ‰ ๋‚ด์ง€ ์ผ๋ถ€ ์ง€ํ‘œ์—์„œ๋Š” ์•ž์„œ๋Š” ์ˆ˜์ค€. - RL ๋‹จ๊ณ„๊ฐ€ ์ง„ํ–‰๋˜๋ฉด์„œ ๋ชจ๋ธ์ด ์Šค์Šค๋กœ (1) ์ถ”๋ก  ๋‹จ๊ณ„ ๊ธธ์ด ํ™•์žฅ, (2) ๋ฐ˜์„ฑ(reflection), (3) ์ž๊ฐ€ ๊ต์ •(self-verification) ๋“ฑ์„ ํš๋“. - ๋‹ค๋งŒ ์ฝ๊ธฐ ์–ด๋ ค์šด ํ‘œํ˜„**์ด๋‚˜ **์–ธ์–ด ํ˜ผํ•ฉ(์ค‘ยท์˜๋ฌธ ๋’ค์„ž์ž„) ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒ.

3.3.2. ํ•™์Šต๊ณผ ์ถ”๋ก  ์‹œ ํšจ๊ณผ ํ•™์Šต ์‹œ Cross-Entropy Loss๋ฅผ โ€œ๊ธฐ์กด(Next Token) + MTP(Next2 Token)โ€ ํ˜•ํƒœ๋กœ ํ•จ๊ป˜ ์ตœ์ ํ™”. ์ถ”๋ก  ์‹œ์—๋Š” MTP ๋ชจ๋“ˆ์„ ๋ฒ„๋ฆฌ๊ฑฐ๋‚˜, ํ˜น์€ Speculative Decoding(๋‘˜์งธ ํ† ํฐ๊นŒ์ง€ ํ•œ๊บผ๋ฒˆ์— ํ—ˆ์šฉ)์œผ๋กœ ์†๋„ ํ–ฅ์ƒ์„ ๊พ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ†ต๊ณ„์ƒ, DeepSeek-V3์—์„œ ๋‘ ๋ฒˆ์งธ ํ† ํฐ์ด ๋งž์„ ํ™•๋ฅ ์€ 85~90%๋กœ ๋†’์•„, ์•ฝ 1.8๋ฐฐ์˜ ํ† ํฐ ์ฒ˜๋ฆฌ ์†๋„๋ฅผ ๊ตฌํ˜„ํ–ˆ๋‹ค๊ณ  ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค. 4. ํšจ์œจ์  ํ•™์Šต(Training) ์ธํ”„๋ผ 4.1. FP8 Training 4.1.1. ๊ธฐ์กด BF16 ๋Œ€๋น„ FP8 ๋„์ž… ๋ฐฐ๊ฒฝ BF16(๋˜๋Š” FP16)์€ ๋ถ€๋™์†Œ์ˆ˜์ ์—์„œ exponent๋ฅผ ์ถฉ๋ถ„ํžˆ ๋ณด์žฅํ•˜๋‚˜, ํฐ ๋ชจ๋ธ์—์„œ๋Š” ๋” ์ค„์ผ ์ˆ˜ ์žˆ๋Š” ์—ฌ์ง€๊ฐ€ ์žˆ์Œ. FP8์€ exponent ๋น„ํŠธ ์ˆ˜๊ฐ€ ์ค„์–ด ์ •๋ฐ€๋„ ๋ฌธ์ œ๊ฐ€ ์žˆ์ง€๋งŒ, (1) ๋ฏธ์„ธ ๊ตฌ๊ฐ„ ๋‹จ์œ„์˜ ์Šค์ผ€์ผ๋ง(์˜ˆ: 1ร—128, 128ร—128) (2) ๋†’์€ ์ •๋ฐ€๋„์˜ ๋ˆ„์‚ฐ(accumulation) (3) ์˜จ๋ผ์ธ ํ€€ํƒ€์ด์ œ์ด์…˜ ๋“ฑ์„ ํ†ตํ•ด ์ •๋ฐ€๋„ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ  ์—ฐ์‚ฐ์†๋„๋ฅผ ํฌ๊ฒŒ ๋†’์ž„. 4.1.2. ๊ตฌ์ฒด์  ์ „๋žต Fine-grained Quantization: Activation(ํŠนํžˆ forward ์ž…๋ ฅ ๋“ฑ)์€ โ€œํ† ํฐ๋ณ„ 128์ฑ„๋„ ๋‹จ์œ„(1ร—128)โ€๋กœ ์Šค์ผ€์ผ ์กฐ์ •, Weight(๊ฐ€์ค‘์น˜)๋Š” โ€œ128ร—128 ๋ธ”๋ก ๋‹จ์œ„โ€๋กœ ์Šค์ผ€์ผ ์กฐ์ •. ๋†’์€ ์ •๋ฐ€๋„ ๋ˆ„์‚ฐ: Tensor Core์—์„œ FP8 ์—ฐ์‚ฐ ์‹œ ๋‚ด๋ถ€์— 14๋น„ํŠธ ๋“ฑ ์ œํ•œ๋œ ์ •๋ฐ€๋„๋ฅผ ์“ฐ๋Š”๋ฐ, ์ผ์ • interval๋งˆ๋‹ค(์˜ˆ: 128๊ฐœ์”ฉ) CUDA Core์˜ FP32 ๋ ˆ์ง€์Šคํ„ฐ๋กœ ์Šน๊ฒฉํ•ด ๋” ์ •ํ™•ํžˆ ์ถ•์ . Online Quantization: ์ตœ๋Œ€ ์ ˆ๋Œ“๊ฐ’์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊ตฌํ•ด, ํ•ด๋‹น ๋ฏธ๋‹ˆ๊ทธ๋ฃน(ํ† ํฐ/๋ธ”๋ก ๋“ฑ)์— ๋งž์ถฐ ์Šค์ผ€์ผ๋งํ•˜์—ฌ FP8๋กœ ๋ณ€ํ™˜. 4.2. DualPipe ํŒŒ์ดํ”„๋ผ์ธ 4.2.1. ๋ฐฐ๊ฒฝ DeepSeek-V3์ฒ˜๋Ÿผ ๊ฑฐ๋Œ€ MoE ๋ชจ๋ธ์€ ๊ฐ ๋ ˆ์ด์–ด(๋˜๋Š” ๊ตฌ๊ฐ„)๋ฅผ GPU ์—ฌ๋Ÿฌ ๋Œ€์— ๊ฑธ์ณ ๋ถ„์‚ฐ(Pipeline Parallel)์‹œํ‚ค๊ณ , MoE ํ† ํฐ ์ „๋‹ฌ ๋“ฑ All-to-all ํ†ต์‹ ์ด ์žฆ์Šต๋‹ˆ๋‹ค. ๋‹จ์ˆœ 1F1B(Forward 1๊ฐœ, Backward 1๊ฐœ)๋‚˜ ZeroBubble ๊ฐ™์€ ๊ธฐ์กด ๊ธฐ๋ฒ•์€ ํ†ต์‹  ์‹œ๊ฐ„์ด ๊ฒน์น˜์ง€ ์•Š์•„ ์ „์ฒด ์†๋„ ์ €ํ•˜๊ฐ€ ํผ. 4.2.2. DualPipe ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์•„์ด๋””์–ด: Forward ์—ฐ์‚ฐ ์ค‘์— Backward์˜ ํ†ต์‹ , ๋˜๋Š” Backward์˜ ์ผ๋ถ€ ์—ฐ์‚ฐ๊ณผ Forward์˜ ํ†ต์‹ ์„ ๋™์‹œ์—(Overlap) ์ง„ํ–‰. ์„ธ๋ถ€์ ์œผ๋กœ Attention / MoE Dispatch / MLP / MoE Combine ๋“ฑ์„ ์ž˜๊ฒŒ ์ชผ๊ฐœ์–ด, ์ด๋“ค ์‚ฌ์ด์˜ ํ†ต์‹ ์„ ํŒŒ์ดํ”„๋ผ์ธ ์ƒ ์„œ๋กœ ๋‹ค๋ฅธ ๋งˆ์ดํฌ๋กœ๋ฐฐ์น˜๋ผ๋ฆฌ ๊ฒน์น˜๊ฒŒ ๊ตฌ์„ฑ. ๊ฒฐ๊ณผ์ ์œผ๋กœ ํ†ต์‹ ์ด ๊ฑฐ์˜ โ€œ๊ณต์งœ(fully hidden)โ€์ฒ˜๋Ÿผ ์ฒ˜๋ฆฌ๋˜์–ด, ์ปค๋‹ค๋ž€ GPU ํด๋Ÿฌ์Šคํ„ฐ์—์„œ๋„ ํ™•์žฅ์„ฑ์ด ์ข‹์•„์ง‘๋‹ˆ๋‹ค. 4.3. ์ถ”๋ก (Inference) ๋ฐ ๋ฐฐํฌ ์ „๋žต 4.3.1. Prefilling ์ถ”๋ก  ์‹œ โ€œ์ฒ˜์Œ ๋ฌธ๋งฅ์„ ๋Œ€๋Ÿ‰์œผ๋กœ ๋„ฃ์–ดโ€ ๋ชจ๋ธ ๋‚ด๋ถ€ ์ƒํƒœ(KV ์บ์‹œ ๋“ฑ)๋ฅผ ์ฑ„์šฐ๋Š” ๊ณผ์ •. DeepSeek-V3๋Š” ๋…ธ๋“œ ๊ฐ„ IB(InfiniBand) ํ†ต์‹ ๊ณผ ๋…ธ๋“œ ๋‚ด NVLink ํ†ต์‹ ์„ ํ˜ผํ•ฉํ•ด ์‚ฌ์šฉ. โ€œ์ค‘๋ณต Expert(Redundant Expert)โ€๋ฅผ ๋ฐฐ์น˜ํ•ด, ํŠน์ • Expert๊ฐ€ ๊ณผ๋ถ€ํ•˜๊ฐ€ ๋˜์ง€ ์•Š๋„๋ก ๋™์ ์œผ๋กœ ํ• ๋‹น. ์ด ๋ชจ๋“  ๊ณผ์ •์„ ํ†ตํ•ฉํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ์˜จยท์˜คํ”„๋ผ์ธ ์„œ๋น„์Šค์— ๋Œ€์‘ ๊ฐ€๋Šฅํ•œ ๊ตฌ์กฐ. 4.3.2. Decoding Prefilling ํ›„, ์‹ค์ œ ํ•œ ํ† ํฐ์”ฉ ๋””์ฝ”๋”ฉํ•˜๋Š” ๊ณผ์ •. ์‹ค์‹œ๊ฐ„ ์š”์ฒญ์—์„œ๋Š” ๋ชจ๋ฉ˜ํ…€์ด โ€œAttention ์—ฐ์‚ฐโ€์— ๋” ์ง‘์ค‘๋จ. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ โ€œRedundant Expertโ€ + โ€œNode๋ณ„๋กœ 1๊ฐœ Expertโ€ ๋ฐฉ์‹์œผ๋กœ ๊ตฌํ˜„ํ•˜์—ฌ, ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ํ†ต์‹ ์„ ๊ฒน์น˜๊ณ , ๊ธธ์ด๊ฐ€ ์งง์€ ๋งˆ์ดํฌ๋กœ๋ฐฐ์น˜๋ผ๋„ ๋น ๋ฅธ ์‘๋‹ต์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ํ•จ. 5. Pre-Training (์‚ฌ์ „ํ•™์Šต) 5.1. ๋ฐ์ดํ„ฐ ์ด 14.8์กฐ(14.8T) ํ† ํฐ ๊ทœ๋ชจ์˜ ๊ณ ํ’ˆ์งˆ ๋‹ค๊ตญ์–ด ๋ฐ์ดํ„ฐ. ์˜ยท์ค‘์‹ฌ + ๊ธฐํƒ€ ์–ธ์–ด ํฌํ•จ. ์ˆ˜ํ•™, ์ฝ”๋”ฉ ๋น„์ค‘์„ ๋Š˜๋ฆฌ๊ณ , ๋ฐ์ดํ„ฐ ์ค‘๋ณต ์ œ๊ฑฐ์™€ ํ’ˆ์งˆ ๊ด€๋ฆฌ๋ฅผ ๊ฐ•ํ™”. Fill-in-Middle(FIM) ์ „๋žต ์ ์šฉ: 10% ์ •๋„๋Š” ๋ฌธ์žฅ์˜ ๊ฐ€์šด๋ฐ๋ฅผ ๋งž์ถ”๋Š” ํ˜•ํƒœ๋กœ ํ•™์Šต(์ฝ”๋“œ ์™„์„ฑ ๋“ฑ์—์„œ ์œ ์šฉ). Byte-level BPE ๊ธฐ๋ฐ˜์˜ 12.8๋งŒ(128K) ํ† ํฐ ์‚ฌ์ „. 5.2. ํ•™์Šต ์ŠคํŽ™ Transformer ๋ ˆ์ด์–ด์ˆ˜ 61, hidden dim=7168, ํ—ค๋“œ์ˆ˜=128 ๋“ฑ. ๋ชจ๋“  FFN(์ฒซ 3๊ฐœ ์ œ์™ธ)์— MoE ์ ์šฉ. ๊ฐ ๋ ˆ์ด์–ด๋‹น ๊ณต์œ  Expert 1๊ฐœ, ๋ผ์šฐํŒ… Expert 256๊ฐœ. ๋‹จ, ๋งค ํ† ํฐ์—๋Š” 8๊ฐœ Expert ํ™œ์„ฑํ™”. ๋ฐฐ์น˜ ์‚ฌ์ด์ฆˆ ์Šค์ผ€์ค„๋ง, LR(learning rate) ์Šค์ผ€์ค„๋ง(์ดˆ๋ฐ˜ ์›Œ๋ฐ์—… โ†’ ์ฝ”์‚ฌ์ธ ๋””์ผ€์ด), ๋“ฑ ๋‹ค์–‘ํ•œ ๊ธฐ๋ฒ• ์‚ฌ์šฉ. MTP: depth=1, ์ฒซ 10T ํ† ํฐ ๋™์•ˆ MTP ๊ฐ€์ค‘์น˜ ฮป=0.3, ์ดํ›„ 0.1๋กœ ์กฐ์ •. Aux-loss-free์˜ bias ์—…๋ฐ์ดํŠธ ์†๋„ ฮณ=0.001(์ฒ˜์Œ 14.3T ํ† ํฐ๊นŒ์ง€), ๊ทธ ํ›„ 0์œผ๋กœ ์ค‘๋‹จ. 5.3. ๋กฑ์ปจํ…์ŠคํŠธ ํ™•์žฅ (YaRN) ์‚ฌ์ „ํ•™์Šต ํ›„, 4K ๋ฌธ๋งฅ์—์„œ ์‹œ์ž‘ํ•ด 2๋‹จ๊ณ„์— ๊ฑธ์ณ 32K, 128K๊นŒ์ง€ ๋ฌธ๋งฅ์„ ํ™•์žฅ. YaRN(Peng et al., 2023) ๊ธฐ๋ฒ•์œผ๋กœ ๋กœํ…Œ๋ฆฌ ์ž„๋ฒ ๋”ฉ(RoPE)์„ ํ™•์žฅํ•ด, 128K ๊ธธ์ด๊นŒ์ง€ ์•ˆ์ •์ ์œผ๋กœ ์ฒ˜๋ฆฌ. 5.4. ์„ฑ๋Šฅ ์š”์•ฝ (Base ๋ชจ๋ธ) English, Chinese, Multilingual ์ „๋ฐ˜์„ ์•„์šฐ๋ฅด๋Š” ๋ฒค์น˜๋งˆํฌ์—์„œ ๋™๊ธ‰ ๋Œ€๋น„ ์ตœ๊ณ  ์ˆ˜์ค€. ์˜ˆ) MMLU-Pro, GSM8K, MATH, HumanEval ๋“ฑ ์ฝ”๋”ฉยท์ˆ˜ํ•™ ๋ถ„์•ผ ์ตœ๊ณ  ์ˆ˜์ค€. ๋Œ€๋“ฑ ๊ทœ๋ชจ ํ˜น์€ ๋” ํฐ Dense ๋ชจ๋ธ๊ณผ ๋น„๊ต ์‹œ๋„์—์„œ๋„ ํ•™์Šต ๋น„์šฉ์ด๋‚˜ ์ถ”๋ก  ํšจ์œจ ๋ฉด์—์„œ ๊ฐ•์ . 6. Post-Training(์ถ”๊ฐ€ ํ•™์Šต, SFTยทRL) 6.1. Supervised Fine-Tuning (SFT) ์•ฝ 150๋งŒ ๊ฑด์˜ ๊ณ ํ’ˆ์งˆ ์ธ์ŠคํŠธ๋Ÿญ์…˜ ํŠœ๋‹ ๋ฐ์ดํ„ฐ. ํŠนํžˆ ์ˆ˜ํ•™ยท์ฝ”๋“œ ๋“ฑ ๋…ผ๋ฆฌ์  ์‚ฌ๊ณ (Reasoning) ๋ถ„์•ผ ๋ฐ์ดํ„ฐ์— ์ง‘์ค‘. DeepSeek-R1 ๋ชจ๋ธ(๋ณ„๋„ โ€œLong Chain-of-Thoughtโ€์— ํŠนํ™”)์˜ ์ถœ๋ ฅ์„ ์ ์ ˆํžˆ ์ •์ œํ•˜์—ฌ(๋„ˆ๋ฌด ๊ธธ๊ฑฐ๋‚˜ ํฌ๋งท ์—‰ํ‚จ ๋ถ€๋ถ„ ๋ณด์™„) final SFT ๋ฐ์ดํ„ฐ๋กœ ํ™œ์šฉ โ†’ ์ •ํ™•๋„ ๋Œ€ํญ ์ƒ์Šน. 6.2. RL (Reinforcement Learning) Group Relative Policy Optimization (GRPO) ๊ธฐ๋ฒ• ์‚ฌ์šฉ. Rule-based RM(์ •๋‹ต ๊ฒ€์ฆ ๊ฐ€๋Šฅ ๋ฌธ์ œ) + Model-based RM(์ •๋‹ต์ด ํ•˜๋‚˜๋กœ ๊ฒฐ์ • ์–ด๋ ค์šด ๋ฌธํ•ญ) ํ˜ผํ•ฉ. ์ž๊ธฐ ์ž์‹ (DeepSeek-V3)์ด ๋งŒ๋“  ํˆฌํ‘œ๊ฒฐ๊ณผ ๋“ฑ์„ ๋‹ค์‹œ ๋ณด์ƒ์œผ๋กœ ํ™œ์šฉํ•˜๋Š” โ€œSelf-Rewarding(Constitutional AI)โ€ ๋ฐฉ์‹๋„ ๋ณ‘ํ–‰. 7. ๊ฒฐ๋ก  ๋ฐ ํ•œ๊ณ„ DeepSeek-V3๋Š” (1) MLA, (2) DeepSeekMoE, (3) Aux-loss-free balancing, (4) MTP, (5) FP8 training ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜์‹  ์š”์†Œ๋ฅผ ๊ฒฐํ•ฉํ•œ **๊ฑฐ๋Œ€ ์ŠคํŒŒ์Šค ๋ชจ๋ธ(MoE)**์ž…๋‹ˆ๋‹ค. ์ด ํŒŒ๋ผ๋ฏธํ„ฐ 6710์–ต์ด์ง€๋งŒ, ๋งค ํ† ํฐ๋งˆ๋‹ค 370์–ต ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ํ™œ์„ฑํ™”ํ•˜๊ณ , ์‚ฌ์ „ํ•™์Šต 14.8T ํ† ํฐ, ๋กฑ์ปจํ…์ŠคํŠธ(์ตœ๋Œ€ 128K) ์ง€์›, ํฌ์ŠคํŠธ ํŠธ๋ ˆ์ด๋‹(SFT+RL)์œผ๋กœ ์ •๋ฐ€๋„์™€ ํ™œ์šฉ๋„(์ฝ”๋“œยท์ˆ˜ํ•™ ๋“ฑ) ๊ทน๋Œ€ํ™”๋ฅผ ์ด๋ฃน๋‹ˆ๋‹ค. ํ•™์Šต ๋น„์šฉ ์—ญ์‹œ **H800 GPU ๊ธฐ์ค€ ์•ฝ 278๋งŒ8์ฒœ GPU-์‹œ(์•ฝ 560๋งŒ ๋‹ฌ๋Ÿฌ)**๋กœ, ์ด ์ •๋„ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ ์ค‘์—์„  ๋งค์šฐ ๊ฒฝ์ œ์ ์œผ๋กœ ๋‹ฌ์„ฑ. 7.1. ์ œํ•œ์‚ฌํ•ญ ๋Œ€๊ทœ๋ชจ ํด๋Ÿฌ์Šคํ„ฐ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ค๊ณ„๋˜์–ด, ์ ์€ GPU ๋ณด์œ  ํŒ€์ด ์ง์ ‘ ์ถ”๋ก /์„œ๋น„์Šคํ•˜๊ธฐ๋Š” ์–ด๋ ต๋‹ค. ์ถ”๋ก  ์†๋„๋Š” ๊ธฐ์กด Dense ๋Œ€ํ˜• ๋ชจ๋ธ๋ณด๋‹ค ๋‚ซ์ง€๋งŒ, ์ž‘์€ Dense ๋ชจ๋ธ ๋Œ€๋น„ ์„ฑ๋Šฅ/์†๋„ ์ ˆ์ถฉ์€ ์‚ฌ์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๋”ฐ๋ผ ๊ณ ๋ฏผ์ด ํ•„์š”. 7.2. ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ๋ฌดํ•œ๋Œ€ ํ˜น์€ ๋” ํฐ ์ปจํ…์ŠคํŠธ๋ฅผ ์œ„ํ•œ RoPE/AliBi ๋“ฑ ํ™•์žฅ ๊ธฐ๋ฒ• ์—ฐ๊ตฌ. MoE ์ด์ƒ์œผ๋กœ ํšจ์œจ์ ์ธ ๊ตฌ์กฐ(์˜ˆ: ์ŠคํŒŒ์Šคํ•œ Attention, Retrieval-Augmented ๋“ฑ)์™€์˜ ์กฐํ•ฉ. ๋‹ค์–‘ํ•œ ๋ถ„์•ผ(๋น„์ „ยท๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋“ฑ)์œผ๋กœ ํ™•์žฅ, ํ›ˆ๋ จ ์‹ ํ˜ธ ๋‹ค์–‘ํ™”. **LLM ์ž์ฒด๋ฅผ ๋ณด์ƒ ํ•จ์ˆ˜๋กœ ํ™œ์šฉ(Self-Rewarding)**ํ•˜๋Š” ๊ธฐ๋ฒ•์„ ๋” ๊ณ ๋„ํ™”.

DeepSeek-R1 Release โšก Performance on par with OpenAI-o1 ๐Ÿ“– Fully open-source model & technical report https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf 1. ์™œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์— Mixture-of-Experts(MoE)๋ฅผ ์ ์šฉํ•˜๋Š”๊ฐ€? 1.1. LLM์˜ ๊ธฐ๋ณธ ์•„์ด๋””์–ด **๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)**์€ ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ํ…์ŠคํŠธ๋ฅผ ํ•™์Šตํ•˜์—ฌ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. Transformer ๊ตฌ์กฐ(Vaswani et al., 2017)๊ฐ€ ์ฃผ๋ฅ˜์ด๋ฉฐ, ์ž๊ฐ€ํšŒ๊ท€(autoregressive) ๋ฐฉ์‹์œผ๋กœ ๋‹ค์Œ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋Š” ํ™•๋ฅ ์  ์–ธ์–ด ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ดˆ๊ธฐ์˜ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์€ ์ „๋ถ€ Dense ๋ชจ๋ธ์ด์—ˆ๋Š”๋ฐ, ์ด๋Š” ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋งค ํ† ํฐ๋งˆ๋‹ค ์ „๋ถ€ ํ™œ์„ฑํ™”ํ•˜์—ฌ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ) GPT ์‹œ๋ฆฌ์ฆˆ, BERT ์‹œ๋ฆฌ์ฆˆ ๋“ฑ. 1.2. Mixture-of-Experts(MoE)์˜ ํ•ต์‹ฌ ๋™๊ธฐ **Mixture-of-Experts(์ดํ•˜ MoE)**๋Š” ๋งค ํ† ํฐ๋งˆ๋‹ค โ€˜์ „๋ถ€๊ฐ€ ์•„๋‹Œ ์ผ๋ถ€ ์ „๋ฌธ๊ฐ€(Expert)โ€™ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ์‚ฌ์šฉํ•ด ์ถ”๋ก ํ•˜๋„๋ก ํ•˜๋Š” ์•„์ด๋””์–ด์ž…๋‹ˆ๋‹ค. ์˜ˆ) 1,000์–ต ๊ฐœ ํŒŒ๋ผ๋ฏธํ„ฐ ์ค‘์—์„œ 50์–ต ๊ฐœ๋งŒ ํ™œ์„ฑํ™”, ๋‚˜๋จธ์ง€๋Š” ๋น„ํ™œ์„ฑํ™”. ์žฅ์ : ๊ฒฝ์ œ์„ฑ: ๋Œ€๊ทœ๋ชจ ํŒŒ๋ผ๋ฏธํ„ฐ ์ค‘ ์ผ๋ถ€๋งŒ ๊ณ„์‚ฐํ•˜๋ฏ€๋กœ, ๊ฐ™์€ ์ˆ˜์ค€(๋˜๋Š” ๋” ๋†’์€ ์ˆ˜์ค€)์˜ ํ‘œํ˜„๋ ฅ์„ ๋” ์ ์€ FLOPs(์—ฐ์‚ฐ๋Ÿ‰)๋กœ ๋‹ฌ์„ฑ. ์ „๋ฌธ์„ฑ ๋ถ„ํ™”: ํ† ํฐ๋ณ„๋กœ ๊ฐ€์žฅ ์ž˜ ๋งž๋Š” ์ „๋ฌธ๊ฐ€(Expert)๊ฐ€ ํ™œ์„ฑํ™”๋˜๋ฉฐ, ํŠน์ • ํ† ํฐ(์˜ˆ: ์ˆ˜ํ•™, ํ”„๋กœ๊ทธ๋ž˜๋ฐ, ์˜ํ•™ ํ…์ŠคํŠธ ๋“ฑ)์€ ํ•ด๋‹น ๋ถ„์•ผ์— ํŠนํ™”๋œ Expert๊ฐ€ ํ•™์Šต๋˜์–ด ์„ฑ๋Šฅ ํ–ฅ์ƒ. ํ•˜์ง€๋งŒ ๋ฌธ์ œ์ ๋„ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค: Expert๋“ค์˜ ๋ถ€ํ•˜ ๋ถˆ๊ท ํ˜•(Load Imbalance): ํŠน์ • Expert์—๋งŒ ํ† ํฐ์ด ๊ณผ๋„ํ•˜๊ฒŒ ๋ชฐ๋ฆฌ๋ฉด ํ•™์Šต/์ถ”๋ก ์ด ๋น„ํšจ์œจ์ . ํ•™์Šต ์‹œ Token dispatch/combination ๋‹จ์—์„œ ํ†ต์‹ (์˜ฌํˆฌ์˜ฌ(All-to-all) ํ†ต์‹ )์ด ๋งŽ์•„์ ธ ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ์ปค์งˆ ์ˆ˜ ์žˆ์Œ. DeepSeek-V3๋Š” ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด DeepSeekMoE๋ผ๋Š” ๊ตฌ์กฐ์™€ ๋ณด์กฐ ๋กœ์Šค ์—†๋Š”(Aux-loss-free) ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ ์ „๋žต์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. 2. DeepSeek-V3์˜ ์„ค๊ณ„ ๊ฐœ์š” DeepSeek-V3๋Š” ์•ฝ **6710์–ต ๊ฐœ(โ€˜์ด ํŒŒ๋ผ๋ฏธํ„ฐโ€™)**์— ๋‹ฌํ•˜๋Š” ๊ฑฐ๋Œ€ ๋ชจ๋ธ์ด์ง€๋งŒ, ๋งค ํ† ํฐ๋งˆ๋‹ค ์•ฝ 370์–ต ๊ฐœ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ํ™œ์„ฑํ™”ํ•ด์„œ ๊ณ„์‚ฐํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๊ฑฐ๋Œ€ ๋ชจํ˜•์„ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตยท์ถ”๋ก ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•ต์‹ฌ ์„ค๊ณ„๋ฅผ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. Multi-head Latent Attention (MLA) ๊ธฐ์กด Transformer์˜ Self-Attention์—์„œ Key-Value๋ฅผ ์ถ•์†Œ(latent vector)ํ•œ ๋’ค, ํ•„์š”ํ•  ๋•Œ๋งŒ ๋‹ค์‹œ ๋ณต์›(up-projection)ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, KV ์บ์‹œ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์ค„์—ฌ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์ด๋ผ๋„ ๊ธด ๋ฌธ๋งฅ ์ฒ˜๋ฆฌ ์†๋„๋ฅผ ๋†’์ž„. DeepSeekMoE + Aux-loss-free balancing FFN(Feed-Forward Network) ๋ถ€๋ถ„์„ MoE ๊ตฌ์กฐ๋กœ ๊ตฌ์„ฑํ•˜๋˜, Expert ๊ฐ„ ๋ถ€ํ•˜๋ฅผ ๋งž์ถ”๊ธฐ ์œ„ํ•ด โ€˜๋ณด์กฐ ๋กœ์Šค(auxiliary loss)โ€™๋ฅผ ๊ฐ•์ œํ•˜์ง€ ์•Š๊ณ , ๋™์  ๋ฐ”์ด์–ด์Šค(bias)๋ฅผ ์กฐ์ •ํ•ด ๋ถˆ๊ท ํ˜•์„ ํ•ด๊ฒฐ(โ€œAux-loss-freeโ€ ๊ธฐ๋ฒ•). ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ ๋ชจ๋ธ ์„ฑ๋Šฅ ์†์‹ค ์—†์ด ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ์„ ๋‹ฌ์„ฑ. Multi-Token Prediction (MTP) ํ•œ ์œ„์น˜์—์„œ ๋‹ค์Œ ํ† ํฐ ํ•˜๋‚˜๋งŒ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ํ•œ ๋ฒˆ์— ์—ฌ๋Ÿฌ ํ† ํฐ(์—ฌ๊ธฐ์„œ๋Š” 2๊ฐœ)๊นŒ์ง€ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šต. ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ๊ณผ ๋ชจ๋ธ ์„ฑ๋Šฅ ๋ชจ๋‘์— ๋„์›€์„ ์ฃผ๋ฉฐ, ์ถ”๋ก  ์‹œ์—๋Š” Speculative Decoding ๊ธฐ๋ฒ•์œผ๋กœ TPS(์ดˆ๋‹น ํ† ํฐ ์ฒ˜๋ฆฌ๋Ÿ‰)๋ฅผ ๋†’์ด๋Š” ๋ฐ ํ™œ์šฉ ๊ฐ€๋Šฅ. FP8 Training ๋ฐ ํšจ์œจ์  ๋ถ„์‚ฐ ํ•™์Šต ๋Œ€๋ถ€๋ถ„์˜ ๊ณ„์‚ฐ์„ FP8 ์ •๋ฐ€๋„๋กœ ์ˆ˜ํ–‰ํ•˜์—ฌ ํ•™์Šต ๋น„์šฉ๊ณผ GPU ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ํฌ๊ฒŒ ์ ˆ๊ฐ. ์ด ๊ณผ์ •์—์„œ ์ •๋ฐ€๋„ ์†์‹ค์„ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด, ๋ฏธ์„ธํ•œ ์Šค์ผ€์ผ๋ง(granularity scaling)๊ณผ ๋†’์€ ์ •๋ฐ€๋„์˜ ๋ˆ„์‚ฐ(accumulation)์„ ์‚ฌ์šฉ. All-to-all ํ†ต์‹ ์„ ๋ถ„์‚ฐ ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ๊ฒน์ณ์„œ(dual-pipe) ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ตœ๋Œ€ํ•œ ์ˆจ๊น€. 3. ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋ณ„ ์ƒ์„ธ ์„ค๋ช… 3.1. Multi-head Latent Attention(MLA) 3.1.1. ์™œ MLA์ธ๊ฐ€? ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์€ โ€˜KV ์บ์‹œ(Key-Value Cache)โ€™๊ฐ€ ๋งค์šฐ ์ปค์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ 64๊ฐœ ํ—ค๋“œ ร— ํžˆ๋“ ์ฐจ์› 128 ๋“ฑ์œผ๋กœ ์ปค์ง€๋ฉด, ๊ธด ๋ฌธ๋งฅ ์ฒ˜๋ฆฌ ์‹œ ๋ฉ”๋ชจ๋ฆฌ์™€ ์—ฐ์‚ฐ๋Ÿ‰์ด ๋ฌธ์ œ๋จ. MLA๋Š” Key/Value๋ฅผ ๋จผ์ € ์ €์ฐจ์›(latent)์œผ๋กœ ์••์ถ•ํ–ˆ๋‹ค๊ฐ€, ์‹ค์ œ Attention ์—ฐ์‚ฐ ์ง์ „์— ๋‹ค์‹œ ๋ณต์›(up-projection)ํ•ด ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ถ”๋ก  ์‹œ, โ€˜์••์ถ•๋œ ๋ฒกํ„ฐ(c_KV_t ๋“ฑ)โ€™๋งŒ ์บ์‹œ์— ์ €์žฅํ•˜๋ฉด ๋˜๋ฏ€๋กœ, ์บ์‹œ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ํฌ๊ฒŒ ์ค„์–ด๋“ญ๋‹ˆ๋‹ค. 3.1.2. ๊ตฌ์กฐ Attention์— ํ•„์š”ํ•œ Query/Key/Value๋ฅผ ๋‹ค์Œ์ฒ˜๋Ÿผ ๊ตฌ๋ถ„: (1) ์••์ถ•(latent) ๋ฒกํ„ฐ: h_t โ†’ c_KV_t(์ฐจ์› d_c). (2) ๋ณต์›(up-projection) ํ–‰๋ ฌ: c_KV_t โ†’ (k_C, v_C). (3) RoPE ๋กœํ…Œ๋ฆฌ ์ž„๋ฒ ๋”ฉ์šฉ decoupled query/key: ์ถ”๊ฐ€๋กœ k_R, q_R๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ๋ฌธ๋งฅ ์œ„์น˜ ์ •๋ณด๋ฅผ ๋ฐ˜์˜. ๊ฒฐ๋ก ์ ์œผ๋กœ MLA๋Š” Token ํ•˜๋‚˜๊ฐ€ ์ง€๋‚˜๊ฐˆ ๋•Œ (์••์ถ• + ๋ณต์› + RoPE + ์ตœ์ข… ์–ดํ…์…˜) ๊ณผ์ •์„ ๊ฑฐ์นฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด **โ€œKV ์บ์‹œ ํฌ๊ธฐ ๊ฐ์†Œโ€**์™€ **โ€œ์„ฑ๋Šฅ ๋ณด์กดโ€**์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ์ด์ ์„ ์–ป์Šต๋‹ˆ๋‹ค. 3.2. DeepSeekMoE (Mixture-of-Experts) & Auxiliary-loss-free Balancing 3.2.1. DeepSeekMoE ๊ธฐ๋ณธ ์•„์ด๋””์–ด Transformer์˜ FFN ๋‹จ์„ MoE Layer๋กœ ๋ฐ”๊พธ์–ด, ์ผ๋ถ€(๊ณต์œ  Expert, N_s๊ฐœ)๋Š” ๋ชจ๋“  ํ† ํฐ์ด ๊ณตํ†ต์ ์œผ๋กœ ์“ฐ๊ณ , ๋‚˜๋จธ์ง€(๋ผ์šฐํŒ… Expert, N_r๊ฐœ)๋Š” ํ† ํฐ๋ณ„๋กœ top-Kr๊ฐœ๋งŒ ์„ ๋ณ„ํ•˜์—ฌ ๊ณ„์‚ฐ. ์˜ˆ: h'_t = h_t + ฮฃ(Shared Experts) + ฮฃ(Routed Experts). ๋ผ์šฐํŒ…์€ ํ† ํฐ๊ณผ Expert ๊ฐ„์˜ ์ ์ˆ˜(affinity)๋ฅผ ๊ตฌํ•˜์—ฌ, ๊ฐ€์žฅ ๋†’์€ Expert ๋ช‡ ๊ฐœ๋ฅผ ํ™œ์„ฑํ™”. 3.2.2. Aux-loss-free ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ ๊ธฐ์กด MoE ์—ฐ๊ตฌ๋“ค์€ Expert ๊ฐ„ ๋ถ€ํ•˜๋ฅผ ๊ท ๋“ฑํ•˜๊ฒŒ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด **๋ณด์กฐ ๋กœ์Šค(auxiliary loss)**๋ฅผ ํ•จ๊ป˜ ์ตœ์†Œํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด ๋กœ์Šค๊ฐ€ ๋„ˆ๋ฌด ํฌ๋ฉด ๋ชจ๋ธ ๋ณธ๋ž˜์˜ ์ตœ์ ํ™”๋ฅผ ํ•ด์น  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. DeepSeek-V3๋Š” ๋ณด์กฐ ๋กœ์Šค ์—†์ด๋„ ๊ท ๋“ฑ ๋ถ€ํ•˜๋ฅผ ๋‹ฌ์„ฑํ•˜๋„๋ก, ๊ฐ Expert๋งˆ๋‹ค ๋™์ ์ธ โ€˜biasโ€™ ๋ณ€์ˆ˜๋ฅผ ๋‘๊ณ , ๋งค ์Šคํ…๋งˆ๋‹ค expert๊ฐ€ ๊ณผ๋ถ€ํ•˜ยท์ €๋ถ€ํ•˜์ธ์ง€์— ๋”ฐ๋ผ bias๋ฅผ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๊ท ๋“ฑ ๋ถ€ํ•˜๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๋ชจ๋ธ ์„ฑ๋Šฅ ์†ํ•ด๊ฐ€ ์ ๊ณ , ์ „๋ฌธ๊ฐ€ ๋ถ„ํ™”๋ฅผ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค. 3.2.3. ์ถ”๊ฐ€๋กœ ์ ์šฉ๋˜๋Š” ๊ธฐ๋ฒ•๋“ค Sequence-wise auxiliary loss: ๊ทธ๋ž˜๋„ ํŠน์ • ์‹œํ€€์Šค๊ฐ€ ์ผ๋ถ€ expert์—๋งŒ ๋ชฐ๋ฆฌ๋Š” ๊ทน๋‹จ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด, ๋งค์šฐ ์ž‘์€ ๊ฐ€์ค‘์น˜์˜ ์‹œํ€€์Šค ์ฐจ์› ๋ณด์กฐ ๋กœ์Šค๋ฅผ ์ถ”๊ฐ€. Node-limited routing: ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ œํ•œํ•˜๊ธฐ ์œ„ํ•ด ํ•œ ํ† ํฐ์ด ์ตœ๋Œ€ M๊ฐœ์˜ ๋…ธ๋“œ๊นŒ์ง€๋งŒ ๋ถ„์‚ฐ๋˜๋Š” ์ œํ•œ์„ ๋‘ (์˜ˆ: M=4). Token-dropping ์—†์Œ: ๋กœ๋“œ ๋ฐธ๋Ÿฐ์Šค๊ฐ€ ์•ˆ์ •์ ์œผ๋กœ ์œ ์ง€๋˜๋ฏ€๋กœ, DeepSeek-V3๋Š” ํ† ํฐ ๋“œ๋กญ ์—†์ด ์ง„ํ–‰. 3.3. Multi-Token Prediction (MTP) 3.3.1. ํ•œ ๋ฒˆ์— ์—ฌ๋Ÿฌ ํ† ํฐ ์˜ˆ์ธกํ•˜๊ธฐ ์ผ๋ฐ˜ Transformer๋Š” ์œ„์น˜ t์—์„œ โ€œt+1๋ฒˆ์งธโ€ ํ† ํฐ๋งŒ ์˜ˆ์ธก. MTP๋Š” t์—์„œ โ€œt+1, t+2, โ€ฆโ€ ๊ฐ™์ด ์—ฌ๋Ÿฌ ๊ฐœ๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ์ถ”๊ฐ€ ๋ชจ๋“ˆ์„ ๋‘ก๋‹ˆ๋‹ค. DeepSeek-V3์—์„œ๋Š” depth=1(์ฆ‰, โ€œ๋‹ค์Œ ํ† ํฐ + ์ถ”๊ฐ€๋กœ ๊ทธ ๋‹ค์Œ ํ† ํฐโ€)๋งŒ ์˜ˆ์ธกํ•˜๋‚˜, ์ด๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ํšจ์œจ๊ณผ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ๋ง ๋‚ด๋‚ด OpenAI์˜ '์˜คํผ๋ ˆ์ดํ„ฐ' ์—์ด์ „ํŠธ์™€ ํ•จ๊ป˜ ๋†€์•˜์Šต๋‹ˆ๋‹ค. https://www.youtube.com/live/CSE77wAdDLg?si=lwBc_rySVhPbz-Qc ๋ช‡ ๊ฐ€์ง€ ์ดˆ๊ธฐ ์ƒ๊ฐ: 1) ์ด๋ฏธ ํ˜ธ์ŠคํŒ…๋˜์–ด ์žˆ๊ณ  ๋ฐ”๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์‚ฌ์‹ค์€ Claude์˜ โ€œ์ปดํ“จํ„ฐ ์‚ฌ์šฉโ€ ๊ธฐ๋Šฅ๋ณด๋‹ค ๋” ๋„๋ฆฌ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. 2) ์šด์˜์ž๋Š” ์–ด๋–ค ์ด์œ ๋กœ๋“  API๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๋Š” ์›น์‚ฌ์ดํŠธ๋„ API๊ฐ€ ์žˆ๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ์ž‘๋™ํ•˜๋„๋ก ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์ œ ์ž๋™ํ™”ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. 3) ์˜คํผ๋ ˆ์ดํ„ฐ๋Š” LLM์˜ ๋„๊ตฌ ํ˜ธ์ถœ๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์ธํ„ฐ๋„ท ์ „์ฒด๋ฅผ '๋„๊ตฌ'๋กœ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ์ ๋งŒ ๋‹ค๋ฆ…๋‹ˆ๋‹ค(์‚ฌ์ดํŠธ์— API๊ฐ€ ์žˆ๋“  ์—†๋“ ). 4) ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ํ•จ์ˆ˜์— ๋Œ€ํ•œ ์บ์‹ฑ/์‚ฌ์ „ ์ปดํŒŒ์ผ์˜ ํ˜•ํƒœ๋ฅผ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ๋ณธ์ ์œผ๋กœ ์šด์˜์ž๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ํ•„์š”ํ•œ ๊ธฐ๋Šฅ์— ๋Œ€ํ•ด *์ž์ฒด* API๋ฅผ ์ž‘์„ฑํ•œ ๋‹ค์Œ, ์ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํŠน์ • ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 5) ์˜คํผ๋ ˆ์ดํ„ฐ๋Š” ๊ฐ€์ƒ ๋ธŒ๋ผ์šฐ์ €์˜ ์—ฌ๋Ÿฌ ์ธ์Šคํ„ด์Šค์— ๊ฑธ์ณ ๊ธด ์ž‘์—… ๋ชฉ๋ก์„ ๋ฐฐํฌํ•˜๊ธฐ ์œ„ํ•ด ๋ฐฑ๊ทธ๋ผ์šด๋“œ์—์„œ ์ž์ฒด์ ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 6) ์šด์˜์ž๋Š” ์ž‘์—…์„ ๋ณ‘๋ ฌํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ์‹œ: ์ž‘์—…์—๋Š” 50๊ฐœ์˜ ์›น ํŽ˜์ด์ง€๋กœ ๊ตฌ์„ฑ๋œ ๊ฒฐ๊ณผ๋ฅผ ํŽ˜์ด์ง•ํ•˜๋Š” ์ž‘์—…์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. ๋Œ€์‹  ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋งํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค: ์—ฐ์‚ฐ์ž A๋Š” ์ฒซ ๋ฒˆ์งธ ํŽ˜์ด์ง€์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ์•ž์œผ๋กœ ์ด๋™ํ•ฉ๋‹ˆ๋‹ค. ์—ฐ์‚ฐ์ž B๋Š” ๋งˆ์ง€๋ง‰ ํŽ˜์ด์ง€์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ๋’ค๋กœ ์ด๋™ํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋“  ํŽ˜์ด์ง€๊ฐ€ ์™„๋ฃŒ๋˜๋ฉด โ€œ์ค‘๊ฐ„์—์„œ ๋งŒ๋‚˜๊ฒŒโ€ ๋ฉ๋‹ˆ๋‹ค. 7) ํ˜„์žฌ ์›น์‚ฌ์ดํŠธ๋Š” (๋Œ€๋ถ€๋ถ„) ์ธ๊ฐ„์„ ์œ„ํ•ด ๋งŒ๋“ค์–ด์กŒ๊ณ  API๋Š” (๋Œ€๋ถ€๋ถ„) ๊ฐœ๋ฐœ์ž(ํŠน์ˆ˜ํ•œ ์œ ํ˜•์˜ ์ธ๊ฐ„)๋ฅผ ์œ„ํ•ด ๋งŒ๋“ค์–ด์กŒ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ฐ”์ผ ์‚ฌ์ดํŠธ๋Š” ๋ชจ๋ฐ”์ผ ๊ธฐ๊ธฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์‚ฌ๋žŒ์„ ์œ„ํ•ด ๋งŒ๋“ค์–ด์กŒ์Šต๋‹ˆ๋‹ค. ์•ž์œผ๋กœ๋Š” ์—์ด์ „ํŠธ AI๊ฐ€ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด ํŠน๋ณ„ํžˆ ์ œ์ž‘๋œ ์›น์‚ฌ์ดํŠธ๋ฅผ ๋ณด๊ฒŒ ๋ ์ง€ ๊ถ๊ธˆํ•ฉ๋‹ˆ๋‹ค.

โ€ข ๋ชจ๋ธ์˜ ์‹œํ€€์Šค ๊ธธ์ด ์ฆ๊ฐ€, KV์บ์‹œ ๋ฉ”๋ชจ๋ฆฌ ๋ฌธ์ œ๊ฐ€ ๋ฐฐ์น˜ ํšจ์œจ์„ ๋–จ์–ด๋œจ๋ฆผ. โ€ข OpenAI ๋“ฑ์€ โ€œ์žฅ๋ฌธ ์ถ”๋ก โ€ ๋ชจ๋ธ์— ๋” ๋†’์€ API ๊ฐ€๊ฒฉ ๋งค๊น€. ๋‹ค์–‘ํ•œ ์ตœ์ ํ™”(GQA, quant, flash-attn ๋“ฑ)๊ฐ€ ํ•„์ˆ˜. 3. AI ์ธํ”„๋ผ ํˆฌ์ž โ€ข GPU(๋˜๋Š” TPU) ์ž์ฒด ๊ฐ€๊ฒฉ์ด ์›”๋“ฑํžˆ ๋น„์‹ธ, ์ „๊ธฐยท์ฟจ๋ง ๋น„์šฉ์€ ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์•„. โ€ข ๋”ฐ๋ผ์„œ โ€œ๋Œ€๊ทœ๋ชจ ๋ฐฐ์น˜๋กœ GPU ํ’€ ๊ฐ€๋™, ๋‹จ๊ฐ€ ์ ˆ๊ฐโ€ ๋ฐฉ์‹์ด ํ•ต์‹ฌ ๋น„์ฆˆ๋‹ˆ์Šค ๋ชจ๋ธ. โ€ข Sovereign ํŽ€๋“œ, ์‚ฌ๋ชจํŽ€๋“œ, ํด๋ผ์šฐ๋“œ ์Šคํƒ€ํŠธ์—… ๋“ฑ ์ „๋ฐฉ์œ„์—์„œ ์ผ์ข…์˜ ์ธํ”„๋ผ ๊ธˆ์œต์œผ๋กœ ํˆฌ์ž ์—ดํ’. 4. ์—ฐ๊ตฌ/๊ฐœ๋ฐœ ๊ณผ์ œ โ€ข ๋ฉ€ํ‹ฐ ๋ฐ์ดํ„ฐ์„ผํ„ฐ ๋น„๋™๊ธฐ ํ›ˆ๋ จ, ๋” ๊ธด ์‹œํ€€์ŠคยทKV์บ์‹œ ์ตœ์ ํ™”, ํฌ์†Œ์„ฑยท์–‘์žํ™”, ์ž๋™ ๋ถ„์‚ฐ ๊ด€๋ฆฌ ๋“ฑ ํ•ด๊ฒฐํ•ด์•ผ ํ•  ๋ฌธ์ œ ์—ฌ๋Ÿฟ. โ€ข ์ž๋ณธ๊ณผ ์ธ๋ ฅ์ด ๋Œ€๊ทœ๋ชจ ํˆฌ์ž…๋˜๋ฉด์„œ โ€œ์ง€์†์ ์ธ ์ธํ”„๋ผ ํ˜์‹ +๋น„์šฉ ์ ˆ๊ฐโ€์ด ์˜ˆ์ƒ๋˜๋‚˜, ์ „๋ ฅยทํ™˜๊ฒฝ ๋ฌธ์ œ๋Š” ๊ฐˆ๋“ฑ ์š”์†Œ. ๊ฒฐ๊ตญ ๋ณธ ๋ฐœํ‘œ์˜ ํ•ต์‹ฌ ๋ฉ”์‹œ์ง€๋Š”, AI ๋Œ€ํ˜• ๋ชจ๋ธ์„ ํ•™์Šตยท์ถ”๋ก ํ•˜๊ธฐ ์œ„ํ•ด ์ „ ์„ธ๊ณ„๊ฐ€ ์ „๋ก€ ์—†์ด ๊ฑฐ๋Œ€ํ•œ GPU ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋ฅผ ๊ฑด์„ค ์ค‘์ด๊ณ , ์ด ๊ณผ์ •์—์„œ ํ† ํฐ ๋ฐฐ์น˜ยทKV ์บ์‹œยท์‹œํ€€์Šค ๊ธธ์ด ๋“ฑ ์‹œ์Šคํ…œ์  ๋ณ‘๋ชฉ๊ณผ ์—„์ฒญ๋‚œ ์ž๋ณธ/์ „๋ ฅ ์š”๊ตฌ๊ฐ€ ๋“œ๋Ÿฌ๋‚˜๊ณ  ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์—…๊ณ„ ์ „๋ฐ˜์€ โ€œAGI, AI ํญ๋ฐœ์  ์„ฑ์žฅโ€์„ ๊ธฐ๋Œ€ํ•˜๋ฉฐ, ์ ์–ด๋„ ์ˆ˜๋…„๊ฐ„์€ ์ด๋Ÿฌํ•œ ์ดˆ๋Œ€ํ˜• ํ™•์žฅ ๊ธฐ์กฐ๊ฐ€ ์ด์–ด์งˆ ์ „๋ง์ž„์„ ์‹œ์‚ฌํ•œ๋‹ค.

https://youtu.be/hobvps-H38o AI ๋ฉ”๊ฐ€ ํด๋Ÿฌ์Šคํ„ฐ(Mega Clusters)์˜ ํ˜„ํ™ฉ 2.1 ๋งˆ์ดํฌ๋กœ์†Œํ”„ํŠธ & OpenAI์˜ ์˜ˆ์‹œ 1. ์• ๋ฆฌ์กฐ๋‚˜ ๋ฐ์ดํ„ฐ์„ผํ„ฐ โ€ข ๊ฑด๋ฌผ(โ€œ๋ฐ์ดํ„ฐ ํ™€โ€) ํ•˜๋‚˜๋‹น ์ „๋ ฅ ์•ฝ 48MW, ๋‚ด๋ถ€์— 3.2๋งŒ ๊ฐœ GPU(์ด 32k GPU) ํƒ‘์žฌ ๊ฐ€๋Šฅ. โ€ข ์—ฌ๋Ÿฌ ๊ฑด๋ฌผ์„ ๋ฌถ์–ด 10๋งŒ ๊ฐœ GPU ๊ทœ๋ชจ๋„ ๊ตฌ์„ฑ. โ€ข ๋น… ๋ชจ๋ธ(GPT-4/5 ๋“ฑ) ํ•™์Šต์„ ์œ„ํ•ด ์„ค๊ณ„๋œ ์ „ํ˜•์  ๊ตฌ์กฐ. 2. ํ–ฅํ›„ ํ™•์žฅ โ€ข ๊ณผ๊ฑฐ ๋‹จ์ผ ๊ฑด๋ฌผ(50MW ์ „ํ›„)์„ ๋„˜์–ด, 300MW~1.5GW๊ธ‰ ๋‹จ์ผ ๋ถ€์ง€ ๊ทœ๋ชจ๋ฅผ ๋ชฉํ‘œ. โ€ข 1.5GW๊ธ‰์ด๋ฉด ์•ฝ 100๋งŒ(1e6) ๊ฐœ GPU๋ฅผ ์ˆ˜์šฉ ๊ฐ€๋Šฅ โ†’ GPT-4๋ณด๋‹ค ํ›จ์”ฌ ํฐ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ. 3. ๋„คํŠธ์›Œํ‚น ๋ฐ ํ† ํด๋กœ์ง€ โ€ข ๋‹ค์ธต ์Šค์œ„์น˜(rail-optimized vs. fat-tree) ๊ตฌ์กฐ๋กœ ๊ณ ๊ฐ€์šฉ์„ฑ/๊ณ ๋Œ€์—ญํญ ๊ตฌํ˜„. โ€ข Synchronous GD(๋™๊ธฐ ๋ฐฉ์‹)์—์„œ ๋ฒ—์–ด๋‚˜, Multi-datacenter๋ฅผ ๋ฌถ์„ ์ˆ˜ ์žˆ๋Š” Asynchronous/ํŒŒ๋ผ๋ฏธํ„ฐ ์„œ๋ฒ„/๊ณ„์ธต์  SGD ๊ธฐ๋ฒ•์— ๋Œ€ํ•œ ์—ฐ๊ตฌ ํ™œ๋ฐœ. โ€ข ์ง€์—ฐ(latency)๋ณด๋‹ค๋Š” ๋Œ€์—ญํญ ๋ถ€์กฑ์ด ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์—ฐ๊ฒฐ ์‹œ ํฐ ๋ฌธ์ œ. 2.2 ๊ตฌ๊ธ€ TPU ํด๋Ÿฌ์Šคํ„ฐ 1. ๊ณ ์ง‘์ ยท์ˆ˜๋žญ(๋ฌผ๋ƒ‰๊ฐ) ์„ค๊ณ„ โ€ข TPU๋Š” ์ „๋ ฅ ๋ฐ€๋„๊ฐ€ ํฌ๋ฏ€๋กœ ์ผ์ฐ๋ถ€ํ„ฐ ๋ฌผ๋ƒ‰๊ฐ, ๋†’์€ ๋ฐ€๋„ ์„ค๊ณ„๋ฅผ ๋„์ž…. โ€ข ์ง€์—ญ๋ณ„(์˜คํ•˜์ด์˜ค, ์•„์ด์˜ค์™€ ๋“ฑ) ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋ฅผ ๊ด‘ํ†ต์‹ ์œผ๋กœ ์—ฐ๊ฒฐ, ๋Œ€๊ทœ๋ชจ ํ•™์Šต ์‹œ ํ•˜๋‚˜์˜ ๋ถ„์‚ฐ ํด๋Ÿฌ์Šคํ„ฐ์ฒ˜๋Ÿผ ์‚ฌ์šฉ ๊ณ„ํš. 2. ๋™๊ธฐ์‹์—์„œ ๋น„๋™๊ธฐ์‹์œผ๋กœ โ€ข ๋™๊ธฐ์‹ ํ•™์Šต ์‹œ ๋ช‡ ๋งŒ~๋ช‡ ์‹ญ ๋งŒ GPU(๋˜๋Š” TPU) ๊ฐ„ ๋™๊ธฐํ™” ๋ฌธ์ œ ๋ฐœ์ƒ. โ€ข ๊ตฌ๊ธ€ ๋“ฑ์€ โ€œ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋ฅผ ์—ฐ๊ฒฐํ•ด ๋‹จ์ผ ๊ฑฐ๋Œ€ ํด๋Ÿฌ์Šคํ„ฐโ€ ๊ตฌ์„ฑ์„ ์‹œ๋„ํ•˜๋‚˜, ์•„์ง์€ ์—ฌ๋Ÿฌ ์—ฐ๊ตฌ ๊ณผ์ œ๊ฐ€ ๋‚จ์•„ ์žˆ์Œ. 2.3 xAI(Elon Musk) ์‚ฌ๋ก€ 1. ๋ฉคํ”ผ์Šค ๊ณต์žฅ ํ™œ์šฉ โ€ข ํœด๋ฉด ์ƒํƒœ์˜ ์„ธํƒ๊ธฐ ๊ณต์žฅ ๋ถ€์ง€๋ฅผ ๋งค์ž…ํ•ด ๋‹จ๊ธฐ๊ฐ„์— AI ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋กœ ๊ฐœ์กฐ. โ€ข ์ธ์ ‘ ์ฒœ์—ฐ๊ฐ€์Šค๊ด€๊ณผ ์ด๋™ํ˜• ๋ฐœ์ „๊ธฐ(๋””์ ค/๊ฐ€์Šค)ยท์ด๋™ํ˜• ๋ƒ‰๊ฐ ์žฅ์น˜๋ฅผ ์„ค์น˜ โ†’ ์ „๋ ฅยท๋ƒ‰๊ฐ ์ธํ”„๋ผ๋ฅผ ๋น ๋ฅด๊ฒŒ ํ™•๋ณด. โ€ข ๋ณดํ†ต ๋Œ€ํ˜• ํด๋ผ์šฐ๋“œ ๊ธฐ์—…๋“ค์€ ์ด๋ฏธ์ง€ยทํ‰ํŒ ๋•Œ๋ฌธ์— ์ง์ ‘ ์ด๋Ÿฐ ์‹์œผ๋กœ ํ•˜์ง„ ์•Š์Œ(โ€œ๋…น์ƒ‰ ์—๋„ˆ์ง€โ€ ๋ช…๋ถ„ ๋•Œ๋ฌธ). โ€ข xAI๋Š” ์ผ๋‹จ ์†๋„๋ฅผ ์šฐ์„ ์‹œ โ†’ 10๋งŒ+ GPU ๋น ๋ฅธ ๋ฐฐ์น˜. 2. ์ฐจ๋ณ„์  โ€ข ์ตœ์ดˆ๋กœ NVIDIA GPU(GB200 ๋“ฑ) ์ง์ˆ˜๋ƒ‰ ๋ชจ๋ธ์„ ๋Œ€๊ทœ๋ชจ๋กœ ๋„์ž… ์˜ˆ์ •. (์ผ๋ฐ˜์ ์œผ๋กœ air-cooled ๋˜๋Š” ๋‹ค๋ฅธ ๊ตฌ์กฐ) โ€ข ๋„คํŠธ์›Œํฌ๋„ ์ด๋”๋„ท ๊ธฐ๋ฐ˜ ๋“ฑ, ๋น„์ •ํ˜•์  ๋ฐฉ์‹ ํ™œ์šฉ. 2.4 ๊ทธ ์™ธ ํด๋ผ์šฐ๋“œ/์ฝ”๋กœ์ผ€์ด์…˜ ์—…์ฒด โ€ข ์•„๋งˆ์กด(AWS): ์ „ ์„ธ๊ณ„ ๋งŽ์€ ๋ถ€์ง€์—์„œ ๋™์‹œ๋‹ค๋ฐœ์  ํ™•์žฅ, CPUโ†’GPU ์ „ํ™˜. โ€ข ์˜ค๋ผํด(Oracle): OpenAI์™€ ํ˜‘๋ ฅํ•ด 200MW๊ธ‰ ๋ฐ์ดํ„ฐ์„ผํ„ฐ, ์žฅ๊ธฐ์ ์œผ๋กœ 1GW ํ™•์žฅ. โ€ข ๋ฉ”ํƒ€(Meta): ๊ตฌํ˜• โ€œH ํ˜•ํƒœโ€ ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋ฅผ ํ์‡„ ํ›„, ๊ณ ๋ฐ€๋„ ์ˆ˜๋žญ ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋กœ ์žฌ๊ฑด์ถ•. โ€ข ๋‹ค๋ฅธ ์ˆ˜์‹ญ~์ˆ˜๋ฐฑ ๊ฐœ ์ค‘์†Œ/์ฃผ๊ถŒ(โ€œ์†Œ๋ฒ„๋ฆฐโ€) ํด๋ผ์šฐ๋“œ๋„ ์œ ์‚ฌํ•˜๊ฒŒ GPU ํ˜ธ์ŠคํŒ… ์‚ฐ์—… ์ฐธ์—ฌ ์ค‘. 3. ์ถ”๋ก (Inference) ํ† ํฐ ์ฒ˜๋ฆฌ(tokenomics)์™€ ์ตœ์ ํ™” 3.1 ์ถ”๋ก  ์ œ๊ณต์ž(โ€œํ† ํฐ ํŒฉํ† ๋ฆฌโ€) ๊ด€์  โ€ข ๋Œ€ํ˜• ๋ชจ๋ธ์˜ API ํ˜ธ์ถœ๋กœ โ€œํ† ํฐโ€ ๋‹จ์œ„ ๊ณผ๊ธˆ โ†’ ์„œ๋ฒ„ GPUยท๋ฉ”๋ชจ๋ฆฌยท๋„คํŠธ์›Œํฌ๋ฅผ ์ผ์ • ๋ฐฉ์‹์œผ๋กœ ํ• ๋‹น. โ€ข ์ถ”๋ก  ์„ฑ๋Šฅ(throughput)์€ ๋ฐฐ์นญ(batch size), ์–‘์žํ™”(quantization), KV์บ์‹œ ๊ด€๋ฆฌ, ๋ณ‘๋ ฌํ™” ๋“ฑ ์ตœ์ ํ™”๋กœ ํฌ๊ฒŒ ์ขŒ์šฐ. 3.2 KV ์บ์‹œ(KV Cache)์˜ ์˜ํ–ฅ 1. ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ vs. KV์บ์‹œ โ€ข ํ† ํฐ์„ ์ƒ์„ฑํ•  ๋•Œ๋งˆ๋‹ค, โ€œ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ(์ •์ )โ€ + โ€œKV์บ์‹œ(๋™์ ยท์œ ์ €๋ณ„)โ€ ๋ชจ๋‘ ๋ฉ”๋ชจ๋ฆฌ์—์„œ ์ฝ์–ด์˜ด. โ€ข ๋ฐฐ์น˜๊ฐ€ ์ปค์งˆ์ˆ˜๋ก(๋™์‹œ ์œ ์ €โ†‘) KV์บ์‹œ ์กฐํšŒ๋„ ๋งŽ์•„์ ธ, ๋ฉ”๋ชจ๋ฆฌ ๋Œ€์—ญํญ ๋ณ‘๋ชฉ ๋ฐœ์ƒ. 2. ์‹œํ€€์Šค ๊ธธ์ด(Context Length) ์ฆ๊ฐ€ โ€ข ๋ชจ๋ธ์ด ๋งŽ์€ reasoning(๋‚ด๋ถ€ ํ† ํฐ ์ƒ์„ฑ์„ ์ˆจ๊ธด๋‹ค ํ•ด๋„) โ†’ ๋‚ด๋ถ€์ ์œผ๋กœ KV์บ์‹œ๊ฐ€ ์ปค์ง. โ€ข ์‹œํ€€์Šค ๊ธธ์ด๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก, ๋ฐฐ์น˜ ๊ฐ€๋Šฅ ํฌ๊ธฐ๊ฐ€ ์ค„๊ณ , ํ† ํฐ๋‹น ์ฒ˜๋ฆฌ ์ง€์—ฐ์ด ์ปค์ ธ ์‚ฌ์šฉ์ž ๊ฒฝํ—˜ ์ €ํ•˜. 3. GQA(Grouped Query Attention) ๋“ฑ ๊ธฐ๋ฒ• โ€ข llama ์‹œ๋ฆฌ์ฆˆ ๋“ฑ์—์„œ GQA/MQA๋ฅผ ์ ์šฉํ•˜๋ฉด KV์บ์‹œ ํฌ๊ธฐ๋ฅผ ์ค„์ด๊ณ , ๋ณ‘๋ชฉ์„ ์™„ํ™”. โ€ข ์˜ˆ) 40~70B ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์—์„œ GQA ์ ์šฉ ์‹œ, ๊ฐ™์€ ํ•˜๋“œ์›จ์–ด๋กœ ๋ฐฐ์น˜ ํฌ๊ธฐ(๋™์‹œ ์œ ์ € ์ˆ˜) ํฌ๊ฒŒ ์ฆ๊ฐ€ โ†’ ์ถ”๋ก  ๋น„์šฉ ์ ˆ๊ฐ. 3.3 OpenAI โ€œ0.1/01โ€ ๋ชจ๋ธ๊ณผ ๋น„์šฉ โ€ข Zero One(01) ๋ชจ๋ธ: โ€œ์‹ค์‹œ๊ฐ„ ๋‚ด๋ถ€ reasoningโ€์œผ๋กœ ํฐ ์‹œํ€€์Šค ๊ธธ์ด. โ€ข ๊ธฐ์กด ์งง์€ ์‹œํ€€์Šค(๋ช‡ K tokens)๋ณด๋‹ค 10~40K ์ด์ƒ์˜ ์‹œํ€€์Šค โ†’ ๋ฐฐ์น˜ ํšจ์œจ ๊ธ‰๊ฐ, ์ถ”๋ก  ๋น„์šฉ ์ฆ๊ฐ€. โ€ข ์‹ค์ œ API ๊ฐ€๊ฒฉ๋„ GPT-4 ๋Œ€๋น„ 3~4๋ฐฐ ๋น„์‹ผ ์ด์œ  ์ค‘ ํ•˜๋‚˜๊ฐ€ ์ด KV์บ์‹œ/๋ฐฐ์น˜ ๋น„ํšจ์œจ ๋ฌธ์ œ. 4. Inference & Training ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ / TCO ๋ชจ๋ธ โ€ข ๋ฐœํ‘œ์ž๋Š” ์ž์‚ฌ(SemiAnalysis)์—์„œ ์ถ”๋ก ยทํ›ˆ๋ จ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋ฅผ ๊ฐœ๋ฐœ, โ€œ๋ฉ”๋ชจ๋ฆฌ BW vs. ๋ชจ๋ธ ํฌ๊ธฐ vs. ๋ฐฐ์น˜ vs. ์‹œํ€€์Šค ๊ธธ์ดโ€ ๋“ฑ์„ ๋ชจ์˜์‹คํ—˜. โ€ข ์„œ๋ฒ„ ์›”๊ฐ„ ๋น„์šฉ(์˜ˆ: h100 8-GPU ์„œ๋ฒ„) โ€ข ๊ตฌ์ž…๋น„ ๊ฐ๊ฐ€์ƒ๊ฐ + ๊ธˆ์œต๋น„์šฉ + ์šด์˜๋น„(์ „๋ ฅ+์ฟจ๋ง+๋ฐ์ดํ„ฐ์„ผํ„ฐ ๋ Œํƒˆ ๋“ฑ). โ€ข ๋Œ€๋ถ€๋ถ„์˜ ๋น„์šฉ(70~80% ์ด์ƒ)์ด โ€œGPU ๊ตฌ์ž…โ€์ด๋ฏ€๋กœ, ์ „๋ ฅ ์‚ฌ์šฉ ์—ฌ๋ถ€(๊ฐ€๋™๋ฅ )์— ๋”ฐ๋ฅธ ์ถ”๊ฐ€ ๋ณ€๋™๋น„๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์Œ. โ€ข ๋”ฐ๋ผ์„œ โ€œGPU๋ฅผ 100% ํ™œ์šฉโ€ํ•˜๋Š” ๊ณ ๋ฐฐ์น˜/๊ณ ํšจ์œจ์ด ์ˆ˜์ต์„ฑ์— ํ•ต์‹ฌ. 5. ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์„ค๊ณ„ยท์ „๋ ฅ ์ด์Šˆ ์ข…ํ•ฉ 1. ์™œ ๊ฐ์‚ฌ ์„ค๊ณ„๊ฐ€ ๋‹ค๋ฅธ๊ฐ€? โ€ข ์—ญ์‚ฌ์  ์œ ์‚ฐ, ๋‚ด๋ถ€ ์ธํ”„๋ผ, ๋ƒ‰๊ฐ(์ˆ˜๋žญ/๊ณต๋žญ) ๋ฐฉ์‹, GPU/TPU ์•„ํ‚คํ…์ฒ˜ ์ฐจ์ด ๋“ฑ์œผ๋กœ ๋ชจ๋‘ ์ƒ์ด. โ€ข ๋ฉ”ํƒ€๋Š” H์žํ˜• ๊ตฌํ˜• ์„ค๊ณ„ ํ๊ธฐ ํ›„, ์‹ ํ˜•์œผ๋กœ ๊ต์ฒด. ๊ตฌ๊ธ€์€ TPU ๊ณ ๋ฐ€๋„ ์ˆ˜๋žญ์„ ์ผ์ฐ ์‹œ์ž‘. xAI๋Š” ๊ธ‰์กฐ(๊ณต์žฅ+์ด๋™์‹ ๋ฐœ์ „๊ธฐ). โ€ข ์ตœ์  ์„ค๊ณ„๋Š” ์กด์žฌํ•˜์ง€ ์•Š์œผ๋ฉฐ, ๋Œ€๋‹ค์ˆ˜๊ฐ€ โ€œ์‹œ๊ฐ„ ์••๋ฐ•/์œ ์—ฐ์„ฑ/PR(ํ™˜๊ฒฝ)โ€ ๋“ฑ์„ ์ ˆ์ถฉ. 2. ๋ชจ๋‘ โ€˜์ฒœ์—ฐ๊ฐ€์Šคยท์„ํƒ„โ€™ ์˜์กด? โ€ข ์‹ค์ œ ์ „๋ ฅ์€ ํ™”์„์—ฐ๋ฃŒ ๊ธฐ๋ฐ˜์ด ๋Œ€๋ถ€๋ถ„. ESG ๋ช…๋ถ„์œผ๋กœ ํƒœ์–‘๊ด‘ ๋“ฑ ๊ตฌ๋งค(PPA)๋Š” ํ•˜๋‚˜ ์‹ค์ œ ๋ฌผ๋ฆฌ์  ๊ณต๊ธ‰ ์ „๋ ฅ์€ ๋Œ€๋ถ€๋ถ„ ๊ฐ€์Šค. โ€ข ๋Œ€๊ทœ๋ชจ ๋ฐœ์ „์†Œ(์ตœ๋Œ€์ˆ˜ GW)์™€ ๋ถ€์ง€ ์—ฐ๊ฒฐ์ด ๊ด€๊ฑด. ์„œ๊ตฌ ๊ตญ๊ฐ€๋“ค์€ ์ „๋ ฅ๋ง ์ฆ์„ค์ด ๋А๋ ค, 3~4๋…„์”ฉ ๋Œ€๊ธฐ๊ฐ€ ๋ฐœ์ƒ. 3. ๋งˆ์ดํฌ๋กœ๊ทธ๋ฆฌ๋“œ/์›์ „/ํ•ด์ƒ ๋ฐ์ดํ„ฐ์„ผํ„ฐ ๋“ฑ โ€ข ์—˜๋ก ์ฒ˜๋Ÿผ ์ž์ฒด ๋ฐœ์ „๊ธฐ ์‚ฌ์šฉ โ€œ๋งˆ์ดํฌ๋กœ๊ทธ๋ฆฌ๋“œโ€ ์‹œ๋„๋„ ์žˆ์ง€๋งŒ ๊ทœ์ œยท์‹ค๋ฌด ์ƒ ์–ด๋ ค์›€ ํผ. โ€ข ํ•ด์ƒ/์šฐ์ฃผ ๋“ฑ์€ GPU ์•ˆ์ •์„ฑยท์œ ์ง€๋ณด์ˆ˜ ์ธก๋ฉด์—์„œ ๋น„ํ˜„์‹ค์ . โ€ข ์›์ „ ์ง์ ‘ ์—ฐ๊ณ„๋„ ๊ทœ์ œยท๋ฏผ์›์œผ๋กœ ์‹คํ˜„์€ ๊ฑฐ์˜ ์—†๊ณ , ๋Œ€๋ถ€๋ถ„ โ€œ๊ทธ๋ฆฐ์›Œ์‹ฑโ€ ๊ณ„์•ฝ์— ๊ทธ์นจ. 6. ์งˆ์˜์‘๋‹ต ์š”์•ฝ 1. FPGA/ASIC/๋‰ด๋กœ๋ชจํ”ฝ โ€ข GPU(๋˜๋Š” TPU) ๋ง๊ณ  ๋‹ค๋ฅธ ๋ณ‘๋ ฌ ์นฉ ์•„์ด๋””์–ด ๋งŽ์œผ๋‚˜, GPU/TPU ์ƒํƒœ๊ณ„๊ฐ€ ์ด๋ฏธ ์••๋„์ (์†Œํ”„ํŠธ์›จ์–ดยท์ธํ”„๋ผยท์ธ์žฌ ๋“ฑ). โ€ข ๋‰ด๋กœ๋ชจํ”ฝ ๋“ฑ์€ ์ž ์žฌ์  ํšจ์œจ์ด ํ›จ์”ฌ ๋†’์„ ์ˆ˜ ์žˆ์œผ๋‚˜, ์ œ๋Œ€๋กœ ๋œ ์—ฐ๊ตฌยท์ƒํƒœ๊ณ„ยทํˆฌ์ž ๋ถ€์กฑ. ๋‹น๋ถ„๊ฐ„ GPT๋ฅ˜ ์ž‘์—…์€ GPU/TPU๊ฐ€ ์ฃผ๋„. 2. ๊ทœ๋ชจ ํ™•์žฅ ์ง€์† ๊ฐ€๋Šฅ์„ฑ โ€ข โ€œ๋ฒ„๋ธ”์ด๋ƒ?โ€๋ผ๋Š” ์งˆ๋ฌธ. ๊ธฐ์—…(์˜คํ”ˆAIยท๊ตฌ๊ธ€ยท๋ฉ”ํƒ€ ๋“ฑ)์ด AGI ๊ฐ€๋Šฅ์„ฑยท์ˆ˜์ต์„ฑ์— ๋ฒ ํŒ…, CapEx ํญ์ฆ. โ€ข ํ–ฅํ›„ ์ „๋ ฅยทํ™˜๊ฒฝ ๋ฌธ์ œ์™€ ์ถฉ๋Œํ•˜๋‚˜, ๋‹จ๊ธฐ์ ์œผ๋กœ๋Š” โ€œPascalโ€™s Wagerโ€(์•ˆ ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ํ•ด์„œ ์‹คํŒจํ•˜๋Š” ๊ฒŒ ๋‚ซ๋‹ค)๋กœ ๊ณ„์† ํˆฌ์ž. 3. ํŠน์ • ํšŒ์‚ฌ์˜ ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋งŒ์ด โ€œ์ •๋‹ตโ€? โ€ข ์—†๋‹ค๊ณ  ๋ด„. ๋ฉ”ํƒ€/๊ตฌ๊ธ€/MS/xAI ๋ชจ๋‘ ๋‹ค๋ฆ„. ์นฉ(์ธํ”„๋ผ), ๋ƒ‰๊ฐ, ๋„คํŠธ์›Œํ‚น ๋“ฑ์— ๋”ฐ๋ผ ์ƒ์ด. โ€ข AI/HPC ์š”๊ตฌ์‚ฌํ•ญ์ด ์ปค์„œ, ์™„์ „ํžˆ ์ƒˆ ๊ฑด๋ฌผ์„ ์ง€์„ ๋•Œ๋งˆ๋‹ค ์„ค๊ณ„๊ฐ€ ๋‹ฌ๋ผ์ง€๊ณ , ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊ฐœ์„  ์ค‘. 4. ๋ฏธ๋ž˜ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ (Transformer vs. ๋‹ค๋ฅธ ๊ตฌ์กฐ) โ€ข ๋‹น์žฅ์€ Transformer๊ฐ€ ์‚ฐ์—…ยท์—ฐ๊ตฌ ๋ชจ๋‘ ํ‘œ์ค€, ๋Œ€๊ทœ๋ชจ ์ตœ์ ํ™” ํˆดยท์—”์ง€๋‹ˆ์–ดยท์ƒํƒœ๊ณ„๊ฐ€ ์ด๋ฏธ ์ •์ฐฉ. โ€ข ๋‹ค๋ฅธ ์•„ํ‚คํ…์ฒ˜(์˜ˆ: state-space, rnn ๋ณ€ํ˜•, etc.)๊ฐ€ ๋‚˜์™€๋„ GPU๋กœ ์ถฉ๋ถ„ํžˆ ์žฌํ™œ์šฉ ๊ฐ€๋Šฅ โ†’ ๊ณง๋ฐ”๋กœ ๋Œ€์ฒด ์‰ฝ์ง€ ์•Š์Œ. 7. ๊ฒฐ๋ก  ๋ฐ ์ฃผ์š” ์‹œ์‚ฌ์  1. ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์ „๋ ฅยท๊ตฌ์กฐ โ€ข AI ์ˆ˜์š” ํญ์ฆ์œผ๋กœ ๊ธฐ์กด โ€œCPU+์Šคํ† ๋ฆฌ์ง€โ€ ์ค‘์‹ฌ์—์„œ โ€œGPU ๋Œ€๋ฐ€๋„ + ์ˆ˜๋žญ + ์ดˆ๊ณ ์† ๋„คํŠธ์›Œํฌโ€๋กœ ๊ธ‰๋ณ€. โ€ข ๊ฑด๋ฌผ ๋‹จ์œ„๊ฐ€ ์•„๋‹ˆ๋ผ 10~100๋งŒ GPU๊ธ‰ โ€œ์บ ํผ์Šค/์ง€์—ญ ๋‹จ์œ„โ€ ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ๋ฌถ๋Š” ์ค‘. โ€ข ์ „๋ ฅ๋ง/๋ณ€์••๊ธฐ/๋ƒ‰๊ฐ ๋“ฑ์˜ ์ œํ•œ์ด ๋ณ‘๋ชฉ์ด๋ฉฐ, xAI์ฒ˜๋Ÿผ ๊ธฐ๋ฐœํ•˜์ง€๋งŒ ์ž„์‹œ๋ฐฉํŽธ์  ๋ฐฉ๋ฒ•(์ด๋™์‹ ๋ฐœ์ „๊ธฐ ๋“ฑ)๋„ ๋“ฑ์žฅ. 2. ์ถ”๋ก  ๋น„์šฉ(ํ† ํฐ๋‹น) ๊ธ‰์ฆ ์šฐ๋ ค

https://youtu.be/pE3KKUKXcTM 2. โ€œ์‹œ์ง„ํ•‘์ด AGI์— ์˜ฌ์ธํ•œ๋‹ค๋ฉด?โ€ (์ค‘๊ตญ์˜ AIยท๋ฐ˜๋„์ฒด ์—ญ๋Ÿ‰) ์งˆ๋ฌธ: โ€œ์‹œ์ง„ํ•‘์ด ์Šค์ผ€์ผ์— ์ง‘์ฐฉ(โ€˜scaling-pilledโ€™)ํ•ด, AI์— ์ „ํญ ํˆฌ์žํ•˜๋ ค ํ•œ๋‹ค๋ฉด ์–ด๋–ป๊ฒŒ ํ• ๊นŒ?โ€ Dylan: ํ•ต์‹ฌ์€ ํ•˜๋“œ์›จ์–ดยท์†Œํ”„ํŠธ์›จ์–ดยท๋ฐ์ดํ„ฐ ๋ชจ๋“  ๋ ˆ์ด์–ด์—์„œ โ€˜์ง‘์ค‘โ€™(centralization)ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ. ์ค‘๊ตญ์€ ์ด๋ฏธ ์ „๋ ฅยท๊ณต๊ธ‰๋งยท์ธํ”„๋ผ๋ฅผ ๋น ๋ฅด๊ฒŒ ํ™•์žฅํ•ด ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋ฅผ ์ง€์„ ์ˆ˜ ์žˆ์Œ(์˜ˆ: 10GW๊ธ‰ ๊ทœ๋ชจ๋„ ๊ฐ€๋Šฅ). ๋ฌธ์ œ: ์•„์ง ์ค‘๊ตญ ๋‚ด AI ๊ธฐ์—…๋“ค์ด ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ ํด๋Ÿฌ์Šคํ„ฐ(10๋งŒ~30๋งŒ GPU๊ธ‰)๋ฅผ ํ•œ๊ณณ์— ๋ชจ์•„ ํ›ˆ๋ จํ•˜๋Š” ์‚ฌ๋ก€๋Š” ์—†์—ˆ์Œ. ๋งŒ์•ฝ ๋‹น๊ตญ์ด GPU ์กฐ๋‹ฌ์„ ํ†ตํ•ฉยท๊ด€๋ฆฌํ•œ๋‹ค๋ฉด(์ˆ˜์ž…+๋‚ด์ˆ˜ ๋ฐ˜๋„์ฒด), ๋ฏธ๊ตญ ๋น…ํ…Œํฌ ์ด์ƒ์˜ โ€˜์ดˆ๊ฑฐ๋Œ€ ํด๋Ÿฌ์Šคํ„ฐโ€™๋ฅผ ๊ฑด์„ค ๊ฐ€๋Šฅ. ์ค‘๊ตญ ๋ฐ˜๋„์ฒด ์‚ฐ์—… SMIC ๋“ฑ์ด 7nm ~ 5nm๊ธ‰์„ ๊ณต์ •์ƒ ์–ด๋ ค์›€(์ด์œ : EUV ๋“ฑ)์ด ์žˆ์œผ๋‚˜, ์ค‘๊ตญ ํŠน์œ ์˜ โ€˜์ง‘์š”ํ•จโ€™ยทโ€˜๊ฐ„๋ถ€๊ธ‰ ์˜์ž…โ€™ ๋ฌธํ™”๋กœ ๋น ๋ฅธ ์ถ”๊ฒฉ. โ€œํ™”์›จ์ด(HiSilicon)๋Š” ํ˜„์กด ๊ธฐ์—… ์ค‘ ๊ฐ€์žฅ โ€˜ํฌ๋ž™โ€™๋œ ์—ญ๋Ÿ‰์„ ์ง€๋‹˜.โ€ (ํ•ต์‹ฌ ๊ธฐ์ˆ  ์—†์ด๋„ 5G ๋“ฑ์—์„œ ์„ธ๊ณ„ ์ตœ๊ณ  ์„ฑ๊ณผ) ๋ถ€ํ’ˆยท์žฅ๋น„ยท์ œ์กฐ ์ „ ์˜์—ญ์—์„œ ์‚ฐ์—… ์ŠคํŒŒ์ด+๊ตญ๊ฐ€ ์ง€์›์œผ๋กœ ๋ฐœ์ „, โ€œ๋ฌด์‹œํ•˜๋ฉด ์•ˆ ๋œ๋‹ค.โ€ ์ˆ˜์ถœํ†ต์ œ์˜ ํšจ๊ณผ Dylan: โ€œ์ œ๋Œ€๋กœ ๋ง‰์œผ๋ ค๋ฉด โ€˜์žฅ๋น„ยทํ”„๋กœ์„ธ์Šค ์ „๋ฉด์ฐจ๋‹จโ€™ํ•ด์•ผ ํ•˜๋Š”๋ฐ, ํ˜„์‹ค์€ ์ค‘๊ตญ์˜ ๊ธฐ์ˆ  ๊ฐœ๋ฐœ ์˜์ง€๋งŒ ๋” ๋ถ€์ถ”๊น€.โ€ ์—ฌ์ „ํžˆ SMIC ๋“ฑ์€ 7nm ๊ณต์ • ์žฅ๋น„๋ฅผ ํ•ด์™ธ์—์„œ ์กฐ๋‹ฌํ•˜๊ณ , ์ธ์žฌ ์˜์ž…์œผ๋กœ ๊ธฐ์–ด์ด ๋งŒ๋“ค๊ณ  ์žˆ์Œ. 3. ์ „ ์„ธ๊ณ„ ๋ฐ˜๋„์ฒดยทAI ์นฉ ์ƒ์‚ฐ๊ณผ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์ „๋ง ๋ฏธ๊ตญยท์œ ๋Ÿฝ vs. ์ค‘๊ตญ: ๋ˆ„๊ฐ€ ๋” ๋จผ์ € โ€˜1GW~10GW๊ธ‰ AI ๋ฐ์ดํ„ฐ์„ผํ„ฐโ€™๋ฅผ ์„ธ์šธ๊นŒ? ๋ฏธ๊ตญ์€ ์—”ํ„ฐํ”„๋ผ์ด์ฆˆยท๋น…ํ…Œํฌ(MS, ๊ตฌ๊ธ€, ๋ฉ”ํƒ€ ๋“ฑ)๊ฐ€ โ€œ๋ถ„์‚ฐโ€ ํ˜•ํƒœ๋กœ ๊ฐ์ž ๋Œ€ํ˜• ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ์šด์˜. ์ค‘๊ตญ์€ ๊ตญ๊ฐ€ ์ฃผ๋„๋กœ โ€œ์ง‘์ค‘โ€ ํˆฌ์ž๊ฐ€ ๊ฐ€๋Šฅ. ๋‹ค๋งŒ, ์•„์ง์€ ์‹ค์ œ๋กœ ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ๋‚˜์˜จ ์  ์—†์Œ. Dylan: โ€œ์ค‘๊ตญ์ด ์ง„์งœ ๋งˆ์Œ๋จน๊ณ  ์ถ”์ง„ํ•˜๋ฉด, ์ „๋ ฅ ์ธํ”„๋ผยท๊ณต์‚ฌ ์†๋„ยทGPU ์ง‘์ค‘ ์ธก๋ฉด์—์„œ ๋ฏธ๊ตญ์„ ์•ž์„ค ์ˆ˜๋„ ์žˆ๋‹ค.โ€ ํด๋Ÿฌ์Šคํ„ฐ ๊ทœ๋ชจ ์ถ”์ด 2023๋…„: OpenAI, xAI ๋“ฑ ๋Œ€๋žต 10๋งŒ GPU๊ธ‰(์˜ˆ: H100) ํด๋Ÿฌ์Šคํ„ฐ โ†’ 20242025๋…„์—” 3050๋งŒ GPU ๊ทœ๋ชจ(๋˜๋Š” ๋” ํผ). NVIDIA๋Š” ์—ฐ๊ฐ„ ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ GPU ์ƒ์‚ฐ. ๊ทนํžˆ ์ผ๋ถ€(์ˆ˜์‹ญ~์ˆ˜๋ฐฑ๋งŒ)๊ฐ€ ๋Œ€ํ˜• AI ํด๋Ÿฌ์Šคํ„ฐ์— ํˆฌ์ž…๋  ์ „๋ง. 2026๋…„ ์ดํ›„: ๋ฏธ๊ตญ ๋‚ด 1GW, 2~3GW ๋“ฑ ์ดˆ๊ฑฐ๋Œ€ AI ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์—ฌ๋Ÿฟ ๋“ฑ์žฅํ•  ๊ฐ€๋Šฅ์„ฑ. โ€œ20282029๋…„์ด๋ฉด ๋‹จ์ผ ๋ชจ๋ธ ํ›ˆ๋ จ ์ด FLOPs๊ฐ€ GPT-4 ๋Œ€๋น„ ์ˆ˜์ฒœ์ˆ˜๋งŒ ๋ฐฐ(1e30 ์ˆ˜์ค€)๋กœ ๊ฐˆ ์ˆ˜ ์žˆ๋‹ค.โ€ (Dylan ์ถ”์ •) TSMC/์‚ผ์„ฑ ํŒŒ์šด๋“œ๋ฆฌ์˜ ์—ญํ•  ์ฐจ์„ธ๋Œ€ ๊ณต์ •(5โ†’3โ†’2nm)์€ ๋น„์šฉ ๊ธ‰์ฆ๊ณผ ๊ธฐ์ˆ  ํ•œ๊ณ„ ๋•Œ๋ฌธ์— โ€œ๊ฒฝ์ œ์„ฑ์ด ์‚ฌ๋ผ์กŒ๋‹คโ€๊ณ  ๋ณด๋Š” ์ด๋“ค๋„ ์žˆ์Œ. ๊ทธ๋Ÿฌ๋‚˜ AIยทGPU ์ˆ˜์š” ํญ์ฆ์ด ๊ฒฐ๊ตญ 2nm ๋“ฑ ์ดˆ๋ฏธ์„ธ ๊ณต์ •์˜ ๋Œ€๊ทœ๋ชจ ์ฆ์„ค์— ์ •๋‹น์„ฑ์„ ๋ถ€์—ฌํ•  ๊ฒƒ. โ€œ๊ฒฐ๊ตญ TSMC๋Š” AI ์นฉ ์ˆ˜์š”๋ฅผ ์œ„ํ•ด์„œ 2nm ๋ผ์ธ ํ™•์žฅํ•  ๋“ฏ. (์• ํ”Œ ๋‹จ์ผ ๊ณ ๊ฐ๋งŒ์œผ๋กœ๋Š” ๊ฐ๋‹น ์–ด๋ ค์šด ๊ทœ๋ชจ)โ€ 4. ๋ฐ˜๋„์ฒด ์ œ์กฐ ์‚ฐ์—…์˜ ๊ทน๋‹จ์  ๋ณต์žก์„ฑ ๋ถ„ํ™”๋œ ๊ณต๊ธ‰๋ง: ์›จ์ดํผ, ๋…ธ๊ด‘(๋ฆฌ์†Œ๊ทธ๋ž˜ํ”ผ), ์—์นญ, ์†Œ์žฌ(ํฌํ† ๋ ˆ์ง€์ŠคํŠธ, Cu interconnect ๋“ฑ), ํŒจํ‚ค์ง• ๋“ฑ ์ˆ˜์ฒœ ๋‹จ๊ณ„. ์ด ๋ถ„์•ผ์˜ ์ง€์‹ ๊ฒฉ์ฐจ: โ€œAI๋Š” ๊ฐœ์ธ์ด ๋…ผ๋ฌธยท์ฝ”๋“œ๋กœ ๋น ๋ฅด๊ฒŒ ์ž์Šต ๊ฐ€๋Šฅํ•˜์ง€๋งŒ, ๋ฐ˜๋„์ฒด๋Š” ๋ฐฉ๋Œ€ํ•œ ๊ธฐ์—… ๋‚ด๋ถ€ ๋…ธํ•˜์šฐ+ํŠนํ—ˆ+์žฅ๋น„ ๋งค๋‰ด์–ผ๋กœ ์™ธ๋ถ€ ์ ‘๊ทผ ์–ด๋ ค์›€.โ€ ๋Œ€ํ˜• ์žฅ๋น„(ASML EUV ๋“ฑ) ํ•˜๋‚˜ํ•˜๋‚˜์— ์ˆ˜์‹ญ ๋…„ ์ถ•์ ๋œ ์žฅ์ธยทํ•™์žยท์—”์ง€๋‹ˆ์–ด์˜ โ€œ๋งˆ์Šคํ„ฐ-๊ฒฌ์Šตโ€ ์ฒด๊ณ„๊ฐ€ ์กด์žฌ. R&D์™€ ์ œ์กฐ ํ˜„์žฅ์˜ โ€˜์žฅ์ธ ๋ฌธํ™”โ€™ ์˜ˆ: TSMC ์ธ๋ ฅ ๋Œ€๋‹ค์ˆ˜ ๊ณ ํ•™๋ ฅ(์„๋ฐ•์‚ฌ) + ๋ฐ˜์˜๊ตฌ์‹ ์•ผ๊ทผยท์„ค๋น„ ์‹คํ—˜. ์–ด๋А ํ•œ ์‚ฌ๋žŒ๋งŒ์ด ์ „์ฒด ๊ณต์ •์„ ์•„๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๊ฐ ๋‹จ๊ณ„ ์ „๋ฌธํŒ€์ด ํ˜‘์—…ํ•ด ์ „์ฒด ํ”„๋กœ์„ธ์Šค ์™„์„ฑ. 5. AI ์‚ฐ์—…๊ณผ ๋ฐ˜๋„์ฒด์˜ ์ƒํ˜ธ์ž‘์šฉ GPU ์•„ํ‚คํ…์ฒ˜ โ†” ๋ชจ๋ธ ๊ตฌ์กฐ โ€œGPU์˜ ๋ฉ”๋ชจ๋ฆฌ ๋Œ€์—ญํญ์ด ์ œํ•œ์ ์ด๋ฉด, ์ค‘๊ตญ ์ชฝ ๋ชจ๋ธ์€ ๋” ์••์ถ•ยทํŠนํ™”๋œ ๊ตฌ์กฐ๋ฅผ ์ฑ„ํƒํ•  ์ˆ˜๋„ ์žˆ์Œ.โ€ ๊ตฌ๊ธ€ TPU vs. NVIDIA GPU vs. ํ™”์›จ์ด Ascend ๋“ฑ ๊ฐ์ž ํ•˜๋“œ์›จ์–ด ํŠน์„ฑ์— ๋งž์ถฐ ๋ชจ๋ธ ์„ค๊ณ„๊ฐ€ ๋‹ฌ๋ผ์ง. ์•„ํ‚คํ…์ฒ˜ ํ˜์‹ ์˜ ์ž ์žฌ๋ ฅ โ€œํ˜„ GPU/TPU๋Š” ์ „๋ ฅ์˜ ๋Œ€๋ถ€๋ถ„์ด ๋ฐ์ดํ„ฐ ์ด๋™์— ์“ฐ์ž„. ๊ทผ๋ณธ์  ๊ตฌ์กฐ ๊ฐœ์„ (Compute-In-Memory ๋“ฑ) ๊ฐ€๋Šฅ.โ€ ๋ฐ˜๋„์ฒด ์„ค๊ณ„ ์ž๋™ํ™”(EDA)์™€ AI ๊ฒฐํ•ฉ โ†’ 100๋ฐฐ ์ด์ƒ ์„ฑ๋Šฅยท์ „๋ ฅ ํšจ์œจ ๋Œ์–ด์˜ฌ๋ฆด ๊ธฐํšŒ ์กด์žฌ. ๋ฏธ๋ž˜ ์ „๋ง ๊ฑฐ๋Œ€ ๋ชจ๋ธ์˜ ํ›ˆ๋ จยท์„œ์น˜ยทํ•ฉ์„ฑ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋“ฑ โ€˜์ถ”๊ฐ€ FLOPsโ€™ ์†Œ์š”๋กœ ์ธํ•ด, ๊ณต์ • ๋ฏธ์„ธํ™”์™€ ์นฉ ์„ค๊ณ„ ํ˜์‹  ์ง€์† ๊ฐ€์†. โ€œ๋ฉ”๋ชจ๋ฆฌ ํ˜์‹ (์ฐจ์„ธ๋Œ€ HBM ๋“ฑ), ์•„ํ‚คํ…์ฒ˜ ๊ฐœํŽธ, ์ฒจ๋‹จ ํŒจํ‚ค์ง•์ด ๋ชจ๋‘ ๋ณ‘ํ–‰๋ผ์•ผ ํ•œ๋‹ค.โ€ 6. โ€œ๋ฒ„๋ธ”์ธ๊ฐ€, ์ง„์งœ ๊ธฐํšŒ์ธ๊ฐ€?โ€ **Pascal's Wager(ํŒŒ์Šค์นผ ๋‚ด๊ธฐ)**๋ฅผ ๋น—๋Œ„ ์„ค๋ช… โ€œAI ํˆฌ์ž ์•ˆ ํ–ˆ๋‹ค๊ฐ€ ๋’ค์ฒ˜์ง€๋ฉด ๋งํ•˜์ง€๋งŒ, ํˆฌ์žํ–ˆ๋‹ค ์‹คํŒจํ•ด๋„ ๊ทธ๋‚˜๋งˆ ๋œ ๋งํ•œ๋‹ค.โ€ ๋Œ€ํ˜• ๋น…ํ…Œํฌยทํˆฌ์ž๊ธฐ๊ด€ ๋ชจ๋‘ AI์— โ€˜์˜ฌ์ธโ€™ ์ค‘ (Satya Nadella, Sundar Pichai, Mark Zuckerberg ๋“ฑ). 1990๋…„๋Œ€ ๋‹ท์ปด๋ฒ„๋ธ”์ฒ˜๋Ÿผ ๊ณผ์ž‰ํˆฌ์ž์ผ ์ˆ˜๋„ ์žˆ์ง€๋งŒ, โ€œ์ธํ”„๋ผ๊ฐ€ ๊น”๋ฆฌ๋ฉด ํ›„๋ฐœ ํ˜์‹ ์€ ๊ณ„์† ๋‚˜ํƒ€๋‚œ๋‹ค.โ€ ์ˆ˜์ต์„ฑ vs. ํ™•์žฅ ์†๋„ ๋‹จ๊ธฐ์ ์œผ๋กœ๋Š” GPUยท๋ฐ์ดํ„ฐ์„ผํ„ฐ ๋น„์šฉ > AI ๋งค์ถœ, ๊ทธ๋Ÿฌ๋‚˜ ํ•œ ๋ฒˆ ๋Œ€ํ˜• ๋ชจ๋ธ ์„ฑ๊ณต ์‹œ ์ฒœ๋ฌธํ•™์  ROI ๊ธฐ๋Œ€. โ€œGPT-4 ํ›ˆ๋ จ๋น„์šฉ ์•ฝ 5์–ต ๋‹ฌ๋Ÿฌ, ์ถ”์ • ๋งค์ถœ ์ˆ˜์‹ญ~์ˆ˜๋ฐฑ์–ต ๋‹ฌ๋Ÿฌ ์˜ˆ์ƒโ€ โ†’ ํˆฌ์ž์œ ์น˜๋กœ ๋˜ ๋‹ค์Œ ๋ชจ๋ธ ํ›ˆ๋ จ ๊ฐ€๋Šฅ.

1. AI Diffusion Rule (๋ฏธ๊ตญ ์ƒ๋ฌด๋ถ€ ๊ทœ์ œ) ๊ฐœ์š” ๋ฐฐ๊ฒฝ: 2022๋…„ 10์›” ๋ฐœํ‘œ๋œ ๋ฏธ๊ตญ์˜ ๋Œ€(ๅฐ)์ค‘๊ตญ ๋ฐ˜๋„์ฒด ์ˆ˜์ถœ ๊ทœ์ œ(โ€œOctober 2022 rulesโ€)๊ฐ€ ์žˆ์—ˆ์Œ. ์ง€๊ธˆ๊นŒ์ง€ ์—ฌ๋Ÿฌ ์ฐจ๋ก€ ๊ฐœ์ •ยท๋ณด์™„๋˜๋ฉด์„œ, 2023๋…„ ๋ง โ€œAI Diffusion Ruleโ€์ด ์ถ”๊ฐ€๋ผ ์ค‘๊ตญยท์ œ3๊ตญ ๋“ฑ์—์„œ์˜ ์ดˆ๊ฑฐ๋Œ€ ๋ชจ๋ธ(Frontier Model) ๊ฐœ๋ฐœยท์‹œํ–‰์ด ํฌ๊ฒŒ ์ œํ•œ๋จ. ๋”œ๋Ÿฐ ํŒŒํ…”์€ โ€œ์ด๋ฒˆ ๊ทœ์ œ๊ฐ€ ๊ณผ๊ฑฐ ์–ด๋–ค ๊ทœ์ œ๋ณด๋‹ค ๋” ๊ด‘๋ฒ”์œ„ํ•˜๊ณ  ๊ฐ•๋„ ๋†’๋‹คโ€๋ฉฐ, ๋ฏธ๊ตญ์ด AI ํ—ค๊ฒŒ๋ชจ๋‹ˆ๋ฅผ ๊ณต๊ณ ํžˆ ํ•˜๋ ค๋Š” ์˜๋„๋ผ๊ณ  ์ง€์ . ํ•ต์‹ฌ ๋‚ด์šฉ ๋ฐ ์˜ํ–ฅ: ํด๋ผ์šฐ๋“œ ์ œ๊ณต์ž(ํŠนํžˆ ๋ฏธ๊ตญ ๊ธฐ์—…)๋Š” โ€œ๋น„์šฐ๋ฐฉ๊ตญโ€์—์„œ GPU๋ฅผ 5๋งŒ ๊ฐœ ์ด์ƒ ๊ตฌ๋งคยทํ™œ์šฉํ•˜์ง€ ๋ชปํ•˜๋„๋ก ๊ทœ์ •. ๋ฏธ๊ตญ ์™ธ ๊ตญ๊ฐ€(์˜ˆ: ๋ง๋ ˆ์ด์‹œ์•„)์— ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋ฅผ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ๋„, ๊ทœ์ • ์ค€์ˆ˜(๊ฐ์‹œยท์‹ ๊ณ  ์˜๋ฌด ๋“ฑ)๊ฐ€ ๊ฐ•ํ™”๋˜์–ด ์ ์ฐจ ์–ด๋ ค์›Œ์ง. ๋”œ๋Ÿฐ์€ ์ด ๊ทœ์ œ๊ฐ€ ๋ฏธ๊ตญ ๋น…ํ…Œํฌยทํ•˜์ดํผ์Šค์ผ€์ผ๋Ÿฌ(์˜ˆ: Microsoft, Google, Meta, Amazon)๋‚˜ ์ฝ”์–ด์œ„๋ธŒ(CoreWeave) ๋“ฑ ์†Œ์ˆ˜ ํด๋ผ์šฐ๋“œ์— ์˜คํžˆ๋ ค ์œ ๋ฆฌํ•˜๊ฒŒ ์ž‘์šฉํ•œ๋‹ค๊ณ  ์„ค๋ช…. ์ž‘์€ ํด๋ผ์šฐ๋“œ๋Š” ๊ทœ์ œ ์ค€์ˆ˜ ๋ฐ GPU ์กฐ๋‹ฌ์ด ๋งค์šฐ ์–ด๋ ค์›Œ์ ธ ๊ฒฝ์Ÿ๋ ฅ์ด ์•ฝํ™”. ์žฅ๊ธฐ์ ์œผ๋กœ ์ค‘๊ตญ์€ ์ž์ฒด ๋ฐ˜๋„์ฒดยทํด๋ผ์šฐ๋“œ ์ธํ”„๋ผ๋ฅผ ๊ฐ•์ œ ์œก์„ฑํ•  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Œ. Goldilocks ์ ‘๊ทผ: ๋”œ๋Ÿฐ์€ ๊ทœ์ œ์˜ ๊ณจ๋””๋ฝ์Šค(hardํ•˜๋˜ ๋„ˆ๋ฌด ์ง€๋‚˜์น˜์ง€๋Š” ์•Š์€) ์ง€์ ์ด ์ค‘์š”ํ•˜๋‹ค๊ณ  ๋ด„. ์ง€๋‚˜์น˜๊ฒŒ ๊ฐ•ํ•˜๋ฉด ์ค‘๊ตญ์ด ๋” ๊ฐ•๋ ฅํ•˜๊ฒŒ ๋…์ž ๋ฐ˜๋„์ฒดยทํด๋ผ์šฐ๋“œ ๊ธฐ์ˆ ์„ ์œก์„ฑํ•  ์ˆ˜ ์žˆ๊ณ , ๋ฐ˜๋Œ€๊ธ‰๋ถ€๋กœ ๋ฏธ๊ตญ ๋‚ด ํ˜์‹ ๋„ ์ €ํ•ด๋  ๊ฐ€๋Šฅ์„ฑ์ด ์กด์žฌ. 2. ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์„ผํ„ฐ(โ€œAI ํŒฉํ† ๋ฆฌโ€)ยทํด๋Ÿฌ์Šคํ„ฐ ๊ตฌ์ถ• ๋™ํ–ฅ GPU ํด๋Ÿฌ์Šคํ„ฐ ๊ทœ๋ชจ: GPT-4(2022๋…„ ๋ง)๋Š” ์•ฝ 20k~30k A100 GPU๋กœ ํ›ˆ๋ จ๋˜์—ˆ๋‹ค๊ณ  ์ถ”์ •(์ด ์ „๋ ฅ 20MW ์ˆ˜์ค€). ํ˜„์žฌ๋Š” 100k GPU(์ฃผ๋กœ Nvidia h100) ๊ทœ๋ชจ ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ์˜คํ”ˆAI, Meta, x.ai ๋“ฑ์—์„œ ํ™œ์šฉ๋˜๋ฉฐ, ์ „๋ ฅ 150MW ๋„˜๊ฒŒ ์†Œ์š”. 2026~2027๋…„์—๋Š” ๊ธฐ๊ฐ€์™€ํŠธ(GW) ๋‹จ์œ„ ์ „๋ ฅ์„ ๊ฐ–์ถ˜ ์ดˆ๊ฑฐ๋Œ€ โ€œAI ํŒฉํ† ๋ฆฌโ€๊ฐ€ ์†์† ๋“ฑ์žฅํ•  ์ „๋ง(์˜ˆ: ๋ฉ”ํƒ€๋Š” 2GW, ์—‘์‚ฌ์ด x.ai๋Š” 1GW ๋ชฉํ‘œ). Elon Musk์˜ x.ai ์‚ฌ๋ก€ (๋ฉคํ”ผ์Šค ๊ณต์žฅ): ์—‘์‚ฌ์ด๋Š” ๊ธฐ์กด ๊ฐ€์ „ ๊ณต์žฅ์„ ๋งค์ž…ํ•ด ๋Œ€๊ทœ๋ชจ AI ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋กœ ๊ธด๊ธ‰ ์ „ํ™˜, ์ž์ฒด ๋ฐœ์ „์‹œ์„ค(NG๋ฐœ์ „๊ธฐ+ํ…Œ์Šฌ๋ผ ๋ฐฐํ„ฐ๋ฆฌ) ๊ตฌ์ถ•, ์ˆ˜๋„ยท๋ƒ‰๊ฐ ๋ฌธ์ œ ๋“ฑ ํ•ด๊ฒฐ. ์ „๋ ฅยท์„ค๋น„ยท๋ƒ‰๊ฐ ๋“ฑ ๋‚œ์ œ๊ฐ€ ์žˆ์ง€๋งŒ, โ€œํ™˜๊ฒฝ ๊ทœ์ œ๋ณด๋‹จ ์†๋„โ€๋ผ๋Š” ๊ด€์ ์œผ๋กœ ์ดˆ๊ณ ์† ๊ตฌ์ถ•์„ ์ถ”์ง„. ์‹ฌ์ง€์–ด ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ์šด์šฉ ์ค‘ ์ „๋ ฅ ์ˆ˜์š”๊ฐ€ ๊ธ‰๋ฝโ†”๊ธ‰๋“ฑํ•  ๋•Œ๋ฅผ ๋Œ€๋น„ํ•ด, โ€œ๊ฐ€์งœ ์—ฐ์‚ฐโ€์„ ๋„ฃ์–ด ์ „๋ ฅ ์•ˆ์ •ํ™”๋ฅผ ์œ ์ง€ํ•œ๋‹ค๋Š” ์ผํ™”๊ฐ€ ์†Œ๊ฐœ๋จ. ๊ฐ€์žฅ ํฐ ๋ณ‘๋ชฉ: ์ „๋ ฅ๋งยท๋ถ€์ง€ ํ—ˆ๊ฐ€(๊ทœ์ œ)ยท๋ฐ˜๋„์ฒด ์ œ์กฐยท๋ƒ‰๊ฐยท๋„คํŠธ์›Œํ‚น ๋“ฑ ์ข…ํ•ฉ์  ๊ด€์ . ๋”œ๋Ÿฐ์€ โ€œ๋ฏธ๊ตญ ๋‚ด ์ „๋ ฅ๋งยท์ธํ”„๋ผ ๊ทœ์ œ ์™„ํ™”๊ฐ€ ์‹œ๊ธ‰ํ•˜๋ฉฐ, ๋น ๋ฅธ ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์ฆ์„ค์ด ํ•„์š”ํ•˜๋‹คโ€๊ณ  ๊ฐ•์กฐ. 3. ์ค‘๊ตญ AI ๋ฐ˜๋„์ฒดยท๋ชจ๋ธ์˜ ํ–ฅ๋ฐฉ ๊ทœ์ œ๊ฐ€ ์ ์šฉ๋œ ์ค‘๊ตญ: ๊ตฌ์ฒด์ ์œผ๋กœ ์ค‘๊ตญ ๊ธฐ์—…์€ ์ตœ์ฒจ๋‹จ GPU ๊ตฌ๋งค ํ•œ๋„๊ฐ€ ์—ฐ 5๋งŒ ๊ฐœ๋กœ ์ œํ•œ ๋“ฑ. ์ด๋ฅผ ์šฐํšŒํ•˜๊ธฐ ์œ„ํ•ด ์…ธ ์ปดํผ๋‹ˆ(1,700๊ฐœ ์ดํ•˜ ์นฉ ๊ตฌ๋งค) ๋“ฑ์„ ํ†ตํ•œ ํŽธ๋ฒ• ์กฐ๋‹ฌ ๊ฐ€๋Šฅ์„ฑ์€ ์กด์žฌํ•ด๋„, ์ ์  ์–ด๋ ค์›Œ์ง€๋Š” ์ถ”์„ธ. ๋”œ๋Ÿฐ์€ DeepSeek, Alibaba ๋“ฑ ์ค‘๊ตญ AI ๋žฉ์ด โ€œ๋›ฐ์–ด๋‚œ ์•„ํ‚คํ…์ฒ˜ยท์—”์ง€๋‹ˆ์–ด๋งโ€์œผ๋กœ ์ œํ•œ๋œ ์ปดํ“จํŒ…์—์„œ ํšจ์œจ์„ ๊ทน๋Œ€ํ™”ํ•  ๊ฒƒ์ด์ง€๋งŒ, ๊ฒฐ๊ตญ ๋ฏธ๊ตญ ๋Œ€๋น„ ์ˆ˜์‹ญ~์ˆ˜๋ฐฑ์–ต ๋‹ฌ๋Ÿฌ ๊ทœ๋ชจ์˜ Capex ์ฐจ์ด๊ฐ€ ์ปค์ง€๋Š” ๋ฌธ์ œ. ๋ง๋ ˆ์ด์‹œ์•„๋‚˜ ์ค‘๋ฆฝ๊ตญ์— ๋ฐ์ดํ„ฐ์„ผํ„ฐ ๊ฑด์„ค: ๊ทœ์ œ ๊ฐ•ํ™”๋กœ ์ธํ•ด ๋ง๋ ˆ์ด์‹œ์•„์—์„œ ๊ฑด์„ค ์ค‘์ด๋˜ ๋Œ€๊ทœ๋ชจ AI ๋ฐ์ดํ„ฐ์„ผํ„ฐ ๋“ฑ์ด ๋ถˆํ™•์‹คํ•ด์ง. ๋ฏธ๊ตญ์€ โ€œ๋™๋งน๊ตญ ์ค‘์‹ฌโ€์˜ ํด๋ผ์šฐ๋“œ๋งŒ ํ—ˆ์šฉํ•˜๊ฒ ๋‹ค๋Š” ๊ธฐ์กฐ์ด๋ฉฐ, ๊ทธ ์™ธ ๊ตญ๊ฐ€(์›1, ์›2 ๊ตฌ๋ถ„)์— ๋Œ€ํ•ด์„  ๋ณต์žกํ•œ ๊ทœ์ •๊ณผ ํ• ๋‹น๋Ÿ‰์„ ์ ์šฉ. 4. AI ๋ชจ๋ธ ์ง„ํ™”: ํ…Œ์ŠคํŠธ ํƒ€์ž„ ์ปดํ“จํŠธ(Test-time Compute) / Reasoning ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„: ์ „ํ†ต์ ์œผ๋กœ โ€œ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋Š˜๋ฆฌ๋Š” ์ „ํ†ต์  ์Šค์ผ€์ผ๋งโ€ ๋Œ€์‹ , ์‚ฌํ›„ํ›ˆ๋ จ(post-training)๊ณผ Test-time Compute(์ฆ‰ ์ฒด์ด๋‹๋œ ์ถ”๋ก ยทReasoning) ์ค‘์š”์„ฑ์ด ๋ถ€์ƒ. ์ด๋Š” ๋ชจ๋ธ ์ถ”๋ก (Inference)์—์„œ๋„ ์—„์ฒญ๋‚œ ์—ฐ์‚ฐ(โ€œ์ถ”๋ก  ๋น„์šฉโ€)์ด ํ•„์š”ํ•ด, ์ˆ˜๋ฐฑ์–ต ๋‹ฌ๋Ÿฌ ๊ทœ๋ชจ GPU ์ธํ”„๋ผ๊ฐ€ ํ•„์ˆ˜. ๋ฐ์ดํ„ฐ ์ฆ๋ฅ˜(Synthetic Data Generation) ์—ญํ• : ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ๋“ค์€ GPT-4 ๋“ฑ์„ ํ™œ์šฉํ•ด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค๊ณ , ๊ทธ์ค‘ ์ •ํ™•ํ•œ ์ƒ˜ํ”Œ๋งŒ ๋‹ค์‹œ ํ›ˆ๋ จ์— ํ™œ์šฉ(โ€œReasoning ์‚ฌํ›„ํ›ˆ๋ จโ€). ์ด๋Š” ์ค‘๊ตญ ๋“ฑ๋„ ์ ๊ทน ์‹œ๋„ํ•˜๋Š”๋ฐ, ๊ทœ์ œํ•˜์—์„œ ์–ผ๋งˆ๋‚˜ ๊ทœ๋ชจ ์žˆ๊ฒŒ ํ™•์žฅํ• ์ง€๋Š” ๋ฏธ์ง€์ˆ˜. โ€œOpen Sourceโ€ vs. โ€œClosedโ€ ๋ฉ”ํƒ€๊ฐ€ llama๋ฅผ ๊ณต๊ฐœํ–ˆ์œผ๋‚˜, ์‹ค์ œ ์ตœ๊ณ ์„ฑ๋Šฅ(์˜ˆ: llama4)๊นŒ์ง€ ์˜คํ”ˆ์†Œ์Šคํ• ์ง€๋Š” ๋ถˆํˆฌ๋ช…. Reasoning ๋Šฅ๋ ฅ์„ ๋†’์ธ ์ฒจ๋‹จ ๋ชจ๋ธ(์˜ˆ: GPT-5, Claude Next, OO ์‹œ๋ฆฌ์ฆˆ ๋“ฑ)์˜ ์ถ”๋ก  ๋น„์šฉ์ด ๋งค์šฐ ๋น„์‹ธ์ ธ, ์ž๋ณธ์ง‘์•ฝ์  ํˆฌ์ž๋งŒ์ด ๊ฐ€๋Šฅํ•ด์ง€๋Š” ๊ตฌ์กฐ. 5. ๊ธฐ์—…/ํ•˜์ดํผ์Šค์ผ€์ผ๋Ÿฌ๋ณ„ ๋Œ€์‘ ์ „๋žต Anthropic์™€ ํŠธ๋ ˆ์ด๋Š„(Trainium) ์‚ฌ๋ก€: โ€˜์•„๋งˆ์กด ๋ฒ ์ด์‹(๊ธฐ๋ณธํ˜•)โ€™ TPU๋ผ๋Š” ๋ณ„์นญ์ธ ํŠธ๋ ˆ์ด๋Š„์„ ํ™œ์šฉํ•˜๋Š” ์•คํŠธ๋กœํ”ฝ. ๋น„์šฉ ์ ˆ๊ฐ์„ ์œ„ํ•ด GPU ๋Œ€์‹  ํŠธ๋ ˆ์ด๋Š„(์„ฑ๋Šฅ์€ ์ƒ๋Œ€์  ์—ด์„ธ์ด์ง€๋งŒ AWS์™€ ์ œํœดยทํˆฌ์ž์œ ์น˜)์„ ํƒํ•จ. ์ด๋Ÿฌํ•œ ์ „๋žต์ด ์žฅ๊ธฐ์ ์œผ๋กœ ํ•ฉ๋ฆฌ์ ์ธ์ง€ ๋ถˆํ™•์‹คํ•˜๋‚˜, ๋‹น์žฅ์€ โ€œ๊ฐ•๋ ฅ ์ž๋ณธ + ํ• ์ธ๋œ ์ธํ”„๋ผโ€๊ฐ€ ๋งค๋ ฅ ์š”์ธ. OpenAI์˜ ์ž์ฒด์นฉ ์„ค๊ณ„ ๊ฐ€๋Šฅ์„ฑ: ํ˜„์žฌ Nvidia ๋…์ฃผ์ฒด์ œ์ง€๋งŒ, OpenAI๊ฐ€ ๋” ๊ทœ๋ชจ๊ฐ€ ์ปค์ง„๋‹ค๋ฉด(๋งค์ถœ ์ˆ˜๋ฐฑ์–ต ๋‹ฌ๋Ÿฌ ๋‹จ์œ„) ์ž์ฒด ์นฉ ์„ค๊ณ„๋ฅผ ๋ณธ๊ฒฉํ™”ํ•  ์ˆ˜ ์žˆ์Œ. ์—ฌํƒ€ ํ•˜์ดํผ์Šค์ผ€์ผ๋Ÿฌ(์•„๋งˆ์กด, ๊ตฌ๊ธ€, ๋ฉ”ํƒ€ ๋“ฑ)์ฒ˜๋Ÿผ, โ€˜์นฉ ํŒ€โ€™์˜ ์กด์žฌ ์ž์ฒด๊ฐ€ ํ˜‘์ƒ๋ ฅ ์ƒ์Šนํšจ๊ณผ๋ฅผ ๋…ธ๋ฆฌ๋Š” ๋ฉด๋„ ์žˆ์Œ. CoreWeave ์„ฑ์žฅ ๋น„๊ฒฐ: ์—”๋น„๋””์•„์˜ โ€œGPU ๋ฌผ๋Ÿ‰ ํ• ๋‹น+์†Œ์•ก ํˆฌ์žโ€๋ฅผ ํ†ตํ•ด ์ดˆ๊ธฐ ๋ฌผ๋Ÿ‰์„ ํ™•๋ณด. ๋ฏผ์ฒฉํ•œ ์„ค๊ณ„(์˜ˆ: ๋ฐ์ดํ„ฐ์„ผํ„ฐ ๊ตฌ์ถ• ์†๋„, ํด๋ผ์šฐ๋“œ ์†Œํ”„ํŠธ์›จ์–ด ์ตœ์ ํ™”)๋กœ ๊ธฐ์กด ๋น…ํด๋ผ์šฐ๋“œ๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ํŠน์ • ์—ญ๋Ÿ‰ ๋ณด์œ . ESG๋ณด๋‹ค๋Š” โ€œ๊ณ ์† ๊ตฌ์ถ•โ€์„ ๊ฐ•์ ์œผ๋กœ ๋‚ด์„ธ์›Œ ํŽ˜์ด์Šค๋ฅผ ๋†’์ž„. 6. ๋ฏธ๋ž˜ ์ „๋ง ๋ฐ ๊ฒฐ๋ก  1. ๊ทœ์ œ + ์ธํ”„๋ผ + ์—ฐ๊ตฌ ํŒจ๋Ÿฌ๋‹ค์ž„: ๋ฏธ๊ตญ ๋‚ด AI ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์ธํ”„๋ผ ํˆฌ์ž๊ฐ€ ํญ๋ฐœ์  ์ฆ๊ฐ€(์ˆ˜์ฒœ์–ต ๋‹ฌ๋Ÿฌ ๊ทœ๋ชจ). ๊ทœ์ œ๋กœ ์ธํ•ด ๊ธ€๋กœ๋ฒŒ ํด๋ผ์šฐ๋“œ ์‹œ์žฅ์€ ์†Œ์ˆ˜ ๋ฏธ๊ตญ ๊ธฐ์—…์ด ๋…์  ๊ฐ•ํ™”ํ•  ์ˆ˜๋„ ์žˆ์Œ. ์ค‘ยท์žฅ๊ธฐ์ ์œผ๋กœ ์ค‘๊ตญ์€ ์ž์ฒด ๊ธฐ์ˆ  ์ง„ํ™”(๋‹ค๋ฅธ ๊ฒฝ๋กœ์˜ ํ˜์‹ )๋กœ ์ถ”๊ฒฉ ๊ฐ€๋Šฅ์„ฑ๋„ ์—ด๋ ค ์žˆ์Œ. 2. ๋ถ„์‚ฐ ํ›ˆ๋ จ, ํ…Œ์ŠคํŠธํƒ€์ž„ ์ปดํ“จํŠธ, ์—๋„ˆ์ง€ ๊ณต๊ธ‰: ๋ชจ๋ธ ์ž์ฒด๊ฐ€ โ€œReasoning ์ฒด์ธโ€ ๋ฐฉ์‹์„ ์ฑ„ํƒํ•ด ์ถ”๋ก  ๋น„์šฉ ๊ธ‰์ฆ โ†’ ๋Œ€๊ทœ๋ชจ ์ „๋ ฅยท๋ƒ‰๊ฐยท๋„คํŠธ์›Œํ‚น ๋ณ‘๋ชฉ ๋ฐœ์ƒ. ๋ฏธ๊ตญ ๋‚ด ์ „๋ ฅ ์ธํ”„๋ผ ํ™•์ถฉ, ๊ทœ์ œ ์™„ํ™”, ์นœ(่ฆช) ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์ •์ฑ…์ด ์ค‘์š”ํ•˜๋‹ค๋Š” ์˜๊ฒฌ. 3. ํ•˜๋“œ์›จ์–ด ์Šคํƒ€ํŠธ์—…ยท์†Œํ”„ํŠธ์›จ์–ด ์ธํ”„๋ผ ๊ธฐํšŒ: ์ƒˆ๋กœ์šด AI ๋ฐ˜๋„์ฒด(์—์น˜๋“œ, ๋งˆ๋ฑ์Šค, ๋“ฑ) ๋ฐ ๋ถ„์‚ฐ ํ›ˆ๋ จ ์Šคํƒ€ํŠธ์—…์ด ๋“ฑ์žฅ ์ค‘์ด์ง€๋งŒ, Nvidia ๋“ฑ ๊ธฐ์กด ๊ฐ•์ž ๋Œ€๋น„ โ€œ์‚ฌ์šฉ ๋ชจ๋ธ ์ƒํƒœ๊ณ„โ€ ์ด์ ์ด ๋ถ€์กฑ. Infra ๋ ˆ์ด์–ด(ํšจ์œจ์ ์ธ AI serving, ๋ถ„์‚ฐ ํ›ˆ๋ จ, ๋ ˆ์ดํ„ด์‹œยท์ค‘๊ฐ„ ์บ์‹ฑ ๊ธฐ์ˆ  ๋“ฑ)์€ ํฐ ํˆฌ์žยทํ˜์‹  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค๊ณ  ๋ด„. ๊ฑฐ์‹œ ์‹œ์‚ฌ์ : ๋ฏธ๊ตญ์€ โ€œ์Šค์Šค๋กœ ๋” ๋นจ๋ฆฌ (infrastructure๋ฅผ) ์ง“๊ณ  ์—๋„ˆ์ง€๋ฅผ ํ™•๋Œ€ํ•˜์—ฌ ์Šน๋ฆฌโ€ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ€์•ผ ํ•œ๋‹ค๊ณ  ๋”œ๋Ÿฐ์€ ์ฃผ์žฅ. ์ค‘๊ตญ, ์ค‘๋™, ๋™๋‚จ์•„ ๋“ฑ ๋‹ค์–‘ํ•œ AI ํ—ˆ๋ธŒ ์‹œ๋„๊ฐ€ ์žˆ์—ˆ์ง€๋งŒ, ์ด๋ฒˆ ๊ด‘๋ฒ”์œ„ ๊ทœ์ œ๋กœ ์ƒ๋‹น ๋ถ€๋ถ„ ์ œ์•ฝ.

https://youtu.be/KYzYOPkxLis ๊ธ€๋กœ๋ฒŒ AI ์ธํ”„๋ผ & ๋Œ€ํ˜• ํˆฌ์ž ๊ฒฝ์Ÿ GPU ์ˆ˜์š” ํญ์ฆ๊ณผ ์บํŒŒ(Capacity) ํ•œ๊ณ„: x.ai(Elon Musk)๋‚˜ Anthropic(์•„๋งˆ์กด ํ›„์›), Google(DeepMind), Meta ๋“ฑ ์ดˆ๊ฑฐ๋Œ€ ๋ชจ๋ธ๋“ค์ด ๋ชจ๋‘ GPU ์ฆ์„ค ๊ฒฝ์Ÿ. ์ œ์กฐ์‚ฌ(Nvidia ๋“ฑ)์˜ ์—ฐ๊ฐ„ GPU ์ƒ์‚ฐ๋Šฅ๋ ฅ์„ ๊ฐ์•ˆํ•  ๋•Œ, ๋Œ€๊ทœ๋ชจ ์‹ ๊ทœ ํ”„๋กœ์ ํŠธ(Stargate ๋“ฑ)๋Š” ๊ฒฐ๊ตญ GPUยท์ „๋ ฅยท๋ฉ”๋ชจ๋ฆฌยท์—”์ง€๋‹ˆ์–ด๋ง์ด ๋ณ‘๋ชฉ์ด ๋  ๊ฒƒ์œผ๋กœ ๋ณด์ž„. ์ด ๊ณผ์ •์—์„œ Nvidia์˜ ์ˆ˜์š”๊ฐ€ ๋”์šฑ ์ฆ๊ฐ€, ๊ธฐ์—… ๋งค์ถœ ๊ธฐ๋Œ€์น˜ ์ƒ์Šน. Innovation vs. Commoditization: ์ผ๋ถ€ ์ „๋ฌธ๊ฐ€๋Š” ๊ทœ๋ชจ์˜ ๊ฒฝ์ œ์™€ ๋ญ‰์นซ๋ˆ์ด ๋ชจ์ด๋ฉด, ๊ณง AI ๋ชจ๋ธ๋“ค์˜ โ€˜์œ ์‚ฌ Commoditizationโ€™์ด ์˜ฌ ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ง€์ . ๊ทธ๋Ÿฌ๋‚˜ Sam Altman(์˜คํ”ˆAI), Elon Musk(x.ai)์ฒ˜๋Ÿผ โ€œ๋ง‰๋Œ€ํ•œ ์ž๋ณธ+๋…๋ณด์  ๋ชจ๋ธ๋งยท๋ฐ์ดํ„ฐโ€ ์กฐํ•ฉ์ด ๊ฒฐ๊ตญ ์Šน์ž๋กœ ๊ท€๊ฒฐ๋  ๊ฒƒ์ด๋ผ๋Š” ์ „๋ง๋„ ๊ณต์กด. ๊ตญ๊ฐ€ ๊ฒฝ์Ÿ๊ตฌ๋„: ๋ฏธ๊ตญ์ด ๋Œ€๊ทœ๋ชจ AI compute ์„ผํ„ฐ ๊ฑด์„ค์— ๋ฐ•์ฐจ๋ฅผ ๊ฐ€ํ•˜๋ฉด, MetaยทGoogleยทMicrosoft ๋“ฑ ์ž๊ตญ ํ…Œํฌ ๊ธฐ์—…๋„ ๋Œ€์‘ Capex ์ฆ์„ค์ด ๋ถˆ๊ฐ€ํ”ผ. ์ค‘๊ตญ์€ ์–ด์ฉ” ์ˆ˜ ์—†์ด โ€˜์ œํ•œ๋œ ์นฉ ํ™˜๊ฒฝโ€™์—์„œ ํ˜์‹ (์••์ถ• ๋ชจ๋ธยท์ฆ๋ฅ˜ ๋ชจ๋ธ ๋“ฑ)์„ ๊ฐ€์†ํ™” ์ค‘. DeepSeek ์‚ฌ๋ก€๊ฐ€ ๋Œ€ํ‘œ์ . ๋Œ€๋‹ด์ž๋“ค์€ ํ˜„ํ–‰ ์ˆ˜์ถœ ์ œํ•œ์ด ์˜คํžˆ๋ ค ์ค‘๊ตญ ์ธก์— ์ฐฝ์˜์  ์†”๋ฃจ์…˜์„ ์œ ๋„ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ง€์ . ์ „๋ ฅ ์ˆ˜์š”๊ฐ€ ๊ธฐ๊ฐ€์™€ํŠธ(GW) ๊ธ‰: 10๋งŒ GPU ์ˆ˜์ค€์˜ โ€˜AI ํŒฉํ† ๋ฆฌโ€™๋„ 100MW ์ด์ƒ์˜ ์ „๋ ฅ์ด ์†Œ์š”๋œ๋‹ค๊ณ  ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ์ด์ƒ์˜ ๊ทœ๋ชจ๊ฐ€ ๋˜๋ฉด ์ตœ๋Œ€ 1GW์— ์ด๋ฅด๋Š” ์ „๋ ฅ ์ธํ”„๋ผ๋„ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค(์ฐธ๊ณ ๋กœ, 1GW๋Š” ์•ฝ 100๋งŒ ๊ฐ€๊ตฌ๊ฐ€ ์‚ฌ์šฉํ•˜๋Š” ์ „๋ ฅ๋Ÿ‰์— ํ•ด๋‹น). ์ˆ˜ GW ๊ทœ๋ชจ์˜ ๋ถ€์ง€ยท์ „๋ ฅยท๋ƒ‰๊ฐ ์ธํ”„๋ผ๋ฅผ ๊ฑด์„คํ•  ์ˆ˜ ์žˆ์–ด์•ผ โ€œ๋งค์šฐ ํฌ๋‹คโ€๊ณ  ํ‰๊ฐ€ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ˆ˜๋ฐฑ์–ต~์ˆ˜์ฒœ์–ต ๋‹ฌ๋Ÿฌ๊ธ‰ ํˆฌ์ž ๊ทœ๋ชจ: ์—”๋น„๋””์•„ H100 GPU 1์žฅ๋งŒ ํ•ด๋„ ์•ฝ 2~3๋งŒ ๋‹ฌ๋Ÿฌ, ์„œ๋ฒ„ยท๋ƒ‰๊ฐยท๋„คํŠธ์›Œํ‚นยท๋ถ€์ง€ ๋“ฑ์„ ์ข…ํ•ฉํ•˜๋ฉด GPU 1์žฅ๋‹น 4~5๋งŒ ๋‹ฌ๋Ÿฌ์˜ Total System Cost๊ฐ€ ๋“ ๋‹ค๋Š” ์ถ”์ •์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ 10๋งŒ ์žฅ๋งŒ ํ•ด๋„, ํ•˜๋“œ์›จ์–ดยท์ธํ”„๋ผ ๋น„์šฉ์ด 50์–ต ๋‹ฌ๋Ÿฌ์— ๋‹ฌํ•˜๊ณ , ์‹ค์ œ๋กœ๋Š” ์ „๋ ฅ ์„ค๋น„/์‹œ๊ณต ๋น„์šฉ ๋“ฑ์ด ๋”ํ•ด์ ธ ๊ทธ 2~3๋ฐฐ๋กœ ๋›ธ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค. SoftBank(Arm)์™€ OpenAI์˜ ํ˜‘์—…์ด ๊ตฌ์ฒดํ™”๋  ๊ฒฝ์šฐ, ์ˆ˜์‹ญ๋งŒ ์žฅ GPU ์‚ฌ์šฉ, ์ˆ˜๋ฐฑ์–ต ๋‹ฌ๋Ÿฌ๊ธ‰ Capex๊ฐ€ ๋“ค์–ด๊ฐˆ ์ˆ˜ ์žˆ์–ด โ€œ์ดˆ๋Œ€ํ˜•โ€์ด๋ผ ํ‰๊ฐ€๋˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. AI Helm vs. Micro-model ํ˜์‹  ๋”ฅ์”จํฌ(DeepSeek) ๋“ฑ์€ ์ œํ•œ๋œ GPU๋กœ๋„ ๊ณ ์„ฑ๋Šฅ ๋ชจ๋ธ ๋‹ฌ์„ฑ(๋ชจ๋ธ ์••์ถ•ยท์ฆ๋ฅ˜ ๊ธฐ๋ฒ•) โ†’ ๊ทœ์ œ๊ฐ€ ์—ญ์„ค์ ์œผ๋กœ ํ˜์‹ . ์ค‘์š” ์‹คํ–‰ ๊ณผ์ œ ์ „๋ ฅ ํ™•๋ณด(7GW~10GW ์ด์ƒ), GPU ์ƒ์‚ฐํ•  ํŒน ์บํŒŒ(3nm ๊ณต์ •), ๋Œ€๊ทœ๋ชจ HBM ๊ณต๊ธ‰, ๋ƒ‰๊ฐยท์ผ€์ด๋ธ” ์ธํ”„๋ผ ๋“ฑ ์ข…ํ•ฉ์  ์ฐจ์›์˜ ํ˜‘์—… ํ•„์š”. ๋ฏธ๊ตญ ๋Œ€ํ˜• ํ…Œํฌ ๊ธฐ์—…(๊ตฌ๊ธ€, ๋ฉ”ํƒ€, ์•„๋งˆ์กด, x.ai)๋„ ํ˜น๋…ํ•œ Capex ๊ฒฝ์Ÿ ์˜ˆ์ƒ. ๋ฐ˜๋„์ฒด ์ƒ์‚ฐ ์บํŒŒ(Capacity) ์ž์ฒด ํ™•์ถฉ: GPUยทAI์šฉ ASIC ๋“ฑ ์ƒ์‚ฐ์„ ๋‹ด๋‹นํ•˜๋Š” ํŒŒ์šด๋“œ๋ฆฌ(์ฃผ๋กœ TSMC)๋‚˜ ์ธํ…”ยท์‚ผ์„ฑ์ „์ž๊ฐ€ 3nmยท2nm ๊ณต์ •์œผ๋กœ ๋Œ€๋Ÿ‰ ์–‘์‚ฐํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ณต์žฅ๋ผ์ธยท์žฅ๋น„(ASML ๋…ธ๊ด‘์žฅ๋น„ ๋“ฑ)๋ฅผ ์ฆ์„คํ•ด์•ผ ํ•จ. CPU ์ƒ์‚ฐ์˜ ๊ฒฝ์šฐ๋„ Arm ์•„ํ‚คํ…์ฒ˜ ๊ธฐ๋ฐ˜ SoC๋ฅผ ๋Œ€๊ทœ๋ชจ๋กœ ๋งŒ๋“ค๋ ค๋ฉด, ํŒŒ์šด๋“œ๋ฆฌ์™€์˜ ํ˜‘์—…ยทํˆฌ์ž ํ•„์š”. HBM(๊ณ ๋Œ€์—ญํญ ๋ฉ”๋ชจ๋ฆฌ) ๋“ฑ ๋ณด์กฐ ๋ถ€ํ’ˆ์˜ ์•ˆ์ •์  ์กฐ๋‹ฌ๋ง ๊ตฌ์ถ•: AI ์„œ๋ฒ„์—๋Š” GPU๋ฟ ์•„๋‹ˆ๋ผ ๋Œ€์šฉ๋Ÿ‰ HBM ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ํ•„์ˆ˜์ธ๋ฐ, HBM ์ œ์กฐ(์‚ผ์„ฑยทํ•˜์ด๋‹‰์Šค ๋“ฑ)๋Š” ์บํŒŒ๊ฐ€ ์ œํ•œ์ ์ž„. ์‹ค์ œ๋กœ 2023๋…„~2024๋…„ ์ „ ์„ธ๊ณ„ HBM์ด ๊ณต๊ธ‰ ๋ถ€์กฑ์ด ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ์šฐ๋ ค๊ฐ€ ๊พธ์ค€ํžˆ ์ œ๊ธฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ AI ๊ธฐ์—…๋“ค์€ โ€œCPU/GPU์นฉ+HBM+Advanced Packagingโ€ ๋“ฑ ์ „์ฒด ๋ฐ˜๋„์ฒด ๊ณต๊ธ‰๋ง์„ ์žฅ๊ธฐ ๊ณ„์•ฝยท์ง์ ‘ ํˆฌ์ž ๋“ฑ์œผ๋กœ ํ™•๋ณดํ•ด์•ผ ํ•˜๋ฉฐ, ์ด๊ฒƒ์„ โ€œ๋ฐ˜๋„์ฒด ํŒŒ์ดํ”„๋ผ์ธ ํ™•์ถฉโ€์ด๋ผ ๋ถ€๋ฆ…๋‹ˆ๋‹ค.

โ€œ์ˆ˜ํ•™์ด ๊ณง ์ถ”๋ก โ€์ด๋ผ๋Š” ๋ฏฟ์Œ ์ˆ˜ํ•™์„ ์ง์ ‘ ๊ฐ€๋ฅด์ณ์•ผ ํ•˜๋Š” ์ด์œ  ๋Œ€๊ทœ๋ชจ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ(LLM)๋“ค์ด ์ธํ„ฐ๋„ท ํ…์ŠคํŠธ ์ „๋ฐ˜(์ฝ”๋“œ, ์ž์—ฐ์–ด, ๋…ผ๋ฌธ ๋“ฑ)์„ ํ•™์Šตํ•ด โ€˜์ž์—ฐ์Šค๋Ÿฝ๊ฒŒโ€™ ์ˆ˜ํ•™ ๋Šฅ๋ ฅ์„ ์ตํž ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ธฐ๋Œ€ํ•˜์ง€๋งŒ, ์‹ค์ œ๋กœ๋Š” ๋ฏธํกํ•จ. โ€œ์ˆ˜ํ•™์€ ๊ฐ๊ด€์ ์ด๊ณ  ์—„๊ฒฉํ•œ ๋…ผ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐโ€, ์ด๋ฅผ AI์— ์ง์ ‘ ํ•™์Šต์‹œ์ผœ์•ผ ์ง„์ •ํ•œ โ€˜์ถ”๋ก  ๋Šฅ๋ ฅโ€™์ด ์ƒ๊ธด๋‹ค๊ณ  ๋ด„. ์ธ๊ฐ„ ์‚ฌ๋ก€: ์–ด๋ฆด ๋•Œ ์ˆ˜ํ•™(ํŠนํžˆ ์–ด๋ ต๊ณ  ์ถ”์ƒ์ ์ธ ๋ฌธ์ œ)์„ ํ›ˆ๋ จํ•œ ์‚ฌ๋žŒ๋“ค์ด ๋‹ค๋ฅธ ๊ณผํ•™ยท๊ณตํ•™ยท๋…ผ๋ฆฌ์  ์ž‘์—…์— ๋›ฐ์–ด๋‚œ ์—ญ๋Ÿ‰์„ ๋ฐœํœ˜ํ•˜๋“ฏ, AI๋„ ๋งˆ์ฐฌ๊ฐ€์ง€ ํŒจํ„ด์„ ๋ณด์ผ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ. ์ˆ˜ํ•™์„ ์ž˜ํ•˜๋ฉด ๋‹ค๋ฅธ ๋ถ„์•ผ๋„ ์ž˜ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€? ์ฝ”๋“œ ์˜ˆ์‹œ: ์ด๋ฏธ ์—…๊ณ„์—์„œ โ€œ์ฝ”๋“œ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•˜๋ฉด ๋…ผ๋ฆฌยท์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜๊ฐ€ ํฌ๊ฒŒ ์˜ฌ๋ผ๊ฐ„๋‹คโ€๋Š” ์‚ฌ์‹ค์ด ์•Œ๋ ค์ ธ ์žˆ์Œ. ์ˆ˜ํ•™์€ ๊ทธ๋ณด๋‹ค ๋” ํ™•์žฅ๋œ ๋ฒ”์œ„์˜ ๋…ผ๋ฆฌ ํ›ˆ๋ จ์„ ์ œ๊ณต. ๋ธ”๋ผ๋“œ ํ…Œ๋„ค๋ธŒ ๋ณธ์ธ์˜ ๊ฒฝํ—˜: ๋Œ€ํ•™ ์‹œ์ ˆ ์ˆ˜ํ•™์— ๋ชฐ๋‘ํ–ˆ์œผ๋‚˜, ์ดํ›„ ํ”„๋กœ๊ทธ๋ž˜๋ฐยท๊ธฐ์—… ๊ฒฝ์˜ยท๊ณ„์•ฝ์„œ ๋ถ„์„ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ๋ฅผ ๋น ๋ฅด๊ฒŒ ์ตํž ์ˆ˜ ์žˆ์—ˆ๋‹ค๊ณ  ์–ธ๊ธ‰. AI๊ฐ€ ๋ฆฌ๋งŒ ๊ฐ€์„ค(Riemann Hypothesis) ๋“ฑ์„ ํ’€ ์ˆ˜ ์žˆ์„๊นŒ? ์ˆ˜ํ•™๊ณ„์˜ ์‹œ๊ฐ ์ Š์€ ์ˆ˜ํ•™์ž๋“ค์€ Lean, ์ž๋™์ฆ๋ช…, AI ์—ฐ๊ตฌ์— ๋น„๊ต์  ๊ฐœ๋ฐฉ์ ยท๊ธ์ •์ ์ธ ๋ฐ˜๋ฉด, ์ „ํ†ต์ ์ธ ํ•™๊ณ„ ์›๋กœ๋“ค์€ ์•„์ง ๋‹ค์†Œ ํšŒ์˜์ . ๊ทธ๋Ÿฌ๋‚˜ ์ ์ฐจ โ€˜AI ๋ณด์กฐ ์ˆ˜ํ•™ ์—ฐ๊ตฌ(Human+AI ํ˜‘๋ ฅ)โ€™๊ฐ€ ๋ณดํŽธํ™”๋  ๊ฒƒ์ด๋ผ๋Š” ๋ฐ์—๋Š” ๊ณต๊ฐ๋Œ€๊ฐ€ ํ˜•์„ฑ๋˜๊ณ  ์žˆ์Œ. ๋ฆฌ๋งŒ ๊ฐ€์„ค ๋“ฑ ๋ฐ€๋ ˆ๋‹ˆ์—„ ๋‚œ์ œ ๋ฉ”ํƒ€ํ˜๋Ÿฌ์Šค(Metaculus) ์˜ˆ์ธก: โ€œ๋‹ค์Œ ๋ฐ€๋ ˆ๋‹ˆ์—„ ํ”„๋ผ์ด์ฆˆ๋ฅผ AI ํ˜น์€ AI ๋ณด์กฐ๋กœ ํ•ด๊ฒฐํ•  ํ™•๋ฅ ์ด 43%โ€๋ผ๋Š” ์ง‘๊ณ„๊ฐ€ ์žˆ์œผ๋‚˜, ๋ธ”๋ผ๋“œ๋Š” ์ด๋ฅผ โ€œ๊ณผ์†Œํ‰๊ฐ€โ€๋ผ๊ณ  ๋ด„. ์กฐ๋งŒ๊ฐ„(๊ฐ€๋ น 2020๋…„๋Œ€ ๋ง~2030๋…„๋Œ€ ์ดˆ)์— AI๊ฐ€ ์ธ๊ฐ„ ํ˜‘์—… ๋˜๋Š” ๋‹จ๋…์œผ๋กœ ์ฃผ์š” ๋‚œ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค๊ณ  ์ „๋ง. ์ธ๊ฐ„์ด ํ•ด์•ผ ํ•  ์—ญํ•  AI๊ฐ€ ์ ์ฐจ ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ๋ ฅ์„ ๋†’์ด๋”๋ผ๋„, โ€œ์–ด๋–ค ๋ฌธ์ œ์— compute ์ž์›์„ ํˆฌ์ž…ํ• ์ง€ ๊ฒฐ์ •โ€ํ•˜๋Š” ๊ฒƒ์€ ์ธ๊ฐ„์˜ ๋ชซ. ๋˜ํ•œ โ€œ์ƒˆ๋กœ์šด ๋ฌธ์ œ๋ฅผ ์–ด๋–ป๊ฒŒ ์ œ์‹œํ•˜๊ณ , ์ฆ๋ช…๋œ ๊ฒฐ๊ณผ๋ฅผ ์–ด๋–ป๊ฒŒ ํ•ด์„ํ• ์ง€โ€ ๋“ฑ์˜ ๊ณผ์ •์—์„œ ์ธ๊ฐ„ ์ˆ˜ํ•™์ž๋“ค์€ ๊ณ„์† ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•  ๊ฒƒ. Lean(๊ณต์‹ ์ฆ๋ช… ์‹œ์Šคํ…œ) ํ™œ์šฉ๊ณผ ์ž๊ธฐ๊ฐ•ํ™”(Self-play) Lean์ด๋ž€? ๋งˆ์ดํฌ๋กœ์†Œํ”„ํŠธ ์—ฐ๊ตฌ์›(ํ˜„์žฌ๋Š” AWS ์†Œ์†) ๋ ˆ์˜ค ๋“œ ๋ชจ๋ผ(Leo de Moura)๊ฐ€ ๊ฐœ๋ฐœํ•œ ํ˜•์‹ ๋…ผ๋ฆฌ(Proof Assistant) ๊ธฐ๋ฐ˜ ์–ธ์–ด. ์›๋ž˜๋Š” โ€˜์†Œํ”„ํŠธ์›จ์–ด ๊ฒ€์ฆโ€™์„ ๋ชฉํ‘œ๋กœ ํ–ˆ์ง€๋งŒ, ์ˆ˜ํ•™๊ณ„์—์„œ ํญ๋ฐœ์ ์œผ๋กœ ํ™•์‚ฐ๋˜์–ด ์ˆ˜์ฒœ ๋ช… ์ด์ƒ์˜ ์ˆ˜ํ•™์ž๋“ค์ด Mathlib ์˜คํ”ˆ์†Œ์Šค ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ๊ตฌ์ถ• ์ค‘. ๋ชจ๋“  ์ •๋ฆฌ๋Š” Lean์˜ ํƒ€์ž… ์‹œ์Šคํ…œ ์•ˆ์— โ€˜ํ•จ์ˆ˜(signature)โ€™ ํ˜•ํƒœ๋กœ ํ‘œํ˜„๋˜๋ฏ€๋กœ, ์ฆ๋ช…๋งŒ ํ†ต๊ณผํ•˜๋ฉด 100% ์˜ณ์€ ๊ฒƒ์œผ๋กœ ๊ฐ„์ฃผ ๊ฐ€๋Šฅ. ์™œ ์ˆ˜ํ•™ AI์— Lean์ด ํ•„์ˆ˜์ธ๊ฐ€? ์ผ๋ฐ˜ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜์˜ โ€œ์ •๋‹ต ์—ฌ๋ถ€โ€ ํŒ๋‹จ์€ ๋ชจํ˜ธํ•˜๊ฑฐ๋‚˜ ์žก์Œ์ด ๋งŽ๋‹ค. Lean ์•ˆ์—์„œ๋Š” โ€œ์ฆ๋ช…์ด ์ปดํŒŒ์ผ๋˜๋ฉด ์˜ณ์Œ์ด ํ™•์ •โ€๋˜๋ฏ€๋กœ, ๊ฐ•ํ™”ํ•™์Šต(RL)๊ณผ ์ž๊ธฐ๊ฒ€์ฆ(self-play)์— ์ด์ƒ์ . ์ฒด์Šค๋‚˜ ๋ฐ”๋‘‘์ฒ˜๋Ÿผ ํ•ด๊ฐ€ ์œ ํ•œํ•œ ๊ฒŒ์ž„๊ณผ ๋‹ฌ๋ฆฌ, ์ˆ˜ํ•™ ๋ฌธ์ œ๋Š” ๋ฌดํ•œํ•œ ๋‹ค์–‘์„ฑ๊ณผ ๋‚œ์ด๋„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฏ€๋กœ AI๊ฐ€ ๋Š์ž„์—†์ด ๋” ๋†’์€ ๊ฒฝ์ง€๋กœ ์˜ฌ๋ผ๊ฐˆ ์ˆ˜ ์žˆ์Œ(โ€œAlphaZeroโ€ ๋ฐฉ์‹). ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ(synthetic data) ํ•˜๋ชจ๋‹‰์€ ๊ธฐ์กด์— ์กด์žฌํ•˜๋Š” Mathlibยท๋…ผ๋ฌธยท์ธํ„ฐ๋„ท ์ˆ˜ํ•™ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ๋Š” ๋ถ€์กฑํ•˜๋‹ค๊ณ  ํŒ๋‹จ. ๊ฒฐ๊ตญ AI๊ฐ€ ์ž์ฒด์ ์œผ๋กœ ์ˆ˜๋งŽ์€ ๋ฌธ์ œ๋ฅผ ๋งŒ๋“ค์–ด(์ž๊ธฐ ์ถœ์ œ) ํ’€๊ณ (์ž๊ธฐ ํ•ด๊ฒฐ), ๊ฒ€์ฆํ•˜๋Š” ๋ฃจํ”„๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ด์•ผ ํ•จ. ์ด๋ ‡๊ฒŒ โ€œ์ฆ๋ช… ๋‚œ์ด๋„โ€๋„ ์ ์ฐจ ๋†’์ด๋Š” ๋ฐฉ์‹์œผ๋กœ ์ ์ง„์  ์ž๊ธฐํ•™์Šต์„ ๊ตฌํ˜„. ๋ชฉํ‘œ: ์ธ๊ฐ„ ์ง€์‹์˜ ๊ฒฝ๊ณ„๋ฅผ ํ™•์žฅ ๋‹น์žฅ์—๋Š” โ€œAI ์ˆ˜ํ•™ ์—ฐ๊ตฌ์žโ€๊ฐ€ ๋˜์–ด, ๋Œ€ํ˜• ๋‚œ์ œ๋ฅผ ํ‘ธ๋Š” ๋ฐ ๊ธฐ์—ฌ. (์˜ˆ: ๋ฐ€๋ ˆ๋‹ˆ์—„ ๋ฌธ์ œ, ๋ฆฌ๋งŒ ๊ฐ€์„ค, ๋‚˜๋ธŒ-์Šคํ†ก์Šค ๋“ฑ) ๊ทธ ๊ณผ์ •์—์„œ ํ˜•์„ฑ๋˜๋Š” โ€œ์ˆ˜๋ฆฌ ์ถ”๋ก  ๋Šฅ๋ ฅโ€์ด ๊ฒฐ๊ตญ ๋ฌผ๋ฆฌํ•™, ์ด๋ก  ๊ณผํ•™, ์†Œํ”„ํŠธ์›จ์–ด ๊ฒ€์ฆ ๋“ฑ์œผ๋กœ ํ™•์žฅ๋  ๊ฒƒ. ์ถ”ํ›„์—๋Š” โ€œ์†Œํ”„ํŠธ์›จ์–ด๋ฅผ ์ž๋™์œผ๋กœ ์™„๋ฒฝ ๊ฒ€์ฆโ€ํ•˜๋Š” ์‹œ๋Œ€๊ฐ€ ๋„๋ž˜ํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Œ. ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง ํŒจ๋Ÿฌ๋‹ค์ž„ ์ „ํ™˜ ์ธ๊ฐ„์ด ์ง์ ‘ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜๊ณ  ๊ฒ€ํ† ํ•˜๋˜ ๋ฐฉ์‹์—์„œ, ์•ž์œผ๋กœ๋Š” โ€œ์‚ฌ์–‘(์ŠคํŽ™)โ€ ์œ„์ฃผ๋กœ ํ˜‘์—…ํ•˜๊ณ , ์‹ค์ œ ์ฝ”๋“œ ๊ตฌํ˜„๊ณผ ๊ฒ€์ฆ์€ ๊ฑฐ์˜ AI๊ฐ€ ์ˆ˜ํ–‰. ๋น„์šฉ์ด ๋น„์‹ธ๊ณ  ๋ณต์žกํ–ˆ๋˜ โ€œํฌ๋ฉ€ ๊ฒ€์ฆ(formal verification)โ€๋„ AI ๋•๋ถ„์— ์ €๋น„์šฉยท์ž๋™ํ™”๋กœ ์ „ํ™˜๋  ์ˆ˜ ์žˆ์Œ. ๊ธฐ์ˆ ์ ์œผ๋กœ ๋‚จ์€ ๊ณผ์ œ ์•„์ง Lean๊ณผ Mathlib์ด ์ผ๋ถ€ ๋ถ„์•ผ(์˜ˆ: ๊ธฐํ•˜ํ•™, ๋ฌผ๋ฆฌ ๋“ฑ)์—์„  ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๊ฐ€ ์ œํ•œ์ . โ€œAI๊ฐ€ ์ž๋™์œผ๋กœ ์ƒˆ๋กœ์šด ์ด๋ก ยท๊ณต๋ฆฌ๋ฅผ ์ •์˜ํ•˜๊ณ , ์ด๋ฅผ ๋‹ค์‹œ Lean์— ํฌ์„ญโ€ํ•˜๋Š” ์ž‘์—…์ด ์™„์ „ํžˆ ์ž๋™ํ™”๋˜๋ ค๋ฉด ์—ฐ๊ตฌ๊ฐ€ ๋” ํ•„์š”. ๊ทธ๋Ÿฌ๋‚˜ 1~2๋…„ ์ด๋‚ด์— โ€œIMO ์ˆ˜์ค€(๊ตญ์ œ์ˆ˜ํ•™์˜ฌ๋ฆผํ”ผ์•„๋“œ ์šฐ์Šน ์ˆ˜์ค€)โ€์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ๊ณ , ๊ทธ ํ›„ ๋งค์šฐ ๋น ๋ฅธ ์†๋„๋กœ ์„ฑ์žฅํ•  ๊ฒƒ์ด๋ผ๋Š” ์ „๋ง. https://youtu.be/NvAxuCIBb-c

๋ฉ”ํƒ€์˜ ์ƒ์„ฑ AI ์กฐ์ง์ด ํŒจ๋‹‰ ์ƒํƒœ์— ๋น ์กŒ์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ๊ฒƒ์€ deepseek v3์—์„œ ์‹œ์ž‘๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์ด Llama 4๋ฅผ ์ด๋ฏธ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋’ค์ฒ˜์ง€๊ฒŒ ๋งŒ๋“ค์—ˆ์ฃ . ์„ค์ƒ๊ฐ€์ƒ์œผ๋กœ โ€œ5~5๋ฐฑ๋งŒ ๋‹ฌ๋Ÿฌ์˜ ์˜ˆ์‚ฐ์œผ๋กœ ํ›ˆ๋ จํ•œ ์ •์ฒด๋ถˆ๋ช…์˜
๋ฉ”ํƒ€์˜ ์ƒ์„ฑ AI ์กฐ์ง์ด ํŒจ๋‹‰ ์ƒํƒœ์— ๋น ์กŒ์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ๊ฒƒ์€ deepseek v3์—์„œ ์‹œ์ž‘๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์ด Llama 4๋ฅผ ์ด๋ฏธ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋’ค์ฒ˜์ง€๊ฒŒ ๋งŒ๋“ค์—ˆ์ฃ . ์„ค์ƒ๊ฐ€์ƒ์œผ๋กœ โ€œ5~5๋ฐฑ๋งŒ ๋‹ฌ๋Ÿฌ์˜ ์˜ˆ์‚ฐ์œผ๋กœ ํ›ˆ๋ จํ•œ ์ •์ฒด๋ถˆ๋ช…์˜ ์ค‘๊ตญ ํšŒ์‚ฌโ€๊ฐ€ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ์—”์ง€๋‹ˆ์–ด๋“ค์€ deepseek์„ ํ•„์‚ฌ์ ์œผ๋กœ ๋ถ„์„ํ•˜๋ฉฐ ๊ฑฐ๊ธฐ์„œ ๋ฐฐ์šธ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ๊ฒƒ์„ ๋ฒ ๊ปด ์˜ค๋ ค๊ณ  ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ •๋ง ๊ณผ์žฅ์ด ์•„๋‹™๋‹ˆ๋‹ค. ๊ฒฝ์˜์ง„์€ ์ƒ์„ฑ AI ์กฐ์ง์˜ ๋ง‰๋Œ€ํ•œ ๋น„์šฉ์„ ์–ด๋–ป๊ฒŒ ์ •๋‹นํ™”ํ•  ์ˆ˜ ์žˆ์„์ง€ ์šฐ๋ คํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์กฐ์ง ๋‚ด โ€œ๋ฆฌ๋”โ€ ํ•œ ๋ช…์ด deepseek v3์˜ ์ „์ฒด ํ›ˆ๋ จ ๋น„์šฉ๋ณด๋‹ค ๋” ๋งŽ์€ ์—ฐ๋ด‰์„ ๋ฐ›๊ณ  ์žˆ๊ณ , ๊ทธ๋Ÿฐ โ€œ๋ฆฌ๋”โ€๊ฐ€ ์—ฌ๋Ÿฌ ๋ช…์ด๋‚˜ ๋˜๋‹ˆ ๋ง์ž…๋‹ˆ๋‹ค. deepseek r1์€ ์ƒํ™ฉ์„ ๋”์šฑ ์•…ํ™”์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๊ธฐ๋ฐ€ ์ •๋ณด๋ผ ์ž์„ธํžˆ ๋ฐํž ์ˆ˜๋Š” ์—†์ง€๋งŒ ๊ณง ๊ณต๊ฐœ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‚ฌ์‹ค ์ด ์กฐ์ง์€ ์†Œ๊ทœ๋ชจ์˜ ์—”์ง€๋‹ˆ์–ด๋ง ์ค‘์‹ฌ ์กฐ์ง์ด ๋˜์—ˆ์–ด์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์—ฌ๋Ÿฌ ์‚ฌ๋žŒ๋“ค์ด ์˜ํ–ฅ๋ ฅ์„ ์–ป๊ธฐ ์œ„ํ•ด ์กฐ์ง์œผ๋กœ ๋ชฐ๋ ค๋“ค๊ณ , ์ธ๋ ฅ์„ ์ธ์œ„์ ์œผ๋กœ ๋ถ€ํ’€๋ฆฐ ๊ฒฐ๊ณผ ๋ชจ๋‘์—๊ฒŒ ํ•ด๊ฐ€ ๋˜๊ณ  ๋ง์•˜์Šต๋‹ˆ๋‹ค.

https://youtu.be/XJsHIoIDhPY 1) ๋”ฅ๋Ÿฌ๋‹์˜ ํšจ์œจ์  ๋ฐฉ์‹๊ณผ โ€œํ™•์žฅ(์Šค์ผ€์ผ์—…) + ํ†ต๊ณ„โ€ ์ ‘๊ทผ (1) ๋”ฅ๋Ÿฌ๋‹์˜ ํšจ์œจ์  ๋ฐฉ์‹์ด๋ž€? ์ „ํ†ต์ ์ธ โ€œ๊ธฐํ˜ธ์  AIโ€๋‚˜ โ€œ๊ทœ์น™ ๊ธฐ๋ฐ˜(If-Then)โ€ ์ ‘๊ทผ์€, ์‚ฌ๋žŒ์ด ์ง์ ‘ ๊ทœ์น™์„ ๋งŒ๋“ค์–ด์ค˜์•ผ ํ–ˆ์Œ. ๋ฐ˜๋ฉด ๋”ฅ๋Ÿฌ๋‹์€ ๋ชจ๋ธ์— ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋ฅผ ๋„ฃ๊ณ , ๋ชจ๋ธ์ด ํŒŒ๋ผ๋ฏธํ„ฐ(๊ฐ€์ค‘์น˜)๋ฅผ ์Šค์Šค๋กœ ํ•™์Šตํ•˜์—ฌ ๊ทœ์น™์„ โ€˜์ถ”๋ก โ€™ํ•œ๋‹ค. ์ด ๊ณผ์ •์—์„œ ํ•„์š”ํ•œ ๊ฒƒ์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ, ๋Œ€๊ทœ๋ชจ ๊ณ„์‚ฐ(์ปดํ“จํŒ…), ํšจ์œจ์ ์ธ ๋ชจ๋ธ ๊ตฌ์กฐ(์˜ˆ: ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง, ํŠธ๋žœ์Šคํฌ๋จธ ๋“ฑ). (2) ์Šค์ผ€์ผ ์—…(scaling)์ด ์ค‘์š”ํ•œ ์ด์œ  ์Šค์ผ€์ผ ์—…์ด๋ž€ ๋ชจ๋ธ์˜ ํฌ๊ธฐ(ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜), ํ•™์Šต ๋ฐ์ดํ„ฐ ์–‘, ํ•™์Šต์— ์“ธ ์ปดํ“จํŒ… ์ž์› ๋“ฑ์„ ๋‹จ์ˆœํžˆ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ์„ ์˜๋ฏธ. 2012๋…„ ๋ฌด๋ ต๋ถ€ํ„ฐ GPU์™€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์ด ๊ฒฐํ•ฉ๋˜๋ฉด์„œ, ๋”ฅ๋Ÿฌ๋‹์ด ๊ธฐ์กด ์ ‘๊ทผ(๊ธฐํ˜ธ์  AI ๋“ฑ)์„ ์••๋„ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‚ด๊ธฐ ์‹œ์ž‘. ์ค‘์š” ํฌ์ธํŠธ: โ€œ๊ทœ๋ชจ๋ฅผ ๋Š˜๋ฆฌ๋ฉด(dB)์„์ˆ˜๋ก ์„ฑ๋Šฅ์ด ๊ฐœ์„ ๋  ์—ฌ์ง€โ€๊ฐ€ ํฌ๋‹ค๋Š” ์‚ฌ์‹ค. ์˜ˆ์ปจ๋Œ€ ํŠธ๋žœ์Šคํฌ๋จธ ๊ณ„์—ด ๋ชจ๋ธ(GPT, Claude ๋“ฑ)์€ ํŒŒ๋ผ๋ฏธํ„ฐยท๋ฐ์ดํ„ฐ๋ฅผ ํ™•์žฅํ• ์ˆ˜๋ก, ์–ธ์–ด ์ดํ•ดยท์ƒ์„ฑ ๋Šฅ๋ ฅ์ด ๊ธ‰์ƒ์Šนํ•ด ์™”๋‹ค. ์Šค์ผ€์ผ๋ง์ด ์˜๋ฏธ ์žˆ๋Š” ์ด์œ ๋Š”, โ€œ์„ค๊ณ„์ž๊ฐ€ ์ผ์ผ์ด ์†๋Œ€์ง€ ์•Š์•„๋„โ€, ๋‹จ์ˆœํžˆ ๋ชจ๋ธ ์šฉ๋Ÿ‰๊ณผ ๋ฐ์ดํ„ฐ๋งŒ ๋Š˜๋ฆฌ๋ฉด ์„ฑ๋Šฅ์ด ๊พธ์ค€ํžˆ ํ–ฅ์ƒ๋˜๋Š” โ€˜์Šค์ผ€์ผ๋ง ๋ฒ•์น™(scaling law)โ€™์ด ๊ด€์ฐฐ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ. (3) โ€˜๋ฌผ๋ฆฌํ•™์˜ ํ†ต๊ณ„์—ญํ•™์  ๊ด€์ โ€™๊ณผ์˜ ์—ฐ๊ฒฐ Dan์ด ๋งํ•˜๋Š” โ€œํ†ต๊ณ„์—ญํ•™์  ๊ด€์ โ€์€, ๋ฏธ์‹œ์  ์š”์†Œ๋“ค์ด ๋ฌด์ˆ˜ํžˆ ๋งŽ์„ ๋•Œ, ๊ฑฐ์‹œ์ ์œผ๋กœ ๋‹จ์ˆœํ•œ ๋ฒ•์น™์ด ๋“œ๋Ÿฌ๋‚œ๋‹ค๋Š” ๋ฌผ๋ฆฌํ•™ ๋ฒ•์น™(์˜ˆ: ์ด์ƒ๊ธฐ์ฒด๋ฒ•์น™ ๋“ฑ)์„ ์ผ์ปซ๋Š”๋‹ค. ๋”ฅ๋Ÿฌ๋‹๋„ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ์ˆ˜๋งŽ์€ ํŒŒ๋ผ๋ฏธํ„ฐ(๊ฐ€์ค‘์น˜)์™€ ๋‰ด๋Ÿฐ์ด ๋ฏธ์‹œ์ ์œผ๋กœ ๋ณต์žกํ•˜๊ฒŒ ์–ฝํ˜€ ์žˆ์ง€๋งŒ, ๋Œ€๊ทœ๋ชจ๋กœ ์Šค์ผ€์ผ์—…ํ–ˆ์„ ๋•Œ ์–ด๋–ค ๊ฐ„๋‹จํ•œ ํ†ต๊ณ„์  ๊ฑฐ๋™(์˜ˆ: ์ผ์ •ํ•œ ์†์‹ค ํ•˜๋ฝ ์ถ”์„ธ, ์„ฑ๋Šฅ ๊ณก์„ )์ด ๋‚˜ํƒ€๋‚œ๋‹ค. ๋ฌผ๋ฆฌํ•™์ž๋Š” ์ด๋Ÿฌํ•œ โ€œํฐ ๊ทœ๋ชจ์—์„œ์˜ ๋‹จ์ˆœํ•จโ€์„ ์ดํ•ดํ•˜๊ณ  ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐ ์ต์ˆ™ํ•˜๋ฏ€๋กœ, ๋Œ€๊ทœ๋ชจ ์‹ ๊ฒฝ๋ง(๋”ฅ๋Ÿฌ๋‹)์—๋„ ๋˜‘๊ฐ™์€ ์‚ฌ๊ณ ๋ฅผ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ. 2) ๋‹จ์ผ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ vs. ์ „๋ฌธ ๋ถ„์•ผ๋ณ„ ๋ชจ๋ธ (1) ํ˜„์žฌ ํŠธ๋ Œ๋“œ: โ€˜ํ•˜๋‚˜์˜ ๋ฒ”์šฉ ์ดˆ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธโ€™ ๊ตฌ๊ธ€, OpenAI, Meta ๋“ฑ ๋น…ํ…Œํฌ๋“ค์€ โ€œํ•˜๋‚˜์˜ ๊ฑฐ๋Œ€ํ•œ ์–ธ์–ด๋ชจ๋ธ(GPT, PaLM, Llama ๋“ฑ)โ€์ด ๋ชจ๋“  ์–ธ์–ด ์—…๋ฌด๋ฅผ ์ž˜ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋ฏฟ์Œ/์‹คํ—˜์„ ๊ณ„์†ํ•ด ์™”๋‹ค. ์žฅ์ : ์—ฌ๋Ÿฌ ๋ถ„์•ผ๋ณ„ ๋ชจ๋ธ์„ ๊ฐ๊ฐ ๋งŒ๋“œ๋Š” ๊ฒƒ๋ณด๋‹ค, ํ•˜๋‚˜์˜ ๋ฒ”์šฉ ๋ชจ๋ธ์„ ์ž˜ ํ‚ค์›Œ๋†“์œผ๋ฉด ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ์— ์กฐ๊ธˆ์”ฉ ํŠœ๋‹ํ•ด์„œ ์“ธ ์ˆ˜ ์žˆ์Œ. ๋ฐ์ดํ„ฐ ๊ณต์œ ๋‚˜ ํ•™์Šต ์ธํ”„๋ผ ์ธก๋ฉด์—์„œ โ€œ๊ทœ๋ชจ์˜ ๊ฒฝ์ œโ€ ๋ฐœ์ƒ. (2) ํ•˜์ง€๋งŒ ์ž์›ยท๊ฒฝ์ œ์„ฑ ํ•œ๊ณ„ ๊ฐ€๋Šฅ ํฌ๊ธฐ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ํ›ˆ๋ จ ๋น„์šฉ, ์ถ”๋ก  ๋น„์šฉ, ์ „๋ ฅ ์†Œ๋ชจ๊ฐ€ ํญ๋ฐœ์ ์œผ๋กœ ์ฆ๊ฐ€. โ€œ๋ฌด์ž‘์ • ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๋Š˜๋ฆฌ๋‹ค๊ฐ€, ๊ฒฝ์ œ์ ์œผ๋กœ/๋ฌผ๋ฆฌ์ ์œผ๋กœ ๊ฐ๋‹น ์•ˆ ๋˜๋Š” ์ง€์ โ€์ด ์˜จ๋‹ค๋Š” ์šฐ๋ ค๊ฐ€ ์กด์žฌ. ์˜ˆ๋ฅผ ๋“ค์–ด, GPT-4๋ณด๋‹ค ํ›จ์”ฌ ํฐ ๋ชจ๋ธ์„ ๋งŒ๋“ค๋ ค๋ฉด ์ฒœ๋ฌธํ•™์ ์ธ GPU ํด๋Ÿฌ์Šคํ„ฐ, ์ „๋ ฅ, ์‹œ๊ฐ„ ๋“ฑ์ด ํ•„์š”ํ•ด์งˆ ์ˆ˜ ์žˆ์Œ. (3) ์™„์ „ํžˆ ๋„๋ฉ”์ธ๋ณ„ ๋ชจ๋ธ๋กœ ์ชผ๊ฐœ์ง€๋Š” ๊ฒƒ์€ ๋ณด์žฅ๋˜์ง€ ์•Š์Œ โ€œ์ดˆ๋Œ€ํ˜• ๋ฒ”์šฉ ๋ชจ๋ธโ€๊ณผ ๋ฐ˜๋Œ€๋กœ, ๊ฐ ๋„๋ฉ”์ธ(์˜ํ•™, ๋ฒ•๋ฅ , ๊ธˆ์œต ๋“ฑ)์— ์ตœ์ ํ™”๋œ โ€œ์ „๋ฌธ ๋ชจ๋ธโ€์„ ๋งŒ๋“ค์ž๋Š” ์‹œ๊ฐ๋„ ์žˆ์Œ. ๊ทธ๋Ÿฌ๋‚˜ ์ „๋ฌธ ๋ชจ๋ธ๋งŒ ๋งŒ๋“ค ๊ฒฝ์šฐ, ๋งค ๋„๋ฉ”์ธ๋งˆ๋‹ค ๋ฐ์ดํ„ฐ, ํŠœ๋‹, ์œ ์ง€๋ณด์ˆ˜๊ฐ€ ๋ถ„์‚ฐ๋˜์–ด ๋น„ํšจ์œจ์ด ์ปค์งˆ ์ˆ˜ ์žˆ์Œ. ์‹ค์ œ๋กœ๋Š” ๋‘ ์ ‘๊ทผ์ด ์–ด๋–ป๊ฒŒ ์œตํ•ฉ๋ ์ง€ ์•„์ง ๋ถˆ๋ช…ํ™•. ์˜ˆ) ํ•˜๋‚˜์˜ ํฐ ๋ฒ”์šฉ ๋ชจ๋ธ+ํ•„์š” ์‹œ ๋„๋ฉ”์ธ๋ณ„ ์ถ”๊ฐ€ ๋ชจ๋“ˆ(ํ˜น์€ ํ•˜์œ„ ๋ชจ๋ธ)์„ ํ˜ผํ•ฉํ•˜๋Š” โ€˜Mixture of Expertsโ€™ ๊ตฌ์ƒ, ํ˜น์€ API๋กœ ์„œ๋กœ ํ˜‘์—…ํ•˜๋Š” ๊ตฌ์กฐ ๋“ฑ๋“ฑ. 3) AI ๋ฏธ๋ž˜ ์ „๋ง (๋‹จ๊ธฐ ~ ์žฅ๊ธฐ) Dan์˜ ์ž…์žฅ์—์„œ, AI๊ฐ€ ์–ด๋–ค ๊ฒฝ๋กœ๋ฅผ ๊ฐˆ์ง€ ํ™•์‹คํ•˜์ง„ ์•Š์ง€๋งŒ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์–ธ๊ธ‰: (1) ๋‹จ๊ธฐ (์•ฝ 5๊ฐœ์›” ์ •๋„) GPT-n ์ฐจ์„ธ๋Œ€ ๋ชจ๋ธ: ์˜ˆ์ปจ๋Œ€ GPT-5, GPT-4.5 ํ˜น์€ ๋‹ค๋ฅธ ํšŒ์‚ฌ ๋ชจ๋ธ์ด ๋‚˜์˜ฌ ๊ฐ€๋Šฅ์„ฑ. ์ด ๋•Œ **โ€œ์Šค์ผ€์ผ๋ง์„ ๋” ๋ฐ€์–ด๋ถ™์ผ ๊ฒฝ์šฐ, ์–ด๋А ์ •๋„ ์„ฑ๋Šฅ ํ–ฅ์ƒโ€**์ด ๋ฐœ์ƒํ•˜๋Š”์ง€ ์ฒด๊ฐํ•˜๊ฒŒ ๋  ๊ฒƒ. ๋งŒ์•ฝ ์ด์ „ GPT์—์„œ ๋‹ค์Œ GPT๋กœ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋‹ฌ๋ผ์ง„๋‹ค๋ฉด, โ€œ์Šค์ผ€์ผ๋ง ์•„์ง ์—ฌ๋ ฅ ์žˆ๋‹คโ€๋Š” ๊ฒฐ๋ก ์ด ๊ฐ€๋Šฅ. ๋ฐ˜๋ฉด ํ–ฅ์ƒ์ด ๋ฏธ๋ฏธํ•˜๋‹ค๋ฉด, โ€œ์Šค์ผ€์ผ๋ง ํ•œ๊ณ„๊ฐ€ ์ด๋ฏธ ๋„๋ž˜ํ–ˆ๋‚˜?โ€๋ผ๋Š” ์งˆ๋ฌธ ๋ฐœ์ƒ. (2) ์ค‘๊ธฐ (์•ฝ 5๋…„) ์Šค์ผ€์ผ ์—…์— ๊ฒฝ์ œ์ /๋ฌผ๋ฆฌ์  ํ•œ๊ณ„๊ฐ€ ์ฐพ์•„์˜ฌ ์ˆ˜๋„. โ€œ๋„ˆ๋ฌด ๋น„์šฉ์ด ์ปค์„œ ๋ชป ํ‚ค์šด๋‹คโ€ โ†’ AI ์œˆํ„ฐ(ํˆฌ์žยท์—ด๊ธฐ ์‹๋Š” ํ˜„์ƒ) ๊ฐ€๋Šฅ์„ฑ. ๋ฐ˜๋Œ€๋กœ, ์ƒˆ๋กœ์šด ์•„์ด๋””์–ด(์˜ˆ: ์ƒˆ๋กœ์šด ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„, ์•„ํ‚คํ…์ฒ˜, ๋ฉ”๋ชจ๋ฆฌยท์ถ”๋ก  ๋ฐฉ์‹ ๋“ฑ)๊ฐ€ ๋“ฑ์žฅํ•ด โ€œ๋˜ ๋‹ค๋ฅธ ๋„์•ฝโ€์„ ์ด๋ฃฐ ์ˆ˜๋„. ๊ฒฐ๊ตญ ์ด ์‹œ๊ธฐ์—๋Š” โ€œ์Šค์ผ€์ผ๋ง ์ง€์† vs. ์ƒˆ ์•„์ด๋””์–ดยท๊ธฐ์ˆ  ์ „ํ™˜โ€ ๊ฐˆ๋ฆผ๊ธธ์ด ๊ด€๊ฑด. (3) ์žฅ๊ธฐ (์ˆ˜์‹ญ ๋…„) ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๊ฐ€๋Šฅ์„ฑ์ด ๊ณต์กด: AI๊ฐ€ ๋ชจ๋“  ๊ฒƒ์„ ๋ฐ”๊พธ๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค: ์ธ๊ฐ„ ๋…ธ๋™ ๋Œ€์ฒด, ์ง€์  ๋ฐœ๊ฒฌ ๊ฐ€์†, ๊ฒฝ์ œ ์ฒด๊ณ„ ์žฌํŽธ ๋“ฑ. ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„ ๋“ฑ์žฅ: โ€œAI๋Š” ํ•œ๊ณ„์— ๋ถ€๋”ชํžˆ๊ณ  ์™„์ „ํžˆ ๋‹ค๋ฅธ ์ปดํ“จํŒ…/๋ชจ๋ธ ๋ฐฉ์‹โ€์ด ๋Œ€๋‘๋  ์ˆ˜๋„. โ€œ์ •ํ™•ํžˆ ์–ด๋–ค ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐˆ์ง€๋Š” ๋งค์šฐ ์˜ˆ์ธกํ•˜๊ธฐ ์–ด๋ ต๋‹คโ€๋ฉฐ Dan ๋ณธ์ธ๋„ ์‹ ์ค‘ํ•œ ํƒœ๋„๋ฅผ ์œ ์ง€.

๐Ÿ‡จ๐Ÿ‡ณ ์ค‘๊ตญ ํ…Œํฌ์‚ฐ์—… ์ƒํƒœ๊ณ„ (์ž๋ฃŒ: Kyle)
๐Ÿ‡จ๐Ÿ‡ณ ์ค‘๊ตญ ํ…Œํฌ์‚ฐ์—… ์ƒํƒœ๊ณ„ (์ž๋ฃŒ: Kyle)