Continuous Learning_Startup & Investment
Open in Telegram
We journey together through the captivating realms of entrepreneurship, investment, life, and technology. This is my chronicle of exploration, where I capture and share the lessons that shape our world. Join us and let's never stop learning!
Show more2 298
Subscribers
-224 hours
-147 days
-4130 days
Posts Archive
Repost from BZCF | ๋น์ฆ๊นํ
์ง๊ธ๊น์ง ์ฌ๋ ธ๋ ์์๋ค๊ณผ๋ ์กฐ๊ธ ์ฑ๊ฒฉ์ด ๋ค๋ฆ
๋๋ค. ๊ทธ๋์ ๋งค์ผ ์ฌ๋ฆฌ๋ ์์์ด์ง๋ง, ์ด๋ฒ์๋ ์ ๋
๊ฐํ๊ฐ ์๋กญ๋๊ตฐ์. ์์ผ๋ก ์ข
์ข
์ด๋ ๊ฒ ์๊ฐ๋ค๋ ์ฌ๋ฆด ์์ ์
๋๋ค. ๋กฑํ
์ดํฌ ๋ฌดํธ์ง์
๋๋ค. ํ๋ ์ด๋ฆฌ์คํธ์ 'raw material' ์ด๋ผ๊ณ ๋ณ๋๋ก ํ๊ธฐํด์ ์ ๋ฆฌํ ์์ ์ด๊ณ ์. ๋ง์ ์์๋ค์ด ์์ด๋ฉด ์ข๊ฒ ๋ค์. ์ฌ๋ฌ๊ฐ์ง ๋ฐฉํฅ์ผ๋ก ์ด์ผ๊ธฐ ๋๋๊ณ ์ถ์ต๋๋ค. ์๋ถํ๋๋ฆฝ๋๋ค. ์ข์ ์ ๋
๋์ธ์.
https://www.youtube.com/watch?v=sJ-Ua94PpaA
๋น์ทํ ๊ฒฝํ.
์๋
๋ถํฐ ํผ์๋
ธ๋ฅผ ์น๊ณ ์์ต๋๋ค. ๊ทธ๋ฐ๋ฐ, ํผ์๋
ธ๋ฅผ ์ ์ณ์ผํ๋ค๋ ๊ฐ๋ฐ์ ๊ฐ์ง๊ณ ์์์ต๋๋ค. ํผ์๋
ธ๋ฅผ ์น๋ฉด์๋ ํ๋ฆฌ๋ฉด ์ด๋ป๊ฒ ํ์ง, ์ ์๋์ด ๋๋ฅผ ์ฐ์ต๋ ์ํ๋ ๊ฒ์ผ๋ฅธ ํ์์ด๋ผ๊ณ ์๊ฐํ๋ฉด ์ด๋ป๊ฒํ์ง ๊ฑฑ์ ํ ์ ์ด ๋ง์์ต๋๋ค. ํผ์๋
ธ๋ฅผ ์น๋ฉด์๋ ํ๋ฆฌ๋ ๊ฒ์ ๋ํด์ ๊ธฐ๋ณธ์ ์ผ๋ก ๊ฑฐ๋ถ๋ฐ์์ ํ๊ณ ์๋๋ผ๊ณ ์. ๋ด๊ฐ ์ค์ํ๋ ๊ฒ์ ์ซ์ดํ๋ค๋ ๊ฒ์ ์ธ์ ํ์ง๋ ์๊ณ ๋ฑ ์ ์๋์๊ฒ ์ ๋ณด์ด๊ธฐ ์ํ ์ ๋๋ก๋ง ํผ์๋
ธ๋ฅผ ๋ฐฐ์ฐ๊ณ ์์์ด์.
์ฒ์์ ํผ์๋
ธ๋ฅผ ๋ฃ๊ณ ์น๋ ๊ฒ ์์ฒด๊ฐ ์ฌ๋ฐ์ด์ ์์๋๋๋ฐ, ๋
ธ๋ ฅ๋ ํ๊ณ ์๊ฐ๋ ๋ค์ด๋๋ฐ ๋ฐฐ์์ ์๋๋ผ๊ณ ์. ํผ์๋
ธ๋ฅผ ํ์ตํ๋ ๋ด ๋ชจ์ต์ ์ค์ค๋ก ๋ณต๊ธฐํ๋ค๋ณด๋ ์ด๋ฐ ๋ด ๋ชจ์ต์ ๋ณด๊ฒ ๋์ด์. ๊ทธ๋ฆฌ๊ณ ๋๋ ค์๋ ์ธ์ ํ๊ณ ๋ชป์ณ๋ ๋๋๋ฐ ์ฌ๋ฏธ์๊ฒ๋ง ์น์๊ณ ๋ง์์ ๋ฐ๊ฟจ์ต๋๋ค. ๋ด ๋ชจ์ต์ ์์์ฐจ๋ฆฌ๊ณ ๋ง์์ ๋ฐ๊พธ๋ ๋ฐ์๋ ์ผ๋ง ์๊ฐ์ด ๊ฑธ๋ฆฌ์ง ์์๋๋ฐ ์์์ฐจ๋ฆฌ๊ธฐ๊น์ง ๊ฝค ์ค๋ ์๊ฐ์ด ๊ฑธ๋ ธ์ต๋๋ค.
์ฌ์ค ํผ์๋
ธ ํ์์์ ํ๋ฆฌ๋๊ฒ ๋ญ ๋๋จํ ์ค์๊ฒ ์ด์. ํ๋ฆฌ๊ณ ์ถ์ง ์๋ค๋ ์ ๋ฐฉ์ด๊ธฐ์ ๋ฅผ ํํผํด์๋ ๊ฑฐ์ฃ . ๋ด๊ฐ ์ด๋ค ์ผ์ ์ ์์ํ๋์ง, ๊ทธ ์ผ์ ์ ๋ง ์ํ๊ธฐ์ํด์๋ ์ด๋ป๊ฒ ํด์ผํ๋์ง, ๊ทธ๊ฒ์ ๊ฐ๋ก๋ง๋ ๊ฒ(๋ฐฉ์ด๊ธฐ์ , ํธ๊ฒฌ, ๊ฐ์ )์ ๋ฌด์์ธ์ง ์ค์ค๋ก ์๊ฐํด๋ณด๊ณ ์์์ฐจ๋ฆฌ๊ณ ๋ ๋์ ์์ฌ์ ํ์ ํ๋ฉด์ ์ฑ์ฅํ ์ ์๋ค๊ณ ์๊ฐํฉ๋๋ค.
์์ง๋ ํผ์๋
ธ๋ ๊ฑธ์๋ง ๋จ๊ณ์ง๋ง ์ด์ ๋ ์ฌ๋ฐ๊ฒ ์น ์ ์์ ๊ฒ ๊ฐ์์.
AI๋ก ๋ฐ๋ ์์ญ ์ค ํ๋๊ฐ ๋ก๋ด์ด๊ณ ๊ทธ ๋ถ์ผ์์ ๋ฌธ์ ๋ฅผ ์ ์ ์ํ๋ ํ ์ค ํ๋.
Excited to share: Figure raises $675M at $2.6B Valuation
+ OpenAI & Figure signed a collaboration agreement to develop next generation AI models for robots
Series B investments from:
- Microsoft
- OpenAI Startup Fund
- NVIDIA
- Jeff Bezos (through Bezos Expeditions)
- Parkway Venture Capital
- Intel Capital
- Align Ventures
In addition, OpenAI & Figure signed a collaboration agreement to develop next generation AI models for humanoid robots
The collaboration aims to help accelerate Figureโs commercial timeline by enhancing the capabilities of humanoid robots to process and reason from language
We will be using this investment to ramping up Figureโs timeline for humanoid commercial deployment and will be used for:
- AI training
- Manufacturing
- Deploying more robots
- Expanding engineering headcount
- Advancing commercial deployment efforts
๊ฐ๊น์ด ์น๊ตฌ๋ก๋ถํฐ ์์งํ ํผ๋๋ฐฑ์ ๋ฐ๋ ๊ฒ์ ๋๋ค์์ ์ฐพ๋๋ฐ์ ํฐ ๋์์ ์ค๋ค.
์ ํ๊ฒ์์ ์ธ์์ ์์์ด ์ ํ๋์ด์๊ณ ์น๋ฆฌํ๋ ๋ฐฉ์์ด ์ ํด์ ธ์๋ ์คํฌ์ธ ๊ฐ๋ค. ๋ฌดํ๊ฒ์์ ๋ชฉ์ ๋ ์ฐธ๊ฐ์๋ ๋ฃฐ๋ ๋ถ๋ช
ํํ ์ฐ๋ฆฌ์ ์ธ์์ด๋ค.
์ ํ๋ ๋ฆฌ์์ค ์์์ ๋ต์ ์ฐพ๋ ์ง์ญ ์ต์ ํ๋ฅผ ํด์ผํ๋ค๋ฉด ์ ํ ๊ฒ์์ด ์ข๊ฒ ์ง๋ง, ์ฐ๋ฆฌ๊ฐ ์ด์๊ฐ๋ ์ธ์์ ๋ฌดํ ์ธ์๊ณผ๋ ๊ฐ๋ค. ์ธ์์ Zero-sum mind-set์ผ๋ก ๋ฐ๋ผ๋ณผ ๊ฒ์ธ๊ฐ? Growing pie mind-set์ผ๋ก ๋ฐ๋ผ๋ณผ ๊ฒ์ธ๊ฐ?
Zero-sum game์์๋ ๋จ๋ค๋ณด๋ค ๋น ๋ฅด๊ฒ ์กฐ๊ธ ๋ ์ํ๋ ๊ฒ ์ค์ํ๋ค๋ฉด, Growing Pie mind-set์์๋ ๋ค๋ฅธ ์ฌ๋๋ณด๋ค ์ํ๋ ๊ฒ ์ด์ ์ด ์๋๋ผ ์๋ก์ด ํ์ด๋ฅผ ๋ง๋ค์ด ๋ด๋ ๊ฒ์ด ์ค์ํ๋ค. ๊ทธ๋ ๊ธฐ์ ๋๋ค์, ํ๋ ฅ, ์ ๋ขฐ ๋ฑ์ ๊ฐ์น๋ฅผ ๋ ์ค์ํ๊ฒ ์๊ฐํ ์ ์๋ค.
https://youtu.be/c8Aj945IgAo
๊ทธ๋์ ์น์น์ฅ๊ตฌํ ์ค ์์๋ ๊ทธ๋ ๊ฐ์ฅ ํฐ ์คํจ๋ฅผ ํ์๊ณ ์ผ๊ณผ ๊ฐ์ธ์ฌ ๋ชจ๋ ๋์ ํ๋ค์๊ณ ์ธ์์์ ๊ฐ์ฅ ๋ฎ์ ์ง์ ์ด๋ผ๊ณ ์๊ฐํ๋ ์๊ฐ์ด ์์๋ค. ํ๋ํ๋์ฉ ์ด๋ ค์์ ํด๊ฒฐํ๋ ค๊ณ ๋
ธ๋ ฅํ๊ณ ๋ค์ ์ข์ ํ๋ฆ์ ๋ง๋ค ์ ์์๋ค.
ํฌ์์ ๋๊ฐ๋ค์ด ๋ง๋ ๊ฐ๋ฅด์นจ์ ๋ฐฐ์ฐ๊ณ ์์ ๋ง์ ์์น์ ๋ง๋ค๋ฉฐ ๋ณธ์ธ์ ๊ฒ์์ ํ๋ค. ๊ฒ์์ ํ๋ฉด์ ์ค์ํ ์๋ ์๊ณ ๋๋ก๋ ํฐ ์ค์์ผ ์๋ ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ ์ค์๋ก ์ธํด ์ฌ๋ฌ ์ฌ๋์ ํ๊ฐ, ๋น๋์ ๋ฐ์ ์๋ ์๋ค. ๊ทธ๋๋ ๊ทธ ์ค์๋ก ๋ฐฐ์ฐ๊ณ ๋ ๋์ ์์ฌ๊ฒฐ์ ๋ค์ ํด๋๊ฐ๋ฉด ๋๋ค.
ํฐ ์ฑ๊ณต์ด ์์ ๋, ์ ๋ช
ํด์ง์ง ์์ ๋ ์ฒซ ๋๋ฉ์ด๋ฅผ ๋ง๋๋ ๊ฒ์ด ์ฝ์ง ์๋ค. ๊ทธ ๋ฌธ์ ๋ฅผ ์ ํด๊ฒฐํด์ผ ์ด๋ ์ ๋์ ๋๋ฉ์ด๋ฅผ ๊ตด๋ฆด ์ ์๊ฒ ๋๋ค.
์ผ์ด ์ ์ ํ๋ฆฌ๊ณ ๊ฐ์ธ์ ์ธ ์ด๋ ค์์ด ์๋๋ผ๋, ์ ์๊ณ , ์ ๋จน๊ณ , ์ด๋ํ๊ณ ์ฌ๋ํ๋ ์ฌ๋๋ค(๊ฐ์กฑ๊ณผ ์น๊ตฌ)๋ก๋ถํฐ ๋์๋ฐ์ผ๋ฉด ๋๋ค.
https://www.klarna.com/international/press/klarna-ai-assistant-handles-two-thirds-of-customer-service-chats-in-its-first-month/
โข The AI assistant has had 2.3 million conversations, two-thirds of Klarnaโs customer service chats
โข It is doing the equivalent work of 700 full-time agents
โข It is on par with human agents in regard to customer satisfaction score
โข It is more accurate in errand resolution, leading to a 25% drop in repeat inquiries
โข Customers now resolve their errands in less than 2 mins compared to 11 mins previously
โข Itโs available in 23 markets, 24/7 and communicates in more than 35 languages
โข Itโs estimated to drive a $40 million USD in profit improvement to Klarna in 2024
๐กWinning Instincts vs. Winning Ideas: Your instinct is correct 95% of the time; your ideas - 25% of the time. Trust your instincts, not your ideas.
๐ช Small Ideas - Big Ambitions: Start small with big ambitions.
๐งฉ Proven, Better, New: Each product is an aggregation of individual features where some features are โprovenโ, other features are โbetterโ than the existing ones, and there are โnewโ features that did not exist before. It is about making the product, as a whole, better. Otherwise (reciting Steve Jobs), by trying to make every feature 10% better, you may make the product 50% worse.
๐ All New Fails: Assume new fails, and you can find a way to work around it.
๐ก Death By a Thousand Compromises: If you make too many compromises as a founder, you may end up building a company you donโt want to work at. Build a house you want to live in. Decide how ambitious you really are. No judgment, just intellectual honesty. Identify things that matter to you, lines you would not cross, trade-offs you would be willing to make. โIโm a team player; if Iโm running the team, I have to be CEOโ
๐ Taste & creativity: You have to constantly increase your bar, develop your taste, make it better. Care at a pixel level. Keep an eye out for true signals.
โ๏ธ Lessons Learned: Canโt be naรฏve to a new space; have to learn on the go. Proven, better, new โ copy what works well. Allow yourself to be too early โ it may be hard but it has to be done to discover a new planet. Understand what your ego is and how to avoid pitfalls that come with it.
โจ Happiness: Being and feeling useful to a community you care about.
Mark Pincus Founder and CEO of Zynga
A rock pile ceases to be a rock pile the moment a single man contemplates it, bearing within him the image of a cathedral.
ํ ์ฌ๋์ด๋ผ๋ ํฐ ์ฑ๋น์ ์ด๋ฏธ์ง๋ฅผ ํ๊ณ ๋๋ฌด๋๊ธฐ๋ฅผ ๋ณธ๋ค๋ฉด, ๊ทธ ์๊ฐ ๋ ์ด์ ๊ทธ๊ฒ์ ๋๋ฌด๋๊ธฐ๊ฐ ์๋๋ค.
Many people learn about the tools just enough to get the job done. I prefer to dive deeper; understanding my tools in detail makes my work much more fun.
Not sure if it's good or bad. Just more fun! Perhaps thatโs what truly matters in the end.
์์ฌ๋๊ณผ์ ๋ํ ์ค ๊ธฐ์ต์ ๋จ๋ ๊ตฌ์ ๋ค.
๊ฒฐ๊ตญ ์ฐฝ์
์์ ๊ฐ์น๊ด, ์ธ๊ณ๊ด์ด ๊ทธ ์กฐ์ง์ DNA์ด๊ณ ์ผํ๋ ๋ฐฉ์์ด๋ค.
์ฐฝ์
์์ ๋๋ค์์ด ์กฐ์ง์ ๋๋ค์์ ๋ง๋ ๋ค.
์ข์ํ์ง๋ง, ๊ณ ๊ฐ์ ๋ง์กฑ์ํฌ๋งํผ ์ง๋
ํ๊ฒ ์ข์ํ๋ ์ผ์ ์ฐฝ์
ํด์ผํ๋ค.
์งง๊ณ ๋น ๋ฅธ ์ฑ๊ณต์ด ์๋๋ผ ๋๋ค์ด ์ฌ์ ์ ๊ฐ๋ ๊ฒ์ด ์ค์ํ๋ค.
๋๋ฌด ์งง์ ์๊ฐ์ ๋ง์ ๊ฒ์ ์ด๋ค๋ค๊ณ ์ฐฉ๊ฐํ๋ฉด ๋๊ณ ๊ณ ์ธ๋ค.
์ฃผ๋ณ์ ๋ณด๊ณ ๋ฐฐ์ฐ๋ฉด ์ฑ์ฅํ ์ ์๊ณ , ๋น๊ตํ๋ฉด ๋ถํํด์ง๋ค.
๋๋์ง ์๋๋์ง๋ ํด๋ณด๊ธฐ ์ ๊น์ง ๋ชจ๋ฅธ๋ค. ๊ฐ๋ฅํ ๋ง์ ๊ฒ๋ค์ ํด๋ณด๊ณ ๋๋ฉด ๊ทธ ์ผ์ด ์ ์๋๋๋ผ๋ ์๋ก์ด ์ธ์๊ณผ ๊ธฐํ๊ฐ ๋ณด์ธ๋ค.
๋ ๋ง์ด ๋ฒ์ด์ ๋จ ์ข์ ์ผ ๋ง์ด ํ์.
ํน์ ๋ชฉ์ ์ ์ฑ์ทจํ๋ ์ถ์ด ์๋๋ผ ๊พธ์คํ ๋ฐฐ์ฐ๊ณ ์ฑ์ฅํ๊ณ ๊ฐ์ฌํ๋ ๊ณผ์ ์ด ์ข๋ค.
์ง๋ ์์์ผ(11์ 27์ผ), ์ํ ์ค ์คํผ์ค์์ ์คํํธ์
๋ฆฌ๋๋ค๊ณผ์ ๋ชจ์์ ์ฃผ์ตํ์ต๋๋ค. ๊ณต๊ฐ์ ๋ง๋ จํด์ฃผ์ ํธ์คํ
์ค์ํ ๋๊ณผ ์ํ ์ค ๊ด๊ณ์๋ถ๋ค๊ป ๊ฐ์ฌ์ ๋ง์์ ์ ํฉ๋๋ค.
์ ํ๋ ๊ณต๊ฐ๊ณผ ์๊ฐ์ผ๋ก ์ ์ฒญํด์ฃผ์ ๋ชจ๋ ๋ถ๋ค๊ณผ ํจ๊ปํ์ง ๋ชปํ ์ ์ ์์ฌ์ ์ต๋๋ค. CTO, ๊ฐ๋ฐ ๋ฆฌ๋, CEO๋ถ๋ค๊ณผ '๋๊ธฐ๋ถ์ฌ', 'ํ์ ๋ถ์์ ์ฑ(ํนํ ์๋์ด์ ๋ถ์ฌ)', ๊ทธ๋ฆฌ๊ณ 'ํ ํ๊ณผ์ ์ํต ๋ฌธ์ '๋ผ๋ ์ฃผ์ ๋ก ์์ํ ํ ๋ก ์ ํฅ๋ฏธ์ง์งํ์ต๋๋ค. ๋ชจ๋ ๋ถ๋ค์ด ์ด์ ์ ์ผ๋ก ์ฐธ์ฌํด์ฃผ์๊ณ ๋ง์ ์ธ์ฌ์ดํธ์ ๊ณ ๋ฏผ์ ํจ๊ป ๋๋ ์ฃผ์
์ ๋ค์ ํ๋ฒ ๋๋ฌด ๊ฐ์ฌ๋๋ฆฝ๋๋ค.
์ ๋ 2๋
๊ฐ์ ๋ธ๋ก์ฒด์ธ ์คํ์์ค ํ๋๊ณผ ์ฝ 5๋
๊ฐ ํด์น๋ฉ์ค์์ ๊ฒฝํ์ ๋ฐํ์ผ๋ก Engineering Manager ๊ฒฝํ์ ๊ณต์ ํ์ต๋๋ค. ๋ชจ์์์ ๊ณต์ ํ ๋ด์ฉ์ ์ ์ฒ๋ผ ํ์ ์ํด ๋ฐค๋ฎ์ผ๋ก ๊ณ ๋ฏผํ์๋ ๋ถ๋ค๊ป ์กฐ๊ธ์ด๋ผ๋ ๋์์ด ๋๊ณ ์ ์งง๊ฒ ๊ณต์ ๋๋ฆฝ๋๋ค. ๐
1. ์ ๋ Manager๋ฅผ ํ(์ฌ๋)์ ์ง์คํ์ฌ ์กฐ์ง์์ ์ํฅ๋ ฅ์ ๋ฐํํ๋ ์ฌ๋์ผ๋ก ์ ์ํ๊ณ ์์ต๋๋ค.
2. IC(๊ฐ๋ณ ๊ธฐ์ฌ์)์์ Manager๋ก ์ ํํ๋ฉด์ ์ ์ฒด์ฑ, ๊ด๊ณ, ์ํฅ๋ ฅ์ ์ ํ์ด ์ผ์ด๋ฌ์ต๋๋ค.
- ์ ์ฒด์ฑ์ ์ ํ: '์ข์ ์ ํ์ ๋ง๋๋ ๊ฐ๋ฐ์'์์ '๋ด์ฌ์ ๋๊ธฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์๋ค์ ์ฑ ์ฅ์ ์ด์งํ๋ฉฐ, ์ง์๊ฐ๋ฅํ๊ณ ๊ฐ์น์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ๋ ํ์ ๋ง๋ค๊ณ ์ด๋์ด ๊ฐ๋ ๋ฆฌ๋๋ก ์ ํ'
- ๊ด๊ณ์ ์ ํ: ํต์ฌ ์ดํด๊ด๊ณ์๋ค์ด '์์ง๋์ด ํ์๋ค'์์ 'CEO, Head of BD, Head of TA, ์ฃผ์ ์์ง๋์ด ํ์'์ผ๋ก ์ ํ
- ์ํฅ๋ ฅ์ ์ ํ: '์ ํ ๊ฐ๋ฐ'์์ '๊ตฌ์ฑ์๋ค์ ์ฑ๊ณผ & ์ญ๋ ์ฑ์ฅ ๋ฐ ํ๊ฐ, ํผ๋๋ฐฑ, ์ฑ์ฉ, ํ์ ๋ฌธํ์ ๋ฐฉํฅ์ฑ ๊ตฌ์ถ'์ผ๋ก ์ ํ
3. Manager๋ก ํ์ ๋ฏธ์
์ ๋ฌ์ฑํ๊ธฐ ์ํ ํ์ Being(์กด์ฌ) ์ค์ ํ์ต๋๋ค.
- ์์ฅ ๋ณํ์ ์ ์ํ๊ฒ ๋์ํ๊ณ ์ง์์ ์ผ๋ก ๋น ๋ฅด๊ฒ ๊ฐ์น๋ฅผ ์ฐฝ์ถํ๋ ์์ง๋์ด๋ง ํ
- ๋จ์ ๊ฐ๋ฐ์ ๋์ด ํตํฉ๋ ์ฑ
์๊ฐ์ ๊ฐ์ง ์์ง๋์ด๋ง ํ
4. Top Down, Bottom Up ์ ๋ต์ ํ์ฉํ์ฌ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด ๋
ธ๋ ฅํ์ต๋๋ค.
Top Down ์ ๋ต (Manager๋ก ๋ฐฉํฅ์ฑ ์ ์)
- ๊ฐ๋ฐ ์์
์ ๋จ์์ ์ฑ
์ ๋ฒ์ ์กฐ์
- ๊ธฐ๋ฅ๋ณ ๋ฐฐํฌ ์ ๋ต & E2E ์๋ํ ํ
์คํธ ๋์
- ์ญ๋ ํ๋ ์์ํฌ ์ ์
- ์์ฐ์ฑ ์งํ ๋์
Bottom Up ์ ๋ต (ํ์์๊ฒ ์ด์ ์ ๋ง์ถฐ ๋ด์ฌ์ ๋๊ธฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ฐฉํฅ์ฑ์ Align)
- 2์ฃผ ๋จ์์ 1on1(๋ฐฉํฅ์ฑ Align & ์ฑ์ฅ์ ์ด์ )
- ์ญ๋ ํ๊ฐ
5. ๋๋ถ๋ถ์ ์ด๋ ค์์ Bottom Up ์ ๋ต์ ์คํํ๋ ๋ฐ์์ ์ผ์ด๋ฌ์ต๋๋ค.
6. ์์ง ๋ง์ด ๋ถ์กฑํ๋ค๊ณ ์๊ฐํ์ง๋ง, ํ์ ์์ฐ์ฑ์ ํฌ๊ฒ ํฅ์ ์์ผฐ๊ณ , ํตํฉ๋ ์ฑ
์๊ฐ์ ๋๋ผ๋ ๋ฌธํ๊ฐ ์๋ฆฌ ์ก์์ผ๋ฉฐ, ๊ธฐ๋ํ๋ ์ญ๋์ ๋ํ ํฉ์๋ฅผ ํตํด ๊ตฌ์ฑ์๋ค์ ์ฑ์ฅ์ด ์ผ์ด๋ฌ์ต๋๋ค.
7. ์ด๋ฐ ๊ณผ์ ์์์ ์ ๊ฐ ๋ฐฐ์ด์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค(๋ด์ฉ์ ๋ปํ์ง๋ง ์ ํ๋๊ฒ์ ์ด๋ ต๋ค๊ณ ์๊ฐํฉ๋๋ค).
- Bottom Up ์ ๋ต์ ์ค์์ฑ ์ธ์: ์๋ฌด๋ฆฌ ๋ฐ์ด๋ ์ ๋ต์ด๋๋ผ๋ ๊ตฌ์ฑ์๋ค์ด ์ ๋๋ก ์คํํด์ฃผ์ง ์์ผ๋ฉด ์คํจํจ
- ๊ตฌ์ฑ์๋ค์ ๋ฌธ์ ์ ๋ํ ๊น์ ์ดํด: ๊ฒฝ์ฒญ๊ณผ ์ง๋ฌธ์ ํตํด ๊ตฌ์ฑ์๋ค์ ๋ฌธ์ ์ ๋ํ ๋ณธ์ง์ ์ ๊ทผ ๋ฐ ์ดํด๊ฐ ์ค์ํจ
- ๋๋ณด๋ค ์ญ๋์ด ๋ฐ์ด๋ IC์ ์ผํ๋ ๋ฒ: ๊ทธ๋ค์ด ๋ฌธ์ ์ ์ง์คํ ๋ ํ์ ๊ด์ ์์ ๋ฐฉํฅ์ฑ์ ์ ์ํ์ฌ ํ ์ฑ๊ณผ๋ฅผ ๋์ผ ์ ์์
- ๊ตฌ์ฑ์์ ๋ํ ๋ช
ํํ ๊ธฐ๋์น ์ค์ : ๊ตฌ์ฑ์์ ์ฑ๊ณผ๋ ์ญ๋์ด ์์ฝ๋ค๋ฉด ๋ช
ํํ๊ฒ ๊ธฐ๋ํ๋ ๋ฐ๋ฅผ ์ ๋ฌํ๋์ง๋ฅผ ๊ณ ๋ฏผํด์ผํจ
It has exactly the same architecture, but offers enhanced performance and faster convergence. Super curious about its performance on video generation too!
https://x.com/ma_nanye/status/1748199729438113993?s=46&t=h5Byg6Wosg8MJb4pbPSDow
First of all, really appreciate the team for sharing helpful insights and design decisions โ Sora is incredible and is set to transform the video generation community.
What we have learned so far:
- Architecture: Sora is built on our diffusion transformer (DiT) model (published in ICCV 2023) โ it's a diffusion model with a transformer backbone, in short:
DiT = [VAE encoder + ViT + DDPM + VAE decoder].
According to the report, it seems there are not much additional bells and whistles.
- "Video compressor network": Looks like it's just a VAE but trained on raw video data. Tokenization probably plays a significant role in getting good temporal consistency. By the way, VAE is a ConvNet, so DiT technically is a hybrid model ;)
When Bill and I were working on the DiT project, instead of creating novelty (see my last tweet๐คทโโ๏ธ), we prioritized two aspects: simplicity and scalability. These priorities offer more than just conceptual advantages.
- Simplicity means flexibility. The cool thing about vanilla ViT that people often miss is how it makes your model way more flexible when it comes to working with input data. For example, in masked autoencoder (MAE), ViT helped us to just process the visible patches and ignore the masked ones. And similarly, Sora "can control the size of generated videos by arranging randomly-initialized patches in an appropriately-sized grid." UNet does not directly offer this flexibility.
๐Speculation: Sora might also use Patch nโ Pack (NaViT) from Google, to make DiT adaptable to variable resolutions/durations/aspect ratios.
- Scalability is the core theme of the DiT paper. First, an optimized DiT runs much faster than UNet in terms of wall-clock time per Flop. More importantly, Sora demonstrated that the DiT scaling law applies not just to images but now to videos as well -- Sora replicates the visual scaling behavior observed in DiT.
๐Speculation: In the Sora report, the quality for the first video is quite bad, I suspect it is using a base model size. A back-of-the-envelope calculation: DiT XL/2 is 5X GFLOPs of the B/2 model, so the final 16X compute model is probably 3X DiT-XL model size, which means Sora might have ~3B parameters โ if true, this is not an unreasonable model size . It could suggest that training the Sora model might not require as many GPUs as one would anticipate โ I would expect very fast iterations going forward.
The key takeaway is from the "Emerging simulation capabilities" section. Before Sora, it was unclear if long form consistency could emerge on its own or if it required complex subject-driven generation pipelines or even physics simulators. OpenAI has shown that, though not perfect, these behaviors can be achieved with end-to-end training. Yet, two essential points have not been discussed.
1. Training Data: No talk about training source and construction at all, which might just imply data is likely the most critical factor for Sora's success.
๐Speculations: There's already much speculation about data from game engines. I also anticipate the inclusion of movies, documentaries, cinematic long takes, etc. Quality really matters. Super curious where Sora got this data from (surely not YouTube, right?).
2. (Auto-regressive) Long Video Generation: a significant breakthrough in Sora is the ability to generate very long videos. The difference between producing a 2-second video and a 1-minute video is monumental.
In Sora, this is probably achieved through joint frame prediction that allows auto-regressive sampling, yet a major challenge is how to address error accumulation and maintain quality/consistency through time. A very long (and bi-directional) context for conditioning? Or could scaling up simply lessen the issue? These technical details can be super important and hopefully will be demystified in the future
https://x.com/gabor/status/1758295719788822866?s=46&t=h5Byg6Wosg8MJb4pbPSDow
DiT shines in Sora. Our team at NYU has recently released a new DiT model, called SiT.
Available now! Telegram Research 2025 โ the year's key insights 
