Attention Is All You Need ์์ฝ
๐ค AI Summary Notice ์ด ๊ธ์ AI(Claude)๊ฐ ๋ ผ๋ฌธ์ ์ฝ๊ณ ์์ฑํ ์์ฝ์ ๋๋ค. ๋ถ์ ํํ ๋ด์ฉ์ด ์์ ์ ์์ผ๋, ์ ํํ ์ ๋ณด๋ ์๋ฌธ์ ์ฐธ๊ณ ํด์ฃผ์ธ์. ...
Proximal Policy Optimization Algorithms ์์ฝ
๐ค AI Summary Notice ์ด ๊ธ์ AI๊ฐ ๋ ผ๋ฌธ์ ์ฝ๊ณ ์์ฑํ ์์ฝ์ ๋๋ค. ๋ถ์ ํํ ๋ด์ฉ์ด ์์ ์ ์์ผ๋, ์ ํํ ์ ๋ณด๋ ์๋ฌธ์ ์ฐธ๊ณ ํด์ฃผ์ธ์. ...
SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning ์์ฝ
๐ค AI Summary Notice ์ด ๊ธ์ AI(Claude)๊ฐ ๋ ผ๋ฌธ์ ์ฝ๊ณ ์์ฑํ ์์ฝ์ ๋๋ค. ๋ถ์ ํํ ๋ด์ฉ์ด ์์ ์ ์์ผ๋, ์ ํํ ์ ๋ณด๋ ์๋ฌธ์ ์ฐธ๊ณ ํด์ฃผ์ธ์. ...
Recursive Language Models ์์ฝ
๐ค AI Summary Notice ์ด ๊ธ์ AI(Claude)๊ฐ ๋ ผ๋ฌธ์ ์ฝ๊ณ ์์ฑํ ์์ฝ์ ๋๋ค. ๋ถ์ ํํ ๋ด์ฉ์ด ์์ ์ ์์ผ๋, ์ ํํ ์ ๋ณด๋ ์๋ฌธ์ ์ฐธ๊ณ ํด์ฃผ์ธ์. TL;DR Recursive Language Models(RLM)์ ๊ธด ํ๋กฌํํธ๋ฅผ LLM์ ์ง์ ๋ฃ๋ ๋์ , ์ธ๋ถ ํ๊ฒฝ์ ์ผ๋ถ๋ก ์ทจ๊ธํ์ฌ LLM์ด ํ๋ก๊ทธ๋๋ฐ์ ์ผ๋ก ํ๋กฌํํธ๋ฅผ ํ์ยท๋ถํดํ๊ณ ์๊ธฐ ์์ ์ ์ฌ๊ท์ ์ผ๋ก ํธ์ถํ๋ ์ถ๋ก ํ๋ ์์ํฌ์ด๋ค. RLM์ ๊ธฐ์กด ์ปจํ ์คํธ ์๋์ฐ๋ณด๋ค ๋ ์๋ฆฟ์(100๋ฐฐ) ์ด์ ๊ธด ์ ๋ ฅ์ ์ฒ๋ฆฌํ ์ ์์ผ๋ฉฐ, ์๊ท๋ชจ ๋ชจ๋ธ(RLM-Qwen3-8B)์ด ๊ธฐ๋ณธ ๋ชจ๋ธ ๋๋น ํ๊ท 28.3% ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๊ณ ์ผ๋ถ ๋ฒค์น๋งํฌ์์ GPT-5์ ๊ทผ์ ํ ์ฑ๋ฅ์ ๋ณด์๋ค. ...
Vibe Coding์ผ๋ก ๋ง๋๋ ์น ๊ฒ์
Number Game: ๋ฐ์ด๋ธ ์ฝ๋ฉ์ผ๋ก ๋ง๋ ์ซ์ ํผ์ฆ ๊ฒ์...
์ด๊ฑฐ ์ด๋ป๊ฒ ๋ง๋ ๊ฑฐ์์?
Hugo ๋ธ๋ก๊ทธ๋ฅผ ๋ง๋ค๊ณ ์ถ์ด์ ๋ด๊ฐ ๋ช ๋ ๋์ ๋ง์ด ์ฝ์๋ Lilian Wengโs Blog๋ฅผ ์ฐธ๊ณ ํ๊ธฐ๋ก ํ๋ค. ...
Sutton์ RL ์ฑ ํ ์ฅ ์์ฝ
Reinforcement Learning: An Introduction by Richard S. Sutton and Andrew Barto: link ...