P.33 ~ P.58
01. LLM ์ง๋
* 2013 ์๋ํฌ๋ฒก โ 2017 ํธ๋์คํฌ๋จธ โ 2018 GPT-1
* ์๋ฒ ๋ฉ : ๋ฐ์ดํฐ์ ์๋ฏธ์ ํน์ง์ ํฌ์ฐฉํด ์ซ์๋ฃ ํํํ ๊ฒ
* ์ ์ดํ์ต : ์ฌ์ ํ์ต(Pre-training) โ ๋ฏธ์ธ์กฐ์ (Fine-tuning)
* ๋ค์ด์คํธ๋ฆผ ๊ณผ์ : ์ฌ์ ํ์ต ๋ชจ๋ธ์ ๋ฏธ์ธ ์กฐ์ ํด ํ๊ณ ์ ํ๋ ๊ณผ์
* ์ํ์ค : ๊ธธ์ด๊ฐ ๋ค์ํ ๋ฐ์ดํฐ์ ํํ
โ ๊ธฐ์กด์๋ RNN์ ์ด์ฉ, ์์ฆ์ transformer ํ์ฉ
* ํธ๋์คํฌ๋จธ : RNN์ ์์ฐจ์ ์ธ ๋ฐฉ์์ ๋ฒ๋ฆฌ๊ณ , ๋งฅ๋ฝ์ ๋ชจ๋ ์ฐธ์กฐํ๋ ์ดํ
์
์ฐ์ฐ์ ์ฌ์ฉํด RNN์ ์๋ฉธ ํ์(Vanishing Gradient) ๋ฌธ์ ํด๊ฒฐ
โ ํธ๋์คํฌ๋จธ๋ ์ฑ๋ฅ์ด ๋์ง๋ง ๋นํจ์จ์ ์ด๊ณ RNN์ ํจ์จ์ ์ด์ง๋ง ์ฑ๋ฅ์ด ๋ฎ๋ค โ ๋ง๋ฐ(Mamba)๊ฐ ๊ธฐ๋์ฃผ!
>> ์ธ์ด ๋ชจ๋ธ์ด ํ์ตํ๋ ๊ณผ์ ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ถํ๋ ๊ณผ์ ! (ํจํด์ถ์ถ)
* sLLM (Small Large Language Model) : ํน์ ๋๋ฉ์ธ ํนํ LLM
* LORA(Low Rank Adoption) : ํจ์จ์ ์ธ ํ์ต๊ณผ ์ถ๋ก
* RAG(Retrieval Augmented Generation) : LLM์ ํ๊ฐ ํ์ ๋์ฒ
* ๋ฉํฐ๋ชจ๋ฌ(Multimodal) LLM : ์ด๋ฏธ์ง, ๋น๋์ค, ์ค๋์ค๋ฑ ๋ค์ํ ํ์ ์
/์ถ๋ ฅ
* ์์ด์ ํธ(Agent) : ๊ณํ์ ์ธ์ฐ๊ฑฐ๋ ์์ฌ๊ฒฐ์ ์ ๋ด๋ฆฌ๊ณ ํ์ํ ํ๋ ์ํ
P,59 ~ P.100
02. ํธ๋์คํฌ๋จธ ์ํคํ
์ณ
* ์ธ์ฝ๋(Encoder) : ์ธ์ด๋ฅผ ์ดํดํ๋ ๊ณผ์
* ๋์ฝ๋(Decoder) : ์ธ์ด๋ฅผ ์์ฑํ๋ ๊ณผ์
* ์
ํ์ดํ
์
(Self-attention) : ์
๋ ฅ๋ ๋ฌธ์ฅ ๋ด์ ๊ฐ ๋จ์ด๊ฐ ์๋ก ์ด๋ค ๊ด๋ จ์ด ์๋์ง ๊ณ์ฐํด์ ๊ฐ ๋จ์ด์ ํํ์ ์กฐ์ ํ๋ ์ญํ
* ์์น ์ธ์ฝ๋ฉ(Positional Encoding)
* ์ธต ์ ๊ทํ(Layer Normalization)
* ๋ฉํฐ ํค๋ ์ดํ
์
(Multi Head Attention)
* ํผ๋ ํฌ์๋(Feed Forward)
* ํ ํฐํ(tokenization) : ํ
์คํธ๋ฅผ ์ ์ ํ ๋จ์๋ก ๋๋๊ณ ์ซ์ ์์ด๋๋ฅผ ๋ถ์ฌํ๋ ์์
โ ์๋ก์ด ๋จ์ด๋ ์ฌ์ ์ ์๊ธฐ ๋๋ฌธ์ ์ฒ๋ฆฌํ์ง ๋ชปํ๋ OOV(Out Of Vocabulary) ๋ฌธ์ ๊ฐ ์์ฃผ ๋ฐ์
* ํ ํฐ ์๋ฒ ๋ฉ์ผ๋ก ๋ณํํ๊ธฐ : Pytorch๊ฐ ์ ๊ณตํ๋ nn.Embedding ํด๋์ค ์ฌ์ฉ
* Attention is All you need
* ์ดํ
์
์ดํดํ๊ธฐ :
- ํต์ฌ ๊ฐ๋
: ์ฟผ๋ฆฌ(Query), ํค(Key), ๊ฐ(Value)
- ์ฟผ๋ฆฌ(Query) > ๊ฒ์์ด
- ํค(Key) > ๋ฌธ์๊ฐ ๊ฐ์ง ํน์ง : ์ ๋ชฉ, ๋ณธ๋ฌธ, ์ ์ ์ด๋ฆ ๋ฑ
- ๊ฐ(Value) > ์ฟผ๋ฆฌ์ ๊ด๋ จ๊น์ ํค๋ฅผ ๊ฐ์ง ๋ฌธ์๋ฅผ ์ฐพ์ ๊ด๋ จ๋์์ผ๋ก ์ ๋ ฌํด์ ๋ฌธ์๋ฅผ ์ ๊ณตํ ๋ ๋ฌธ์์ ๊ฐ