๊ธฐ๋ก

Search
Day
ํŽ˜์ด์ง€
์ฑ… ์† ํ•œ ๋ฌธ์žฅ ๋˜๋Š” ์†Œ๊ฐ
P.33 ~ P.58
01. LLM ์ง€๋„ * 2013 ์›Œ๋“œํˆฌ๋ฒก โ†’ 2017 ํŠธ๋žœ์Šคํฌ๋จธ โ†’ 2018 GPT-1 * ์ž„๋ฒ ๋”ฉ : ๋ฐ์ดํ„ฐ์˜ ์˜๋ฏธ์™€ ํŠน์ง•์„ ํฌ์ฐฉํ•ด ์ˆซ์ž๋ฃŒ ํ‘œํ˜„ํ•œ ๊ฒƒ * ์ „์ดํ•™์Šต : ์‚ฌ์ „ํ•™์Šต(Pre-training) โ†’ ๋ฏธ์„ธ์กฐ์ •(Fine-tuning) * ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ : ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์„ ๋ฏธ์„ธ ์กฐ์ •ํ•ด ํ’€๊ณ ์ž ํ•˜๋Š” ๊ณผ์ œ * ์‹œํ€€์Šค : ๊ธธ์ด๊ฐ€ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์˜ ํ˜•ํƒœ โ†’ ๊ธฐ์กด์—๋Š” RNN์„ ์ด์šฉ, ์š”์ฆ˜์€ transformer ํ™œ์šฉ * ํŠธ๋žœ์Šคํฌ๋จธ : RNN์˜ ์ˆœ์ฐจ์ ์ธ ๋ฐฉ์‹์„ ๋ฒ„๋ฆฌ๊ณ , ๋งฅ๋ฝ์„ ๋ชจ๋‘ ์ฐธ์กฐํ•˜๋Š” ์–ดํ…์…˜ ์—ฐ์‚ฐ์„ ์‚ฌ์šฉํ•ด RNN์˜ ์†Œ๋ฉธ ํ˜„์ƒ(Vanishing Gradient) ๋ฌธ์ œ ํ•ด๊ฒฐ โ†’ ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์„ฑ๋Šฅ์ด ๋†’์ง€๋งŒ ๋น„ํšจ์œจ์ ์ด๊ณ  RNN์€ ํšจ์œจ์ ์ด์ง€๋งŒ ์„ฑ๋Šฅ์ด ๋‚ฎ๋‹ค โ‡’ ๋ง˜๋ฐ”(Mamba)๊ฐ€ ๊ธฐ๋Œ€์ฃผ! >> ์–ธ์–ด ๋ชจ๋ธ์ด ํ•™์Šตํ•˜๋Š” ๊ณผ์ •์€ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์••์ถ•ํ•˜๋Š” ๊ณผ์ •! (ํŒจํ„ด์ถ”์ถœ) * sLLM (Small Large Language Model) : ํŠน์ • ๋„๋ฉ”์ธ ํŠนํ™” LLM * LORA(Low Rank Adoption) : ํšจ์œจ์ ์ธ ํ•™์Šต๊ณผ ์ถ”๋ก  * RAG(Retrieval Augmented Generation) : LLM์˜ ํ™˜๊ฐ ํ˜„์ƒ ๋Œ€์ฒ˜ * ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ(Multimodal) LLM : ์ด๋ฏธ์ง€, ๋น„๋””์˜ค, ์˜ค๋””์˜ค๋“ฑ ๋‹ค์–‘ํ•œ ํ˜•์‹ ์ž…/์ถœ๋ ฅ * ์—์ด์ „ํŠธ(Agent) : ๊ณ„ํš์„ ์„ธ์šฐ๊ฑฐ๋‚˜ ์˜์‚ฌ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ๊ณ  ํ•„์š”ํ•œ ํ–‰๋™ ์ˆ˜ํ–‰
P,59 ~ P.100
02. ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ณ * ์ธ์ฝ”๋”(Encoder) : ์–ธ์–ด๋ฅผ ์ดํ•ดํ•˜๋Š” ๊ณผ์ • * ๋””์ฝ”๋”(Decoder) : ์–ธ์–ด๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ณผ์ • * ์…€ํ”„์–ดํ…์…˜(Self-attention) : ์ž…๋ ฅ๋œ ๋ฌธ์žฅ ๋‚ด์˜ ๊ฐ ๋‹จ์–ด๊ฐ€ ์„œ๋กœ ์–ด๋–ค ๊ด€๋ จ์ด ์žˆ๋Š”์ง€ ๊ณ„์‚ฐํ•ด์„œ ๊ฐ ๋‹จ์–ด์˜ ํ‘œํ˜„์„ ์กฐ์ •ํ•˜๋Š” ์—ญํ•  * ์œ„์น˜ ์ธ์ฝ”๋”ฉ(Positional Encoding) * ์ธต ์ •๊ทœํ™”(Layer Normalization) * ๋ฉ€ํ‹ฐ ํ—ค๋“œ ์–ดํ…์…˜(Multi Head Attention) * ํ”ผ๋“œ ํฌ์›Œ๋“œ(Feed Forward) * ํ† ํฐํ™”(tokenization) : ํ…์ŠคํŠธ๋ฅผ ์ ์ ˆํ•œ ๋‹จ์œ„๋กœ ๋‚˜๋ˆ„๊ณ  ์ˆซ์ž ์•„์ด๋””๋ฅผ ๋ถ€์—ฌํ•˜๋Š” ์ž‘์—… โ†’ ์ƒˆ๋กœ์šด ๋‹จ์–ด๋Š” ์‚ฌ์ „์— ์—†๊ธฐ ๋•Œ๋ฌธ์— ์ฒ˜๋ฆฌํ•˜์ง€ ๋ชปํ•˜๋Š” OOV(Out Of Vocabulary) ๋ฌธ์ œ๊ฐ€ ์ž์ฃผ ๋ฐœ์ƒ * ํ† ํฐ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ : Pytorch๊ฐ€ ์ œ๊ณตํ•˜๋Š” nn.Embedding ํด๋ž˜์Šค ์‚ฌ์šฉ * Attention is All you need * ์–ดํ…์…˜ ์ดํ•ดํ•˜๊ธฐ : - ํ•ต์‹ฌ ๊ฐœ๋… : ์ฟผ๋ฆฌ(Query), ํ‚ค(Key), ๊ฐ’(Value) - ์ฟผ๋ฆฌ(Query) > ๊ฒ€์ƒ‰์–ด - ํ‚ค(Key) > ๋ฌธ์„œ๊ฐ€ ๊ฐ€์ง„ ํŠน์ง• : ์ œ๋ชฉ, ๋ณธ๋ฌธ, ์ €์ž ์ด๋ฆ„ ๋“ฑ - ๊ฐ’(Value) > ์ฟผ๋ฆฌ์™€ ๊ด€๋ จ๊นŠ์€ ํ‚ค๋ฅผ ๊ฐ€์ง„ ๋ฌธ์„œ๋ฅผ ์ฐพ์•„ ๊ด€๋ จ๋„์ˆœ์œผ๋กœ ์ •๋ ฌํ•ด์„œ ๋ฌธ์„œ๋ฅผ ์ œ๊ณตํ•  ๋•Œ ๋ฌธ์„œ์˜ ๊ฐ’
P.101 ~ P.134
P.135 ~ P.164