책 사진을 추가해 주세요

책 속 문장 또는 소감을 기록해 주세요
서평
•
일러스트가 잘되어 있다.
•
아직 초기이지만 실용서가 아닐 수도 있다는 불안감이 있다.
Table
Search
Day
페이지
책 속 한 문장 또는 소감
P.33 ~ P.58
01. LLM 지도
* 2013 워드투벡 → 2017 트랜스포머 → 2018 GPT-1
* 임베딩 : 데이터의 의미와 특징을 포착해 숫자료 표현한 것
* 전이학습 : 사전학습(Pre-training) → 미세조정(Fine-tuning)
* 다운스트림 과제 : 사전학습 모델을 미세 조정해 풀고자 하는 과제
* 시퀀스 : 길이가 다양한 데이터의 형태
→ 기존에는 RNN을 이용, 요즘은 transformer 활용
* 트랜스포머 : RNN의 순차적인 방식을 버리고, 맥락을 모두 참조하는 어텐션 연산을 사용해 RNN의 소멸 현상(Vanishing Gradient) 문제 해결
→ 트랜스포머는 성능이 높지만 비효율적이고 RNN은 효율적이지만 성능이 낮다 ⇒ 맘바(Mamba)가 기대주!
>> 언어 모델이 학습하는 과정은 학습 데이터를 압축하는 과정! (패턴추출)
* sLLM (Small Large Language Model) : 특정 도메인 특화 LLM
* LORA(Low Rank Adoption) : 효율적인 학습과 추론
* RAG(Retrieval Augmented Generation) : LLM의 환각 현상 대처
* 멀티모달(Multimodal) LLM : 이미지, 비디오, 오디오등 다양한 형식 입/출력
* 에이전트(Agent) : 계획을 세우거나 의사결정을 내리고 필요한 행동 수행
P,59 ~ P.100
02. 트랜스포머 아키텍쳐
* 인코더(Encoder) : 언어를 이해하는 과정
* 디코더(Decoder) : 언어를 생성하는 과정
* 셀프어텐션(Self-attention) : 입력된 문장 내의 각 단어가 서로 어떤 관련이 있는지 계산해서 각 단어의 표현을 조정하는 역할
* 위치 인코딩(Positional Encoding)
* 층 정규화(Layer Normalization)
* 멀티 헤드 어텐션(Multi Head Attention)
* 피드 포워드(Feed Forward)
* 토큰화(tokenization) : 텍스트를 적절한 단위로 나누고 숫자 아이디를 부여하는 작업
→ 새로운 단어는 사전에 없기 때문에 처리하지 못하는 OOV(Out Of Vocabulary) 문제가 자주 발생
* 토큰 임베딩으로 변환하기 : Pytorch가 제공하는 nn.Embedding 클래스 사용
* Attention is All you need
* 어텐션 이해하기 :
- 핵심 개념 : 쿼리(Query), 키(Key), 값(Value)
- 쿼리(Query) > 검색어
- 키(Key) > 문서가 가진 특징 : 제목, 본문, 저자 이름 등
- 값(Value) > 쿼리와 관련깊은 키를 가진 문서를 찾아 관련도순으로 정렬해서 문서를 제공할 때 문서의 값