LLM을 활용한 실전 AI 애플리케이션 개발

지은이
허정준
분류
컴퓨터/IT
시작일
2024/11/28
완독일
평점
책 사진을 추가해 주세요
책 속 문장 또는 소감을 기록해 주세요

서평

일러스트가 잘되어 있다.
아직 초기이지만 실용서가 아닐 수도 있다는 불안감이 있다.
Search
기록
Day
페이지
책 속 한 문장 또는 소감
P.33 ~ P.58
01. LLM 지도 * 2013 워드투벡 → 2017 트랜스포머 → 2018 GPT-1 * 임베딩 : 데이터의 의미와 특징을 포착해 숫자료 표현한 것 * 전이학습 : 사전학습(Pre-training) → 미세조정(Fine-tuning) * 다운스트림 과제 : 사전학습 모델을 미세 조정해 풀고자 하는 과제 * 시퀀스 : 길이가 다양한 데이터의 형태 → 기존에는 RNN을 이용, 요즘은 transformer 활용 * 트랜스포머 : RNN의 순차적인 방식을 버리고, 맥락을 모두 참조하는 어텐션 연산을 사용해 RNN의 소멸 현상(Vanishing Gradient) 문제 해결 → 트랜스포머는 성능이 높지만 비효율적이고 RNN은 효율적이지만 성능이 낮다 ⇒ 맘바(Mamba)가 기대주! >> 언어 모델이 학습하는 과정은 학습 데이터를 압축하는 과정! (패턴추출) * sLLM (Small Large Language Model) : 특정 도메인 특화 LLM * LORA(Low Rank Adoption) : 효율적인 학습과 추론 * RAG(Retrieval Augmented Generation) : LLM의 환각 현상 대처 * 멀티모달(Multimodal) LLM : 이미지, 비디오, 오디오등 다양한 형식 입/출력 * 에이전트(Agent) : 계획을 세우거나 의사결정을 내리고 필요한 행동 수행
P,59 ~ P.100
02. 트랜스포머 아키텍쳐 * 인코더(Encoder) : 언어를 이해하는 과정 * 디코더(Decoder) : 언어를 생성하는 과정 * 셀프어텐션(Self-attention) : 입력된 문장 내의 각 단어가 서로 어떤 관련이 있는지 계산해서 각 단어의 표현을 조정하는 역할 * 위치 인코딩(Positional Encoding) * 층 정규화(Layer Normalization) * 멀티 헤드 어텐션(Multi Head Attention) * 피드 포워드(Feed Forward) * 토큰화(tokenization) : 텍스트를 적절한 단위로 나누고 숫자 아이디를 부여하는 작업 → 새로운 단어는 사전에 없기 때문에 처리하지 못하는 OOV(Out Of Vocabulary) 문제가 자주 발생 * 토큰 임베딩으로 변환하기 : Pytorch가 제공하는 nn.Embedding 클래스 사용 * Attention is All you need * 어텐션 이해하기 : - 핵심 개념 : 쿼리(Query), 키(Key), 값(Value) - 쿼리(Query) > 검색어 - 키(Key) > 문서가 가진 특징 : 제목, 본문, 저자 이름 등 - 값(Value) > 쿼리와 관련깊은 키를 가진 문서를 찾아 관련도순으로 정렬해서 문서를 제공할 때 문서의 값
P.101 ~ P.134
P.135 ~ P.164