반응형
I. 인공 일반 지능(AGI)으로의 진화, LLM의 개요
가. LLM의 정의
- 수십억 개의 파라미터를 가지고 복잡한 자연어 패턴을 학습하여 문장 생성, 기계 번역, 질문 응답, 감정 분석 등 다양한 자연어 처리 작업을 수행하는 대규모 자연어 처리 모델
- 대표적인 Large Language Model : GPT, BERT
나. LLM의 주요 용어
용어 | 설명 |
단어 임베딩 | - 단어의 의미를 숫자 형식으로 표현하여 AI 모델을 입력하고 처리하는 알고리즘 - 유사한 의미를 가진 단어가 서로 더 가깝게 위치하는 고차원 공간에서 단어를 벡터에 매핑 |
주의 메커니즘 | - AI가 출력을 생성할 때 텍스트의 감정 관련 단어와 같은 입력 텍스트의 특정 부분에 집중하게 하는 알고리즘 |
트랜스포머 | - 입력 데이터를 처리하기 위해 셀프 어텐션 메커니즘을 사용하는 신경망 아키텍처 유형 - LLM 연구에서 널리 사용되는 신경망 아키텍처의 한가지이며 self-attention 메커니즘을 사용하여 입력 데이터를 처리하여 인간 언어의 장기적인 종속성을 효과적으로 캡쳐 |
Attention Mechanism | - AI가 출력을 생성할 때 입력 텍스트의 특정 부분에 집중하도록 하는 알고리즘 - 주어진 입력의 맥락이나 감정을 고려하여 일관되고 정확한 응답 기대 |
Fine-tuning | - LLM을 더 작고 관련 있는 데이터 세트에서 교육하여 특정 작업 또는 도메인에 맞게 조정하는 프로세스 |
Prompt engineering | - 고품질의 일관된 출력을 생성하기 위한 입력 프롬포트의 숙련된 설계 |
편향(Bias) | - 교육 데이터 세트에 체계적이고 불공평한 선호도 또는 편견이 존재하며 LLM에서 학습하여 차별적인 결과가 도출되는 현상 |
해석 가능성 | - AI 시스템의 결과와 결정을 이해하고 설명할수 있는 능력 |
- LLM 학습을 위해 다양한 알고리즘과 기술을 활용
II. LLM의 학습 프로세스 및 단계별 활동
가. LLM의 학습 프로세스
- LLM의 학습 프로세스는 크게 사전 학습과 미세 조정 두 단계로 진행
나. LLM의 단계별 활동
단계 | 활동 | 설명 |
사전 학습 (pretraining) |
1. 데이터 수집 | - LLM은 수십억 단어를 포함하는 대규모 텍스트 데이터셋(corpus)을 필요 - corpus은 인터넷 웹 페이지, 도서, 기사, 논문 등 다양한 원본에서 수집 |
2. 데이터 전처리 | - 수집된 데이트는 토큰화(tokenization), 정규화(normalization), 노이즈 제거 등의 전처리 작업 수행 - 전처리를 통해 언어 모델이 학습할 정보가 담긴 텍스트 확보 |
|
3. 언어 모델 기반 학습 | - 사전 학습 단계에서는 기본적으로 언어 모델을 학습 - 입력 데이터 이전 단어들을 바탕으로 다음 단어를 예측하는 방식으로 학습 |
|
4. 인코더/디코더 아키텍처 | - 주로 Transformer 아키텍처를 사용하며 여러 계층의 인코더와 디코더로 구성 - 인코더는 문장을 벡터 형태의 표현으로 변환하고 디코더는 이 벡터 표현을 바탕으로 결과 생성 |
|
미세 조정 (fine-tuning) |
5. 작업별 데이터셋 준비 | - 미세 조정을 위해 해당 작업에 적합한 레이블이 부착된 데이터 셋 준비 |
6. 목표 작업 정의 | - 작업의 목표를 정확하게 정의하여 작업의 종류에 따라 비지도 학습 또는 강화학습등의 방법을 고려 | |
7. 출력 계층 설정 | - 디코더의 출력부를 해당 작업의 목표에 맞게 설정 | |
8. 학습률 및 에폭 조정 | - 사전 학습된 가중치 값에 최적화된 결과를 달성하기위해 학습률(learning rate)과 에폭수(정밀도 조정)같은 하이퍼 파라미터 조정 | |
9. 모델 학습 | - 준비된 데이터셋과 설정된 출력 계층을 바탕으로, LLM을 해당 작업에 적합한 모델로 미세 조정 수행 - 모델은 작업별 loss를 최소화 하는 방향으로 적용된 데이터에 대해 학습 |
- 미세 조정 과정을 완료한 후 이 모델을 사용하여 원하는 자연어 처리(NLP) 작업 수행
III.LLM 주요 모델
주요 모델 | 설명 |
GPT-3.5 (OpneAI) | - 1,750개의 매개변수를 이용하여 광범위한 학습 데이터를 통해 언어 이해 및 생성 능력을 향상 시킨 모델 |
GPT-4 (OpenAI) | - 이전 버전보다 더 큰 모델 크기(1조개의 매개변수 추정)와 더 정교한 이해와 생성능력을 갖춘 모델 |
PaLM2 (Google) | - Pre-trained Automatic Metrics를 사용한 언어 모델로, 사전 훈련된 언어 모델을 사용하여 기계 번여, 요약, 질문 응답등의 다양한 NLP 작업에서 성능 평가를 위해 사용 |
LlaMA (Meta AI) | - 작업 중심 언어 모델로 다양한 자연어 처리 작업을 포함하여 언어 모델의 성능을 평가하고 비교하기 위해 사용 |
- LLM을 이용한 AI 서비스에 대한 Hallucination 현상 주의 필요
※출처
https://www.mlq.ai/what-is-a-large-language-model-llm/
https://www.thedatahunt.com/trend-insight/what-is-llm
반응형
'IT기술노트 > 인공지능' 카테고리의 다른 글
챗봇 윤리 원칙 (0) | 2023.12.20 |
---|---|
술어논리(Predicate Logic) (0) | 2023.04.03 |
DB SCAN Clustering (Density-Based Spatial Clustering of Applications with Noise) (0) | 2023.03.15 |
인공지능 학습용 데이터 품질관리 가이드라인 (0) | 2022.01.09 |
EU AI 규제안 (0) | 2021.04.26 |
AI 기반 시스템의 AI 고유 특성 (0) | 2021.04.26 |
GAN(Generative Adversarial Networks) (0) | 2021.03.06 |
오류 역전파(Backpropagation) 알고리즘 (0) | 2021.03.06 |
댓글