본문 바로가기
IT기술노트/인공지능

LLM (Large Language Model)

by 비트코기 2023. 8. 23.

I. 인공 일반 지능(AGI)으로의 진화, LLM의 개요

가. LLM의 정의

- 수십억 개의 파라미터를 가지고 복잡한 자연어 패턴을 학습하여 문장 생성, 기계 번역, 질문 응답, 감정 분석 등 다양한 자연어 처리 작업을 수행하는 대규모 자연어 처리 모델

- 대표적인 Large Language Model : GPT, BERT

나. LLM의 주요 용어

용어 설명
단어 임베딩 - 단어의 의미를 숫자 형식으로 표현하여 AI 모델을 입력하고 처리하는 알고리즘
- 유사한 의미를 가진 단어가 서로 더 가깝게 위치하는 고차원 공간에서 단어를 벡터에 매핑
주의 메커니즘 - AI가 출력을 생성할 때 텍스트의 감정 관련 단어와 같은 입력 텍스트의 특정 부분에 집중하게 하는 알고리즘
트랜스포머 - 입력 데이터를 처리하기 위해 셀프 어텐션 메커니즘을 사용하는 신경망 아키텍처 유형
- LLM 연구에서 널리 사용되는 신경망 아키텍처의 한가지이며 self-attention 메커니즘을 사용하여 입력 데이터를 처리하여 인간 언어의 장기적인 종속성을 효과적으로 캡쳐
Attention Mechanism - AI가 출력을 생성할 때 입력 텍스트의 특정 부분에 집중하도록 하는 알고리즘
- 주어진 입력의 맥락이나 감정을 고려하여 일관되고 정확한 응답 기대
Fine-tuning - LLM을 더 작고 관련 있는 데이터 세트에서 교육하여 특정 작업 또는 도메인에 맞게 조정하는 프로세스
Prompt engineering - 고품질의 일관된 출력을 생성하기 위한 입력 프롬포트의 숙련된 설계
편향(Bias) - 교육 데이터 세트에 체계적이고 불공평한 선호도 또는 편견이 존재하며 LLM에서 학습하여 차별적인 결과가 도출되는 현상
해석 가능성 - AI 시스템의 결과와 결정을 이해하고 설명할수 있는 능력

- LLM 학습을 위해 다양한 알고리즘과 기술을 활용


II. LLM의 학습 프로세스 및 단계별 활동

가. LLM의 학습 프로세스

- LLM의 학습 프로세스는 크게 사전 학습과 미세 조정 두 단계로 진행

나. LLM의 단계별 활동

단계 활동 설명
사전 학습
(pretraining)
1. 데이터 수집 - LLM은 수십억 단어를 포함하는 대규모 텍스트 데이터셋(corpus)을 필요
- corpus은 인터넷 웹 페이지, 도서, 기사, 논문 등 다양한 원본에서 수집
2. 데이터 전처리 - 수집된 데이트는 토큰화(tokenization), 정규화(normalization), 노이즈 제거 등의 전처리 작업 수행
- 전처리를 통해 언어 모델이 학습할 정보가 담긴 텍스트 확보
3. 언어 모델 기반 학습 - 사전 학습 단계에서는 기본적으로 언어 모델을 학습
- 입력 데이터 이전 단어들을 바탕으로 다음 단어를 예측하는 방식으로 학습
4. 인코더/디코더 아키텍처 - 주로 Transformer 아키텍처를 사용하며 여러 계층의 인코더와 디코더로 구성
- 인코더는 문장을 벡터 형태의 표현으로 변환하고 디코더는 이 벡터 표현을 바탕으로 결과 생성
미세 조정
(fine-tuning)
5. 작업별 데이터셋 준비 - 미세 조정을 위해 해당 작업에 적합한 레이블이 부착된 데이터 셋 준비
6. 목표 작업 정의 - 작업의 목표를 정확하게 정의하여 작업의 종류에 따라 비지도 학습 또는 강화학습등의 방법을 고려
7. 출력 계층 설정 - 디코더의 출력부를 해당 작업의 목표에 맞게 설정
8. 학습률 및 에폭 조정 - 사전 학습된 가중치 값에 최적화된 결과를 달성하기위해 학습률(learning rate)과 에폭수(정밀도 조정)같은 하이퍼 파라미터 조정
9. 모델 학습 - 준비된 데이터셋과 설정된 출력 계층을 바탕으로, LLM을 해당 작업에 적합한 모델로 미세 조정 수행
- 모델은 작업별 loss를 최소화 하는 방향으로 적용된 데이터에 대해 학습

- 미세 조정 과정을 완료한 후 이 모델을 사용하여 원하는 자연어 처리(NLP) 작업 수행

 

III.LLM 주요 모델

주요 모델 설명
GPT-3.5 (OpneAI) - 1,750개의 매개변수를 이용하여 광범위한 학습 데이터를 통해 언어 이해 및 생성 능력을 향상 시킨 모델
GPT-4 (OpenAI) - 이전 버전보다 더 큰 모델 크기(1조개의 매개변수 추정)와 더 정교한 이해와 생성능력을 갖춘 모델
PaLM2 (Google) - Pre-trained Automatic Metrics를 사용한 언어 모델로, 사전 훈련된 언어 모델을 사용하여 기계 번여, 요약, 질문 응답등의 다양한 NLP 작업에서 성능 평가를 위해 사용
LlaMA (Meta AI) - 작업 중심 언어 모델로 다양한 자연어 처리 작업을 포함하여 언어 모델의 성능을 평가하고 비교하기 위해 사용

- LLM을 이용한 AI 서비스에 대한 Hallucination 현상 주의 필요


※출처

https://www.mlq.ai/what-is-a-large-language-model-llm/

 

What is a Large Language Model (LLM)?

In this guide, we'll discuss everything you need to know about Large Language Models (LLMs), including key terms, algorithms, fine-tuning, and more.

www.mlq.ai

https://www.thedatahunt.com/trend-insight/what-is-llm

 

LLM이란 무엇인가? - 정의, 원리, 주요 모델, 적용 사례

LLM (거대 언어 모델, Large Language Model) 은 딥 러닝 알고리즘과 통계 모델링을 통해 NLP 작업을 수행하는 데에 사용합니다. 최근 생성 AI의 가능성이 주목 받으면서, LLM의 시장성과 가치가 더욱 주목

www.thedatahunt.com

 

반응형

댓글