LLM (Large Language Model)

I. 인공 일반 지능(AGI)으로의 진화, LLM의 개요

가. LLM의 정의

- 수십억 개의 파라미터를 가지고 복잡한 자연어 패턴을 학습하여 문장 생성, 기계 번역, 질문 응답, 감정 분석 등 다양한 자연어 처리 작업을 수행하는 대규모 자연어 처리 모델

- 대표적인 Large Language Model : GPT, BERT

나. LLM의 주요 용어

용어	설명
단어 임베딩	- 단어의 의미를 숫자 형식으로 표현하여 AI 모델을 입력하고 처리하는 알고리즘 - 유사한 의미를 가진 단어가 서로 더 가깝게 위치하는 고차원 공간에서 단어를 벡터에 매핑
주의 메커니즘	- AI가 출력을 생성할 때 텍스트의 감정 관련 단어와 같은 입력 텍스트의 특정 부분에 집중하게 하는 알고리즘
트랜스포머	- 입력 데이터를 처리하기 위해 셀프 어텐션 메커니즘을 사용하는 신경망 아키텍처 유형 - LLM 연구에서 널리 사용되는 신경망 아키텍처의 한가지이며 self-attention 메커니즘을 사용하여 입력 데이터를 처리하여 인간 언어의 장기적인 종속성을 효과적으로 캡쳐
Attention Mechanism	- AI가 출력을 생성할 때 입력 텍스트의 특정 부분에 집중하도록 하는 알고리즘 - 주어진 입력의 맥락이나 감정을 고려하여 일관되고 정확한 응답 기대
Fine-tuning	- LLM을 더 작고 관련 있는 데이터 세트에서 교육하여 특정 작업 또는 도메인에 맞게 조정하는 프로세스
Prompt engineering	- 고품질의 일관된 출력을 생성하기 위한 입력 프롬포트의 숙련된 설계
편향(Bias)	- 교육 데이터 세트에 체계적이고 불공평한 선호도 또는 편견이 존재하며 LLM에서 학습하여 차별적인 결과가 도출되는 현상
해석 가능성	- AI 시스템의 결과와 결정을 이해하고 설명할수 있는 능력

- LLM 학습을 위해 다양한 알고리즘과 기술을 활용

II. LLM의 학습 프로세스 및 단계별 활동

가. LLM의 학습 프로세스

- LLM의 학습 프로세스는 크게 사전 학습과 미세 조정 두 단계로 진행

나. LLM의 단계별 활동

단계	활동	설명
사전 학습 (pretraining)	1. 데이터 수집	- LLM은 수십억 단어를 포함하는 대규모 텍스트 데이터셋(corpus)을 필요 - corpus은 인터넷 웹 페이지, 도서, 기사, 논문 등 다양한 원본에서 수집
	2. 데이터 전처리	- 수집된 데이트는 토큰화(tokenization), 정규화(normalization), 노이즈 제거 등의 전처리 작업 수행 - 전처리를 통해 언어 모델이 학습할 정보가 담긴 텍스트 확보
	3. 언어 모델 기반 학습	- 사전 학습 단계에서는 기본적으로 언어 모델을 학습 - 입력 데이터 이전 단어들을 바탕으로 다음 단어를 예측하는 방식으로 학습
	4. 인코더/디코더 아키텍처	- 주로 Transformer 아키텍처를 사용하며 여러 계층의 인코더와 디코더로 구성 - 인코더는 문장을 벡터 형태의 표현으로 변환하고 디코더는 이 벡터 표현을 바탕으로 결과 생성
미세 조정 (fine-tuning)	5. 작업별 데이터셋 준비	- 미세 조정을 위해 해당 작업에 적합한 레이블이 부착된 데이터 셋 준비
	6. 목표 작업 정의	- 작업의 목표를 정확하게 정의하여 작업의 종류에 따라 비지도 학습 또는 강화학습등의 방법을 고려
	7. 출력 계층 설정	- 디코더의 출력부를 해당 작업의 목표에 맞게 설정
	8. 학습률 및 에폭 조정	- 사전 학습된 가중치 값에 최적화된 결과를 달성하기위해 학습률(learning rate)과 에폭수(정밀도 조정)같은 하이퍼 파라미터 조정
	9. 모델 학습	- 준비된 데이터셋과 설정된 출력 계층을 바탕으로, LLM을 해당 작업에 적합한 모델로 미세 조정 수행 - 모델은 작업별 loss를 최소화 하는 방향으로 적용된 데이터에 대해 학습

- 미세 조정 과정을 완료한 후 이 모델을 사용하여 원하는 자연어 처리(NLP) 작업 수행

III.LLM 주요 모델


주요 모델	설명
GPT-3.5 (OpneAI)	- 1,750개의 매개변수를 이용하여 광범위한 학습 데이터를 통해 언어 이해 및 생성 능력을 향상 시킨 모델
GPT-4 (OpenAI)	- 이전 버전보다 더 큰 모델 크기(1조개의 매개변수 추정)와 더 정교한 이해와 생성능력을 갖춘 모델
PaLM2 (Google)	- Pre-trained Automatic Metrics를 사용한 언어 모델로, 사전 훈련된 언어 모델을 사용하여 기계 번여, 요약, 질문 응답등의 다양한 NLP 작업에서 성능 평가를 위해 사용
LlaMA (Meta AI)	- 작업 중심 언어 모델로 다양한 자연어 처리 작업을 포함하여 언어 모델의 성능을 평가하고 비교하기 위해 사용

- LLM을 이용한 AI 서비스에 대한 Hallucination 현상 주의 필요

※출처

https://www.mlq.ai/what-is-a-large-language-model-llm/

What is a Large Language Model (LLM)?

In this guide, we'll discuss everything you need to know about Large Language Models (LLMs), including key terms, algorithms, fine-tuning, and more.

www.mlq.ai

https://www.thedatahunt.com/trend-insight/what-is-llm

LLM이란 무엇인가? - 정의, 원리, 주요 모델, 적용 사례

LLM (거대 언어 모델, Large Language Model) 은 딥 러닝 알고리즘과 통계 모델링을 통해 NLP 작업을 수행하는 데에 사용합니다. 최근 생성 AI의 가능성이 주목 받으면서, LLM의 시장성과 가치가 더욱 주목

www.thedatahunt.com

저작자표시 비영리 변경금지 (새창열림)

'IT기술노트 > 인공지능' 카테고리의 다른 글

챗봇 윤리 원칙 (0)	2023.12.20
술어논리(Predicate Logic) (0)	2023.04.03
DB SCAN Clustering (Density-Based Spatial Clustering of Applications with Noise) (0)	2023.03.15
인공지능 학습용 데이터 품질관리 가이드라인 (0)	2022.01.09
EU AI 규제안 (0)	2021.04.26
AI 기반 시스템의 AI 고유 특성 (0)	2021.04.26
GAN(Generative Adversarial Networks) (0)	2021.03.06
오류 역전파(Backpropagation) 알고리즘 (0)	2021.03.06

비트코기의 IT Note

LLM (Large Language Model)

I. 인공 일반 지능(AGI)으로의 진화, LLM의 개요

가. LLM의 정의

나. LLM의 주요 용어

II. LLM의 학습 프로세스 및 단계별 활동

가. LLM의 학습 프로세스

나. LLM의 단계별 활동

III.LLM 주요 모델

'IT기술노트 > 인공지능' 카테고리의 다른 글

댓글

티스토리툴바

LLM (Large Language Model)

I. 인공 일반 지능(AGI)으로의 진화, LLM의 개요

가. LLM의 정의

나. LLM의 주요 용어

II. LLM의 학습 프로세스 및 단계별 활동

가. LLM의 학습 프로세스

나. LLM의 단계별 활동

III.LLM 주요 모델

'IT기술노트 > 인공지능' 카테고리의 다른 글

관련글

댓글

티스토리툴바