Andrej Karpathy가 강의한 State of GPT를 들으면서 메모한 내용입니다.
Glossary and background knowledge
- 트랜스포머: 딥 러닝 모델 아키텍처의 일종으로, "주의력만 있으면 된다"라는 제목의 논문에서 소개되었습니다. 트랜스포머는 주로 자연어 처리(NLP) 분야에서 사용되며, GPT와 같은 모델 개발을 포함하여 최근 이 분야에서 이루어진 대부분의 발전의 배경이 되었습니다.
- 기본 모델: 대규모 텍스트 말뭉치에 대해 지도 학습을 사용하여 훈련된 오리지널 GPT 모델입니다.
- SFT 모델: "지도 미세 조정"의 약자입니다. 기본 모델을 학습시킨 후, 특정 작업에서 더 나은 성능을 발휘할 수 있도록 더 작고 구체적인 데이터 세트에 대해 추가 미세 조정을 수행합니다.
- 강화 학습: 머신 러닝의 한 유형으로, 에이전트가 특정 누적 보상 개념을 극대화하기 위해 환경에서 작업을 수행함으로써 의사 결정을 내리는 방법을 학습합니다.
- RLHF 모델: "인간 피드백을 통한 강화 학습"의 약자입니다. SFT 모델이 생성된 후에는 강화 학습을 사용하여 모델을 더욱 개선합니다. 이는 인간 평가자로부터 피드백을 받고, 이 피드백을 통해 보상 모델을 만든 다음, 이 보상 모델에 대해 강화 학습을 사용하여 모델을 최적화하는 방식으로 이루어집니다.
- 보상 모델: 모델의 특정 결과물이 얼마나 좋은지 추정하는 데 사용되는 모델입니다. RLHF 훈련 단계에서 사용됩니다.
- 미세 조정: 특정 작업에 대해 사전 학습된 모델을 훈련하는 프로세스입니다. 이는 대규모 데이터 세트(예: 전체 인터넷에 대해 학습된 언어 모델)에 대해 사전 학습된 모델을 특정 작업(예: 감정 분류 또는 질문 답변)에 적용하려는 경우에 유용합니다. 미세 조정은 특정 작업에 따라 사전 학습된 모델의 가중치를 조정합니다.
- 프롬프트 엔지니어링: 이는 모델에 대한 입력(또는 "프롬프트")을 신중하게 설계하여 원하는 출력을 생성하도록 하는 기법입니다. 예를 들어, 언어 모델에 일련의 질문과 답변 쌍을 주고 그 뒤에 새로운 질문을 제시하여 질문에 답하도록 '트릭'할 수 있습니다.
- 완성: 언어 모델에서 '완성'은 모델이 주어진 프롬프트를 완료하기 위해 생성하는 텍스트를 의미합니다.
- 모드 축소: 머신 러닝에서 모드 붕괴는 모델이 입력에 관계없이 항상 동일하거나 유사한 값을 출력하여 출력의 다양성을 잃는 상황을 말합니다.
- 엘로 레이팅: 제로섬 게임에서 플레이어의 상대적인 실력 수준을 계산하는 방법입니다. 여기서는 다른 모델의 성능 순위를 매기는 데 사용됩니다.
- 엔트로피: 머신 러닝과 자연어 처리의 맥락에서 엔트로피는 모델 출력의 무작위성 또는 예측 불가능성을 측정합니다. 엔트로피가 높은 모델은 다양한 출력을 제공하는 반면, 엔트로피가 낮은 모델은 보다 예측 가능한(때로는 반복적으로 유사한) 출력을 제공합니다.
- 확률 높이기 또는 낮추기: 확률 높이기 및 낮추기는 관련 보상에 따라 특정 출력이 선택될 가능성을 조정하는 것을 말합니다. 이는 이러한 모델의 학습 과정의 일부입니다.
GPT Assistant training pipeline
- 훈련 과정은 서로 연속적으로 이어지는 4단계로 구성됩니다: 1) 사전 훈련, 2) 감독에 의한 미세 조정, 3) 보상 모델링, 4) 강화 학습입니다.