Andrej Karpathy가 강의한 State of GPT를 들으면서 메모한 내용입니다.

Glossary and background knowledge

  1. 트랜스포머: 딥 러닝 모델 아키텍처의 일종으로, "주의력만 있으면 된다"라는 제목의 논문에서 소개되었습니다. 트랜스포머는 주로 자연어 처리(NLP) 분야에서 사용되며, GPT와 같은 모델 개발을 포함하여 최근 이 분야에서 이루어진 대부분의 발전의 배경이 되었습니다.
  2. 기본 모델: 대규모 텍스트 말뭉치에 대해 지도 학습을 사용하여 훈련된 오리지널 GPT 모델입니다.
  3. SFT 모델: "지도 미세 조정"의 약자입니다. 기본 모델을 학습시킨 후, 특정 작업에서 더 나은 성능을 발휘할 수 있도록 더 작고 구체적인 데이터 세트에 대해 추가 미세 조정을 수행합니다.
  4. 강화 학습: 머신 러닝의 한 유형으로, 에이전트가 특정 누적 보상 개념을 극대화하기 위해 환경에서 작업을 수행함으로써 의사 결정을 내리는 방법을 학습합니다.
  5. RLHF 모델: "인간 피드백을 통한 강화 학습"의 약자입니다. SFT 모델이 생성된 후에는 강화 학습을 사용하여 모델을 더욱 개선합니다. 이는 인간 평가자로부터 피드백을 받고, 이 피드백을 통해 보상 모델을 만든 다음, 이 보상 모델에 대해 강화 학습을 사용하여 모델을 최적화하는 방식으로 이루어집니다.
  6. 보상 모델: 모델의 특정 결과물이 얼마나 좋은지 추정하는 데 사용되는 모델입니다. RLHF 훈련 단계에서 사용됩니다.
  7. 미세 조정: 특정 작업에 대해 사전 학습된 모델을 훈련하는 프로세스입니다. 이는 대규모 데이터 세트(예: 전체 인터넷에 대해 학습된 언어 모델)에 대해 사전 학습된 모델을 특정 작업(예: 감정 분류 또는 질문 답변)에 적용하려는 경우에 유용합니다. 미세 조정은 특정 작업에 따라 사전 학습된 모델의 가중치를 조정합니다.
  8. 프롬프트 엔지니어링: 이는 모델에 대한 입력(또는 "프롬프트")을 신중하게 설계하여 원하는 출력을 생성하도록 하는 기법입니다. 예를 들어, 언어 모델에 일련의 질문과 답변 쌍을 주고 그 뒤에 새로운 질문을 제시하여 질문에 답하도록 '트릭'할 수 있습니다.
  9. 완성: 언어 모델에서 '완성'은 모델이 주어진 프롬프트를 완료하기 위해 생성하는 텍스트를 의미합니다.
  10. 모드 축소: 머신 러닝에서 모드 붕괴는 모델이 입력에 관계없이 항상 동일하거나 유사한 값을 출력하여 출력의 다양성을 잃는 상황을 말합니다.
  11. 엘로 레이팅: 제로섬 게임에서 플레이어의 상대적인 실력 수준을 계산하는 방법입니다. 여기서는 다른 모델의 성능 순위를 매기는 데 사용됩니다.
  12. 엔트로피: 머신 러닝과 자연어 처리의 맥락에서 엔트로피는 모델 출력의 무작위성 또는 예측 불가능성을 측정합니다. 엔트로피가 높은 모델은 다양한 출력을 제공하는 반면, 엔트로피가 낮은 모델은 보다 예측 가능한(때로는 반복적으로 유사한) 출력을 제공합니다.
  13. 확률 높이기 또는 낮추기: 확률 높이기 및 낮추기는 관련 보상에 따라 특정 출력이 선택될 가능성을 조정하는 것을 말합니다. 이는 이러한 모델의 학습 과정의 일부입니다.

GPT Assistant training pipeline