ChatGPT(4) 언어모델 GPT시리즈 성장 과정 - Parks

OpenAI사의 ChatGPT의 근간이 되는 GPT의 태생과 발전 과정을 설명 하였고 인간 신경망을 이용한 언어 모델 GPT의 Hardware 인프라 슈퍼컴퓨터에 대하여 설명 하였습니다
ChatGPT에 관한 기사를 읽고 지인들과 ChatGPT에 대하여 대화를 나누며 미래에 변화할 환경들을 생각하며 문득 ChatGPT가 갑자기 나타난 것은 아닐 테고 어디부터 시작된 걸까? 하는 궁금증이 생겨 ChatGPT의 언어 모델인 GPT의 성장 과정을 간략히 기록해 본다.



언어 모델 GPT의 성장 과정



OpenAI사가 언어 모델 GPT(Generative Pre-train Transformer)를 개발 GPT-1, GPT-2, GPT-3, GPT-4 출시.


 1. GPT-1 (Generative Pre-trained Transformer 1)
    GPT의 첫 번째 버전으로 2018년 6월 11일 출시.
    매개변수 수 : 1억 1700만 
    학습 데이터 : BookCorpus 데이타 세트. 약 4.5GB


2. GPT-2 (Generative Pre-trained Transformer 2)
   GPT의 두 번째 버전으로 2019년 2월 14일 출시.
   매개변수 수 : 15억 
   학습 데이터 : Reddit에서 좋아요 3개이상인 4,500만 개의 웹페이지.


3. GPT-3 (Generative Pre-trained Transformer 3)
   GPT의 세 번째 버전으로 2020년 6월 11일 출시.
   매개변수 수 : 1,750억 
   학습 데이터 : 약 570GB의 데이터 세트


4. GPT-3.5 (Generative Pre-trained Transformer 3.5)
   ChatGPT의 언어 모델로 사용.
   ChatGPT 출시일 2022년 11월 30일


5. GPT-4 (Generative Pre-trained Transformer 4)
   텍스트와 이미지를 입력으로 받아들이도록 설계.
   출시일 2023년 3월 14일




인공신경망을 이용한 언어 모델 GPT의 성장 과정을 보며


첫 번째 GPT 제품 출시가 2018년도 그리 많지 않은 시간에 엄청나게 빠른 속도로 발전해 왔다고 생각합니다. GPT의 학습량은 어머 어마합니다. 예를 들어 1,750억 개의 매개변수로 GPT-3을 교육하려면 단일 V100 NVIDIA GPU로 약 288년 필요하다고 합니다. 전문 용어들이 많아 정확히 이해하는 데는 어려움이 많지만 글을 쓰며 공부를 하게 되네요.

AI 슈퍼컴퓨터 인프라 구축.

GPT 모델이 빠른 속도로 발전할 수 있었던 요인 중 하나가 아닌가 생각됩니다. 
'거대 모델, 많은 양의 매개변수 수 = 파라미터' GPT의 학습과 추론은 이 모든 것들을 처리할 수 있는 슈퍼컴퓨터가 있기 때문에 가능했겠지요. 마이크로소프트가 OpenAI에게 제공하고 있는 애저 AI슈퍼컴퓨터는 28만 5천 이상의 CPU 코어를 가지고 1만 GPU가 400Gbps 네트워크로 연결된다고 합니다.  인공신경망을 이용한 언어 모델 GPT의 발전 속도가 빠른 이유에는 AI슈퍼컴퓨터 인프라의 힘이 있었다고 생각 됩니다.