언어 모델 GPT의 성장 과정
OpenAI사가 언어 모델 GPT(Generative Pre-train Transformer)를 개발 GPT-1, GPT-2, GPT-3, GPT-4 출시.
1. GPT-1 (Generative Pre-trained Transformer 1)
GPT의 첫 번째 버전으로 2018년 6월 11일 출시.
매개변수 수 : 1억 1700만
학습 데이터 : BookCorpus 데이타 세트. 약 4.5GB
2. GPT-2 (Generative Pre-trained Transformer 2)
GPT의 두 번째 버전으로 2019년 2월 14일 출시.
매개변수 수 : 15억
학습 데이터 : Reddit에서 좋아요 3개이상인 4,500만 개의 웹페이지.
3. GPT-3 (Generative Pre-trained Transformer 3)
GPT의 세 번째 버전으로 2020년 6월 11일 출시.
매개변수 수 : 1,750억
학습 데이터 : 약 570GB의 데이터 세트
4. GPT-3.5 (Generative Pre-trained Transformer 3.5)
ChatGPT의 언어 모델로 사용.
ChatGPT 출시일 2022년 11월 30일
5. GPT-4 (Generative Pre-trained Transformer 4)
텍스트와 이미지를 입력으로 받아들이도록 설계.
출시일 2023년 3월 14일
인공신경망을 이용한 언어 모델 GPT의 성장 과정을 보며
첫 번째 GPT 제품 출시가 2018년도 그리 많지 않은 시간에 엄청나게 빠른 속도로 발전해 왔다고 생각합니다. GPT의 학습량은 어머 어마합니다. 예를 들어 1,750억 개의 매개변수로 GPT-3을 교육하려면 단일 V100 NVIDIA GPU로 약 288년 필요하다고 합니다. 전문 용어들이 많아 정확히 이해하는 데는 어려움이 많지만 글을 쓰며 공부를 하게 되네요.
AI 슈퍼컴퓨터 인프라 구축.
GPT 모델이 빠른 속도로 발전할 수 있었던 요인 중 하나가 아닌가 생각됩니다.
'거대 모델, 많은 양의 매개변수 수 = 파라미터' GPT의 학습과 추론은 이 모든 것들을 처리할 수 있는 슈퍼컴퓨터가 있기 때문에 가능했겠지요. 마이크로소프트가 OpenAI에게 제공하고 있는 애저 AI슈퍼컴퓨터는 28만 5천 이상의 CPU 코어를 가지고 1만 GPU가 400Gbps 네트워크로 연결된다고 합니다. 인공신경망을 이용한 언어 모델 GPT의 발전 속도가 빠른 이유에는 AI슈퍼컴퓨터 인프라의 힘이 있었다고 생각 됩니다.