GPT-4에 대한 유출된 정보는 AI 커뮤니티에서 흥분을 불러일으켰습니다. 이전 모델인 GPT-3보다 10배 이상 매개변수가 많은 GPT-4는 120개 레이어에 걸쳐 1조 8천억 개의 매개변수가 분산된 것으로 추정됩니다.
OpenAI는 MLP(다층 퍼셉트론)에 대해 1,110억 개의 매개변수를 가진 16명의 전문가를 활용하여 전문가 혼합(MoE) 모델을 구현했습니다. 모델의 효율적인 추론 프로세스는 순방향 패스당 2,800억 개의 매개변수와 560 TFLOP를 활용하여 효율성과 비용 효율성을 극대화하려는 OpenAI의 노력을 보여줍니다. 모델의 교육 데이터 세트에는 8k에서 32k로 미세 조정된 13조 개의 토큰이 포함됩니다.
OpenAI는 GPT-4의 병렬성을 활용하여 8방향 텐서 병렬성과 15방향 파이프라인 병렬성을 사용하여 A100 GPU의 잠재력을 최대한 활용했습니다. 교육 과정은 광범위하고 리소스 집약적이며 비용은 3,200만 달러에서 6,300만 달러에 이릅니다.
GPT-4의 추론 비용은 이전 모델보다 약 3배 높지만 다중 쿼리 어텐션, 연속 일괄 처리 및 예측 디코딩도 통합합니다. 추론 아키텍처는 여러 데이터 센터에 분산된 128개의 GPU 클러스터에서 작동합니다.
최근 GPT-4를 둘러싼 세부 정보 유출은 AI 커뮤니티를 통해 충격파를 보냈습니다. 공개되지 않은 출처에서 얻은 유출된 정보를 통해 이 획기적인 모델의 경외심을 불러일으키는 기능과 전례 없는 규모를 엿볼 수 있습니다. 우리는 사실을 분석하고 GPT-4를 진정한 기술적 경이로움으로 만드는 주요 측면을 밝힐 것입니다.
크레딧: 메타버스 포스트(mpost.io)
유출에서 가장 놀라운 폭로 중 하나는 GPT-4의 엄청난 규모입니다. 전작인 GPT-3보다 10배 이상 커진 놀라운 크기를 자랑한다. 인상적인 120개의 레이어에 분산된 약 1조 8 천억 개의 매개 변수가 있는 것으로 추정됩니다 . 이러한 규모의 상당한 증가는 의심할 여지 없이 GPT-4의 향상된 기능 과 획기적인 발전 가능성에 기여합니다.
전문가 혼합 모델(MoE)
탁월한 성능을 유지하면서 합리적인 비용을 보장하기 위해 OpenAI는 GPT-4에서 전문가 혼합(MoE) 모델을 구현했습니다. 모델 내에서 16명의 전문가를 활용하여 OpenAI는 각각 약 1,110억 개의 MLP(다층 퍼셉트론) 매개변수로 구성되어 리소스 할당을 효과적으로 최적화했습니다. 특히 각 순방향 패스 동안 두 명의 전문가만 라우팅되어 결과를 손상시키지 않고 계산 요구 사항을 최소화합니다. 이 혁신적인 접근 방식은 모델에서 효율성과 비용 효율성을 극대화하려는 OpenAI의 노력을 보여줍니다.
간소화된 MoE 라우팅 알고리즘
이 모델은 종종 각 토큰을 처리할 전문가를 선택하기 위한 고급 라우팅 알고리즘을 탐색하지만 현재 GPT-4 모델에서 OpenAI의 접근 방식은 더 간단한 것으로 알려져 있습니다. AI가 사용하는 라우팅 알고리즘은 상대적으로 단순하지만 그럼에도 불구하고 효과적이라고 합니다. 주의를 위한 약 550억 개의 공유 매개변수는 모델 내의 적절한 전문가에게 토큰을 효율적으로 분배하는 것을 용이하게 합니다.
효율적인 추론
GPT-4의 추론 프로세스는 효율성과 계산 능력을 보여줍니다. 단일 토큰 생성 전용인 각 포워드 패스는 약 2,800억 개의 매개변수와 560 TFLOP(초당 테라 부동 소수점 연산)를 활용합니다. 이것은 GPT-4의 엄청난 규모와 극명한 대조를 이루며, 순전히 밀집된 모델에서 1조 8천억 개의 매개변수와 순방향 패스당 3,700 TFLOP를 제공합니다. 리소스의 효율적인 사용은 과도한 계산 요구 사항 없이 최적의 성능을 달성하기 위한 OpenAI의 헌신을 강조합니다.
광범위한 교육 데이터 세트
GPT-4는 약 13조 개의 토큰으로 구성된 거대한 데이터 세트에 대해 교육을 받았습니다. 이러한 토큰에는 고유한 토큰과 에포크 번호를 설명하는 토큰이 모두 포함된다는 점에 유의해야 합니다. 학습 프로세스에는 텍스트 기반 데이터에 대한 2개의 에포크와 코드 기반 데이터에 대한 4개의 에포크가 포함됩니다. OpenAI는 ScaleAI에서 가져온 수백만 행의 명령 미세 조정 데이터를 내부적으로 활용하여 모델의 성능을 개선했습니다.
8K에서 32K로 미세 조정을 통한 개선
GPT-4의 사전 훈련 단계에서는 8k 컨텍스트 길이를 사용했습니다. 그 후 모델은 미세 조정을 거쳐 32k 버전이 되었습니다. 이 진행은 사전 교육 단계를 기반으로 하며 모델의 기능을 향상하고 특정 작업에 맞게 조정합니다.
병렬 처리를 통해 GPU로 확장
OpenAI는 GPT-4의 병렬 처리 기능을 활용하여 A100 GPU의 잠재력을 최대한 활용했습니다. NVLink의 한계인 병렬 처리를 극대화하는 8-way 텐서 병렬 처리를 사용했습니다. 또한 성능을 더욱 향상시키기 위해 15방향 파이프라인 병렬 처리를 활용했습니다. Zero Stage 1과 같은 특정 기술이 사용되었을 가능성이 높지만 정확한 방법론은 공개되지 않았습니다.
교육 비용 및 활용 문제
교육 GPT-4는 광범위하고 자원 집약적인 노력이었습니다. OpenAI는 90~100일 동안 약 25,000개의 A100 GPU를 할당했으며, 약 32%~36% MFU(가장 자주 사용됨)의 활용률로 작동했습니다. 교육 과정에서 수많은 실패가 발생하여 체크포인트에서 자주 다시 시작해야 했습니다. A100 시간당 $1로 추산되는 경우 이 실행에만 드는 교육 비용은 약 $6,300만입니다.
전문가 혼합의 장단점
전문가 혼합 모델을 구현하면 몇 가지 장단점이 있습니다. GPT-4의 경우 OpenAI는 더 높은 숫자가 아닌 16명의 전문가를 선택했습니다. 이 결정은 우수한 손실 결과를 달성하는 것과 다양한 작업에서 일반화 가능성을 보장하는 것 사이의 균형을 반영합니다. 더 많은 전문가가 작업 일반화 및 수렴 측면에서 문제를 제시할 수 있습니다. 전문가 선택 시 주의를 기울이는 OpenAI의 선택은 안정적이고 강력한 성능에 대한 그들의 약속과 일치합니다.
추론 비용
이전 모델인 1,750억 개의 매개변수 Davinci 모델과 비교하여 GPT-4의 추론 비용은 약 3배 더 높습니다. 이러한 불일치는 GPT-4를 지원하는 데 필요한 더 큰 클러스터와 추론 중에 달성되는 낮은 사용률을 포함하여 여러 요인에 기인할 수 있습니다. 추정치는 8k로 GPT-4를 추론할 때 128개의 A100 GPU에 대해 1,000개의 토큰당 $0.0049센트, 128개의 H100 GPU에 대해 1,000개의 토큰당 $0.0021센트의 대략적인 비용을 나타냅니다. 이 수치는 적절한 활용도와 높은 배치 크기, 비용 최적화를 위한 중요한 고려 사항을 가정합니다.
다중 쿼리 주의
OpenAI는 현장에서 널리 사용되는 기술인 MQA(Multi-Query Attention)를 GPT-4에서도 활용합니다. MQA를 구현하면 모델에 헤드가 하나만 필요하므로 키-값 캐시(KV 캐시)에 필요한 메모리 용량이 크게 줄어듭니다. 이러한 최적화에도 불구하고 32k 배치 GPT-4는 40GB A100 GPU에 수용할 수 없으며 8k는 최대 배치 크기의 제약을 받습니다.
연속 배치
대기 시간과 추론 비용 간의 균형을 맞추기 위해 OpenAI는 GPT-4에서 가변 배치 크기와 연속 배치를 모두 통합합니다. 이 적응형 접근 방식은 유연하고 효율적인 처리를 가능하게 하여 리소스 활용을 최적화하고 계산 오버헤드를 줄입니다.
비전 멀티모달
GPT-4는 텍스트 인코더와 함께 별도의 비전 인코더를 도입하여 둘 사이의 교차 주의를 특징으로 합니다. Flamingo를 연상시키는 이 아키텍처는 이미 인상적인 1조 8천억 개의 GPT-4 매개변수 수에 추가 매개변수를 추가합니다. 비전 모델은 텍스트 전용 사전 훈련 단계 이후 약 2조 개의 토큰을 사용하여 별도의 미세 조정을 거칩니다. 이 비전 기능은 자율 에이전트가 웹 페이지를 읽고, 이미지를 기록하고, 멀티미디어 데이터 시대의 귀중한 자산인 비디오 콘텐츠를 해석할 수 있도록 합니다.
투기적 디코딩
GPT-4 추론 전략의 흥미로운 측면은 추론적 디코딩의 사용 가능성입니다. 이 접근 방식에는 미리 여러 토큰에 대한 예측을 생성하기 위해 더 작고 빠른 모델을 사용하는 것이 포함됩니다. 이러한 예측된 토큰은 단일 배치로 더 큰 "오라클" 모델에 공급됩니다. 더 작은 모델의 예측이 더 큰 모델의 동의와 일치하는 경우 여러 토큰을 함께 디코딩할 수 있습니다. 그러나 더 큰 모델이 초안 모델에서 예측한 토큰을 거부하는 경우 배치의 나머지 부분은 폐기되고 추론은 더 큰 모델로만 계속됩니다. 이 접근 방식은 잠재적으로 더 낮은 확률 시퀀스를 수용하면서 효율적인 디코딩을 허용합니다. 이 추측이 현재 확인되지 않은 상태로 남아 있다는 점은 주목할 가치가 있습니다.
추론 아키텍처
GPT-4의 추론 프로세스는 서로 다른 위치에 있는 여러 데이터 센터에 분산된 128개의 GPU 클러스터에서 작동합니다. 이 인프라는 8방향 텐서 병렬 처리와 16방향 파이프라인 병렬 처리를 사용하여 계산 효율성을 극대화합니다. 8개의 GPU로 구성된 각 노드는 약 1,300억 개의 매개변수를 수용합니다. 모델 크기가 120개 레이어인 GPT-4는 15개의 서로 다른 노드에 맞을 수 있으며 임베딩을 계산해야 하기 때문에 첫 번째 노드에 더 적은 레이어가 있을 수 있습니다. 이러한 아키텍처 선택은 고성능 추론을 촉진하여 컴퓨팅 효율성의 경계를 넓히려는 OpenAI의 노력을 보여줍니다.
데이터 세트 크기 및 구성
GPT-4는 인상적인 13조 개의 토큰으로 훈련되어 학습할 수 있는 광범위한 텍스트 코퍼스를 제공합니다. 그러나 학습 중에 사용되는 알려진 데이터 세트로 모든 토큰을 설명할 수 있는 것은 아닙니다. CommonCrawl 및 RefinedWeb과 같은 데이터 세트가 교육 데이터 의 상당 부분을 제공하지만 , 종종 "비밀" 데이터라고 하는 설명되지 않은 토큰의 일부가 남아 있습니다.
소문과 추측
이 미공개 데이터의 출처에 대한 추측이 나왔습니다. 한 가지 소문에 따르면 Twitter, Reddit, YouTube와 같은 인기 플랫폼의 콘텐츠가 포함되어 있어 GPT-4의 지식 기반을 형성하는 데 있어 사용자 생성 콘텐츠의 잠재적 영향을 강조합니다. 또한 수백만 권의 책을 보관하는 LibGen과 수많은 과학 논문에 대한 액세스를 제공하는 플랫폼인 Sci-Hub와 같은 광범위한 컬렉션을 포함하는 것을 둘러싼 추측이 있습니다. GPT-4가 GitHub 전체에서 훈련되었다는 개념은 AI 애호가들 사이에서도 퍼졌습니다.
기자의 의견
많은 소문이 있지만 이러한 소문에 신중하게 접근하는 것이 중요합니다. GPT-4의 교육은 대학 교과서로 구성된 특수 데이터 세트에서 큰 이점을 얻었을 수 있습니다. 광범위한 과정과 주제를 다루는 이 데이터 세트는 손으로 힘들게 조립할 수 있습니다. 대학 교과서는 언어 모델을 교육하는 데 성공적으로 사용할 수 있고 텍스트 파일로 쉽게 변환할 수 있는 체계적이고 포괄적인 지식 기반을 제공합니다. 이러한 데이터 세트를 포함하면 GPT-4가 다양한 분야에 정통하다는 인상을 줄 수 있습니다.
GPT-4의 지식에 대한 매혹
GPT-4 교육의 흥미로운 측면 중 하나는 특정 책에 대한 친숙함을 보여주고 Project Euler와 같은 플랫폼에서 고유 식별자를 기억하는 능력입니다. 연구원들은 훈련에 대한 통찰력을 얻기 위해 GPT-4에서 책의 암기된 부분을 추출하려고 시도했으며 모델의 내부 작동에 대한 호기심을 더욱 부채질했습니다. 이러한 발견은 정보를 유지하는 GPT-4의 놀라운 능력을 강조하고 대규모 언어 모델의 인상적인 기능을 강조합니다.
GPT-4의 다양성
GPT-4가 겉보기에 참여할 수 있는 광범위한 주제와 분야는 다재다능함을 보여줍니다. 컴퓨터 과학의 복잡한 질문에 답하든 철학적 토론을 탐구하든 GPT-4는 다양한 데이터 세트에 대한 교육을 통해 다양한 도메인의 사용자와 소통할 수 있습니다. 이러한 다양성은 광범위한 텍스트 리소스에 대한 노출에서 비롯되며 광범위한 사용자에게 유용한 도구가 됩니다.
GPT-4는 GPT-3보다 10배 더 큰 120개 계층에 걸쳐 약 1조 8천억 개의 매개변수가 있는 언어 모델입니다. 16명의 전문가가 있는 MoE(Mixture of Experts) 모델을 사용하며 각 전문가는 약 1,110억 개의 매개변수를 가집니다. MoE를 활용하면 순수 밀도 모델에 필요한 1조 8천억 개의 매개변수와 3,700 TFLOP에 비해 약 2,800억 개의 매개변수와 560 TFLOP만 있으면 추론 중에 리소스를 보다 효율적으로 사용할 수 있습니다.
이 모델은 인터넷 데이터, 서적 및 연구 논문을 포함한 다양한 소스에서 약 13조 개의 토큰으로 학습됩니다. 교육 비용을 줄이기 위해 OpenAI는 텐서 및 파이프라인 병렬 처리와 6천만 개의 대규모 배치 크기를 사용합니다. GPT-4의 예상 교육 비용은 약 6,300만 달러입니다.
더 많은 전문가가 모델 성능을 향상시킬 수 있지만 OpenAI는 일반화 및 수렴의 문제로 인해 16명의 전문가를 사용하기로 결정했습니다. GPT-4의 추론 비용은 주로 더 큰 클러스터가 필요하고 사용률이 낮기 때문에 이전 모델인 DaVinci의 3배입니다. 또한 이 모델에는 웹 페이지 읽기, 이미지 및 비디오 기록과 같은 다중 모드 작업을 위한 교차 주의 기능이 있는 별도의 비전 인코더가 포함되어 있습니다.
OpenAI는 GPT-4의 추론을 위해 추론적 디코딩을 사용할 수 있습니다. 여기에는 더 작은 모델을 사용하여 토큰을 미리 예측하고 단일 배치에서 더 큰 모델에 공급하는 것이 포함됩니다. 이 접근 방식은 추론 비용을 최적화하고 최대 대기 시간 수준을 유지하는 데 도움이 될 수 있습니다.
원문 : https://mpost.io/gpt-4s-leaked-details-shed-light-on-its-massive-scale-and-impressive-architecture/
'IT New' 카테고리의 다른 글
인공지능 대화형 말벗 쳇봇 (0) | 2023.08.11 |
---|---|
NVIDIA 100kB 모델 크기의 개인화 이미지 생성 모델 'Perfusion' 발표 (0) | 2023.08.10 |
Run Windows game on macOS (0) | 2023.06.09 |
Microsoft Build 2023 (0) | 2023.05.25 |
과기정통부, AI 학습용 데이터 15억건 개방 (0) | 2023.05.02 |
댓글