본문 바로가기
AI/NERF, GaussianSplatting

GPS-Gaussian

by wenect 2024. 1. 1.


논문 "GPS-Gaussian: 실시간 인간 신규 뷰 합성을 위한 일반화 가능한 픽셀별 3D 가우시안 스플래팅"은 실시간으로 캐릭터의 새로운 시점을 합성하는 새로운 방법을 제시합니다. 이는 소스 뷰에 정의된 가우시안 파라미터 맵을 도입하며, 직접적인 새로운 뷰 합성을 위해 가우시안 스플래팅 속성을 회귀합니다. 이 방법은 대량의 인간 스캔 데이터에서 가우시안 파라미터 회귀 모듈을 훈련시키며, 2D 파라미터 맵을 3D 공간으로 상승시키는 깊이 추정 모듈과 함께 작동합니다. 이 완전히 차별화된 프레임워크는 다양한 데이터셋에서 최신 방법들보다 우수한 성능과 속도를 보여줍니다.

https://youtu.be/F4ePJtkRlgY

논문에선 16개의 카메라를 사용하여 구성하였습니다.

https://github.com/ShunyuanZheng/GPS-Gaussian

 

GitHub - ShunyuanZheng/GPS-Gaussian: GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View

GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis - GitHub - ShunyuanZheng/GPS-Gaussian: GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splat...

github.com

https://arxiv.org/pdf/2312.02155.pdf

1.논문에서 설명하는 Gaussian Parameter Prediction Module은 깊이 인코더(Eimg)와 U-Net 형태의 Gaussian 파라미터 디코더(Dparm)로 구성됩니다. 이 깊이 인코더는 깊이 예측을 입력으로 받으며 이미지 인코더와 동일한 구조를 가집니다. 이미지 특징과 깊이 특징은 각 레벨에서 결합되며, 이후 스킵 연결을 통해 Gaussian 파라미터 디코더로 추가적으로 집계됩니다. 디코딩된 픽셀별 Gaussian 특징 Γ는 세 개의 특정 예측 헤드를 통해 회전 맵(Mr), 스케일링 맵(Ms), 그리고 불투명도 맵(Mα)을 각각 생성합니다. 동시에 위치 맵(Mp)은 예측된 깊이 맵(D)에 의해 결정되며, 색상 맵(Mc)은 입력 이미지의 RGB 값에서 직접 가져옵니다

2.신경 암시적 인간 표현(Neural Implicit Human Representation)에 대해 설명하고 있습니다. 최근 신경 암시적 함수는 복잡한 장면을 점유 필드, 신경 레디언스 필드, 신경 서명 거리 함수 등의 형태로 표현하는 데에 큰 관심을 끌고 있습니다. 이러한 암시적 표현은 메모리 효율성과 토폴로지 유연성 측면에서 인간 재구성 작업에 이점을 보여주고 있습니다. 특히 픽셀 정렬 기능 쿼리 방식에서 이점이 두드러집니다. 그러나 각 쿼리된 점은 전체 네트워크를 통해 처리되어 계산 복잡성을 크게 증가시킵니다. 최근에는 이러한 방법들을 확장하고 발전시키는 다양한 연구가 진행되고 있습니다

3.제안된 GPS-Gaussian이 3D-GS(3D Gaussian Splatting)의 힘을 활용한다고 설명합니다. 3D-GS는 정적인 3D 장면을 점 원시체로 명시적으로 모델링하며, 각 점은 3D 공분산 행렬(Σ)과 평균(µ)으로 파라미터화된 스케일된 가우시안으로 표현됩니다. 이는 가우시안 함수 을 사용하여 정의됩니다. 이 섹션에서는 3D-GS를 사용하여 정적인 3D 장면을 어떻게 모델링하는지 간략하게 소개하고 있습니다

 4.Method 섹션은 연구 방법론을 개괄적으로 설명하고 있습니다. 이 연구는 희소 카메라 뷰를 가진 인간 중심의 장면에 대한 RGB 이미지를 기반으로, 실시간으로 고품질의 자유 시점 렌더링을 생성하는 것을 목표로 합니다. 특정한 새로운 시점이 주어지면, 이웃하는 두 뷰를 선택하고 공유 이미지 인코더를 사용하여 이미지 특징을 추출합니다. 이어서, 두 뷰 깊이 추정기가 추출된 특징을 입력으로 받아 두 소스 뷰에 대한 깊이 맵을 예측합니다. 소스 뷰의 전경 영역에서 깊이 값과 RGB 값은 각 가우시안 점의 3D 위치와 색상을 결정합니다. 이 방법은 2D 이미지 평면에 정의된 가우시안 파라미터 맵을 3D 공간으로 확장하고 새로운 시점 렌더링을 위해 집계합니다. 이 완전히 차별화된 프레임워크는 모든 네트워크에 공동 훈련 메커니즘을 가능하게 합니다

4.1 View Selection and Depth Estimation: 이 섹션에서는 새로운 목표 시점을 합성하는 방법을 설명합니다. 이는 인접한 두 소스 뷰를 보간하여 수행됩니다. N개의 입력 이미지와 해당 카메라 위치를 사용하여, 이웃하는 두 뷰를 선택하고 Gaussian 표현을 형성합니다. 이미지 특징을 추출한 후 반복적인 깊이 추정을 수행합니다. 각 소스 뷰에 대해 깊이 맵과 RGB 이미지는 각각 3D 위치 맵과 색상 맵으로 사용되어 Gaussian 표현을 형성하며, 3D 가우시안의 다른 파라미터들은 픽셀별 방식으로 예측됩니다​​​​.

4.2 Pixel-wise Gaussian Parameters Prediction: 이 섹션에서는 3D 공간의 각 Gaussian 점을 2D 이미지 평면에서 픽셀별 방식으로 정의하는 방법을 소개합니다. 깊이 맵과 소스 RGB 이미지와 결합된 이 파라미터 맵들은 2D 이미지 평면에서 Gaussian 표현을 형성하고, 3D 공간으로 확장됩니다. 양쪽 뷰에서 확장된 Gaussian들은 집계되고 목표 시점으로 렌더링되어, 끝에서 끝까지의 훈련을 가능하게 합니다​​.

4.3 Joint Training with Differentiable Rendering: 이 섹션의 세부 내용은 명시되지 않았지만, 일반적으로 이는 통합된 훈련 메커니즘과 차별화 가능한 렌더링 방식을 의미할 것입니다. 이는 앞서 언급된 섹션 4.1과 4.2에서 설명된 방법론들이 어떻게 통합되어 전체 프레임워크 내에서 함께 작동하는지에 대한 설명을 포함할 가능성이 높습니다

5.실험(Experiments)

5.1 Implementation Details: GPS-Gaussian은 단일 RTX3090 그래픽 카드에서 AdamW 옵티마이저를 사용하여 훈련되며, 초기 학습률은 2e-4입니다. 불안정한 깊이 추정이 Gaussian 파라미터 회귀에 큰 영향을 미칠 수 있기 때문에, 깊이 추정 모듈은 40k 반복에 걸쳐 사전 훈련됩니다. 그 후 두 모듈은 100k 반복에 걸쳐 합동 훈련되며, 전체 훈련 과정은 약 15시간이 소요됩니다​​.

5.2 Datasets and Metrics: 인간의 사전 지식을 대규모 데이터에서 학습하기 위해 Twindom과 THuman2.0에서 각각 1700개와 526개의 인간 스캔을 수집합니다. 이 중 Twindom과 THuman2.0에서 각각 200개와 100개의 스캔을 검증 데이터로 무작위 선택합니다. 8대의 카메라를 원형으로 배치하여, 이웃하는 두 카메라 간의 각도는 약 45도가 됩니다. 이 카메라 위치에서 인공 인간 스캔을 소스 뷰 이미지로 렌더링하고, 각 두 인접한 입력 뷰 사이의 교차 호에 위치한 3개의 시점을 무작위로 선택하여 새로운 뷰 이미지를 렌더링합니다​​.

5.3 Results: 이 섹션의 세부 내용은 제공되지 않았지만, 일반적으로 결과 섹션은 연구에서 수행된 실험의 결과와 이러한 결과가 논문의 주장을 어떻게 뒷받침하는지에 초점을 맞춥니다.

5.4 Ablation Studies: 연구의 설계 효과성을 평가하기 위해 ablation 실험을 수행합니다. 렌더링 메트릭 외에도, 끝점 오차(EPE)와 1픽셀 수준의 픽셀 오류 비율을 사용하여 깊이(불일치 추정과 동일)를 평가합니다. 모든 ablation은 훈련되며, 8카메라 설정에서 훈련된 모델을 사용하여 6카메라 설정에서 추론을 수행합니다​​.

6.GPS-Gaussian은 소스 뷰의 추정된 깊이 이미지에 정의된 가우시안 파라미터 맵을 직접 회귀함으로써, 희소 뷰 카메라만을 사용하는 실시간 및 사진처럼 리얼한 새로운 시점 합성 시스템으로의 중요한 진전을 이룹니다. 제안된 파이프라인은 완전히 차별화되어 있으며 신중하게 설계되었습니다. 이 방법은 기존 방법들에 비해 양적 및 질적 결과 모두에서 현저한 개선을 보이며, 단일 RTX 3090 GPU에서 훨씬 빠른 렌더링 속도를 달성합니다. 제안된 GPS-Gaussian은 고품질 이미지를 합성하지만, 예를 들어 정확한 전경 매트링이 사전 처리 단계로서 필요한 등 몇 가지 요소들이 여전히 방법의 효과성에 영향을 줄 수 있습니다. 또한, 6카메라 설정의 경우 한 뷰에서 목표 영역이 완전히 보이지 않을 때 매우 큰 차이를 완벽하게 처리할 수 없습니다​​.

SupplementaryMaterial

A. Run-time Comparison: 제안된 GPS-Gaussian과 기준 방법들의 실행 시간을 비교합니다. 모든 비교된 방법들은 일반적으로 소스 이미지에 대한 뷰 독립적 계산과 주어진 새로운 뷰포인트에 의존하는 대상 뷰 지향 렌더링의 두 구성 요소를 포함합니다. 각 방법의 상세한 실행 시간은 Table A에 나타나 있습니다. FloRen의 뷰 독립적 계산에는 매트링과 거친 기하학 초기화가 포함되며, 깊이와 흐름 정제 네트워크를 포함하는 주요 구성 요소는 새로운 뷰포인트에서 작동합니다. IBRNet은 변환기를 사용하여 새로운 뷰 방향의 각 샘플링 지점에서 다중 뷰 신호를 집계합니다​​.


B. Visualization of Opacity Maps: 불투명도 맵의 시각화는 보충 자료의 한 부분입니다. 이는 소스 뷰 이미지 중 하나(a)와 관련된 예측된 불투명도 맵(b)을 보여줍니다​​.



C. Network Architecture: 이 부분은 깊이 인코더(Eimg)와 U-Net 유형의 Gaussian 파라미터 디코더(Dparm)로 구성된 Gaussian 파라미터 예측 모듈에 대해 설명합니다. 깊이 인코더는 깊이 예측을 입력으로 받으며, 이미지 인코더와 동일한 구조를 가집니다. 이미지 특징과 깊이 특징은 각 레벨에서 연결되어 Gaussian 파라미터 디코더로 스킵 연결을 통해 더 집계됩니다. 디코딩된 픽셀별 Gaussian 특징 Γ는 회전 맵 Mr, 스케일링 맵 Ms, 불투명도 맵 Mα를 각각 얻기 위해 세 개의 특정 예측 헤드를 통과합니다​​.

Image Encoder (이미지 인코더): 이미지 인코더 Eimg는 왼쪽과 오른쪽 이미지에 적용되어 각 이미지를 밀집된 특징 맵 세트로 매핑합니다. 이 인코더는 RAFT-Stereo의 특징 인코더와 유사한 구조를 가지며, 네트워크 시작 부분에서 7×7 컨볼루션을 5×5로 대체하고 모든 배치 정규화를 그룹 정규화로 대체합니다. 잔여 블록과 다운샘플링 레이어를 사용하여 입력 이미지 해상도의 1/2, 1/4, 1/8에 해당하는 3단계의 이미지 특징을 각각 32, 48, 96 채널로 생성합니다​​.

Depth Estimation Module (깊이 추정 모듈): 깊이 추정 모듈 Φdepth는 두 뷰의 특징 맵과 카메라 파라미터를 입력으로 받아 깊이 추정을 수행합니다. 이 모듈은 클래식한 두 뷰 스테레오 방법이 '참조 뷰'의 깊이만 추정하는 것과 달리, 입력된 두 이미지 모두에 대한 깊이 맵을 추구하여 Gaussian 표현을 형성합니다. 이를 통해 구현이 대칭적이고, 이러한 특성을 활용하여 컴팩트하고 고도로 병렬화된 모듈을 실현하여 효율성을 높입니다​​.

Gaussian Parameter Prediction Module (가우시안 파라미터 예측 모듈): 이 모듈은 깊이 인코더 Eimg와 U-Net 형태의 가우시안 파라미터 디코더 Dparm으로 구성됩니다. 깊이 인코더는 깊이 예측을 입력으로 받으며 이미지 인코더와 동일한 구조를 가집니다. 이미지 특징과 깊이 특징은 각 레벨에서 결합되어 스킵 연결을 통해 가우시안 파라미터 디코더로 추가 집계됩니다. 디코딩된 픽셀별 가우시안 특징 Γ는 세 개의 특정 예측 헤드를 통해 회전 맵 Mr, 스케일링 맵 Ms, 그리고 불투명도 맵 Mα를 얻습니다. 한편, 위치 맵 Mp는 예측된 깊이 맵 D에 의해 결정되며, 색상 맵 Mc는 입력 이미지의 RGB 값에서 직접 가져옵니다​​.


D. Live Demo: 보충 비디오에서 실시간 데모를 준비했습니다. 이 데모에서는 소스 뷰 RGB 스트림을 캡처하고 한 시스템에서 새로운 뷰를 렌더링합니다​​.

'AI > NERF, GaussianSplatting' 카테고리의 다른 글

[논문리뷰] 3D Gaussian Splatting for Real-Time Radiance Field Rendering  (0) 2024.01.16
Adaptive Shells for Efficient Neural Radiance Field Rendering  (0) 2024.01.07
DBARF  (0) 2023.06.28
NeRF−−  (0) 2023.06.27
Vid2Avatar  (0) 2023.06.26

댓글