본문 바로가기
AI/MotionCapture

HRM2.0

by wenect 2023. 7. 20.

인간 모양 및 자세의 종단 간 복구

 HMR은 단일 RGB 이미지에서 인간의 전체 3D 메시를 재구성하는 엔드-투-엔드 프레임워크입니다. 대부분의 현재 방법들이 2D 또는 3D 관절 위치를 계산하는 것과 대조적으로, HMR은 모양과 3D 관절 각도에 의해 매개변수화된 더 풍부하고 유용한 메시 표현을 생성합니다. (쉽게 관절각도를 계산=>정해진 아바타의 애니메이션을 함?)

주요 목표는 키포인트의 재투영 손실을 최소화하는 것으로, 이를 통해 모델은 2D 주석만 있는 야외 이미지를 사용하여 훈련될 수 있습니다. 그러나 재투영 손실만으로는 매우 제약이 많습니다. 이 작업에서는 이 문제를 해결하기 위해 3D 인간 메시의 대형 데이터베이스를 사용하여 실제 인간 몸체 매개변수인지 아닌지를 판별하는 적대적인 훈련을 도입합니다.

HMR은 2D 키포인트 감지에 의존하지 않고 이미지 픽셀에서 직접 3D 포즈와 모양 매개변수를 추론합니다. 모델은 사람이 포함된 경계 상자가 주어지면 실시간으로 실행됩니다.

이 프레임워크는 다양한 야외 이미지에서 접근 방식을 보여주며, 3D 메시를 출력하는 이전의 최적화 기반 방법을 능가하고, 3D 관절 위치 추정 및 부분 분할과 같은 작업에서 경쟁력 있는 결과를 보여줍니다.

데모 : https://huggingface.co/spaces/brjathu/HMR2.0

소스 : https://github.com/russoale/hmr2.0

 

GitHub - russoale/hmr2.0: End-to-end Recovery of Human Shape and Pose with tensorflow 2.0

End-to-end Recovery of Human Shape and Pose with tensorflow 2.0 - GitHub - russoale/hmr2.0: End-to-end Recovery of Human Shape and Pose with tensorflow 2.0

github.com

 

HMR2.0 - a Hugging Face Space by brjathu

 

huggingface.co

논문 : https://akanazawa.github.io/hmr/

논문내용 
단일 RGB 이미지에서 인체의 전체 3D 메시를 복구하기 위한 엔드 투 엔드 프레임워크를 제시합니다. 우리는 3D 관절 각도와 저차원 선형 형상 공간으로 메쉬를 매개변수화하는 생성 인체 모델 SMPL을 사용합니다. 3D 메쉬를 추정하면 전경 및 부분 분할과 단순한 골격으로 실용적인 것 이상의 조밀한 대응과 같은 광범위한 응용 분야에 대한 문이 열립니다. 출력 메시는 애니메이터가 즉시 사용하고, 수정하고, 측정하고, 조작하고, 대상을 변경할 수 있습니다. 우리의 출력은 또한 전체론적입니다. 폐색 및 잘림의 경우에도 항상 전체 3D 바디를 추론합니다.

종단 간 방식으로 이러한 모델을 교육하는 데는 몇 가지 문제가 있습니다.

  1. 첫 번째는 실제 이미지 에 대한 대규모 실측 3D 주석이 없다는 것입니다 . 정확한 3D 주석이 있는 기존 데이터 세트는 제한된 환경( HumanEva , Human3.6M , MPI-INF-3DHP )에서 캡처됩니다. 이러한 데이터 세트에서 훈련된 모델은 실제 세계의 풍부한 이미지로 잘 일반화되지 않습니다.
  2. 두 번째는 단일 보기 2D에서 3D로의 매핑에 내재된 모호성입니다. 불가능한 관절 각도 또는 극도로 마른 몸과 같이 이러한 구성의 대부분은 인체 측정학적으로 합리적이지 않을 수 있습니다. 또한 카메라를 명시적으로 추정하면 사람의 크기와 카메라 거리 사이에 추가적인 척도 모호성이 발생합니다.

이 작업에서 우리는 이러한 두 가지 문제를 모두 해결하는 메쉬 재구성에 대한 새로운 접근 방식을 제안합니다. 주요 통찰력은 야생 이미지의 대규모 쌍을 이룬 2D-3D 레이블이 없더라도 쌍을 이루지 않은 데이터 세트가 많다는 것입니다. 야생의 대규모 2D 키포인트 주석 이미지( LSP , MPII , COCO 등) 및 MoCap에서 다양한 포즈와 모양을 가진 사람들의 3D 메쉬로 구성된 별도의 대규모 데이터 세트. 우리의 주요 기여는 이러한 페어링되지 않은 2D 키포인트 주석 및 3D 스캔을 조건부 생성 적대적 방식으로 활용하는 것입니다 .
아이디어는 이미지가 주어지면 네트워크가 3D 메시 매개변수와 카메라를 추론하여 3D 키포인트가 투영 후 주석이 달린 2D 키포인트와 일치하도록 해야 한다는 것입니다. 모호성을 처리하기 위해 이러한 매개변수는 3D 매개변수가 실제 인간의 신체에 해당하는지 여부를 결정하는 판별기 네트워크로 전송됩니다. 따라서 네트워크는 인간 다양체에 대한 매개변수를 출력하도록 권장되고 판별자는 약한 감독 역할을 합니다. 네트워크는 각 관절에 대한 각도 제한을 암묵적으로 학습하고 비정상적인 체형을 가진 사람을 만드는 것을 권장하지 않습니다.

우리는 신체 모델의 구조를 활용하고 인수분해된 적대적 사전을 제안합니다. 없이도 모델을 훈련시킬 수 있음을 보여줍니다. 쌍을 이룬 2D-3D 교육 데이터 사용(분홍색 메시는 모두 이 쌍을 이루지 않은 모델의 결과임). 쌍을 이루는 2D 대 3D 감독을 사용하지 않더라도 HMR은 합리적인 3D 재구성을 생성합니다. 이것은 많은 양의 2D 데이터에서 3D를 학습할 수 있는 가능성을 열어주기 때문에 가장 흥미진진합니다. 자세한 내용은 해당 문서를

참조하십시오 .

'AI > MotionCapture' 카테고리의 다른 글

SMPL  (3) 2023.12.24
animate-anyone  (0) 2023.12.08
MagicAnimate  (0) 2023.12.08
동영상 기반 모션캡처 제품  (0) 2023.04.20

댓글