본문 바로가기
AI/Body Reconstruct(Mediapipe)

Mediapipe based Blazepose

by wenect 2023. 3. 23.

blazepose는 인체 자세 추정 기술 중 하나로, mediapipe 프레임워크를 사용하여 구현되었습니다. blazepose는 인체의 각 관절의 위치와 방향을 추정하는 것으로, 실시간으로 인체의 자세를 추적할 수 있습니다. 이 기술은 머신 러닝 알고리즘을 사용하여 개발되었으며, 인체 자세 추정을 위한 최신 기술 중 하나입니다. 이를 이용하여 다양한 분야에서 활용할 수 있으며, 운동 분야나 AR/VR 분야에서도 활용되고 있습니다.

BlazePose는 mediapipe에서 개발한 높은 정확도의 body pose 모델입니다. yoga, fitness, dance와 같은 어려운 도메인을 지원하기 위해 특별히 설계되었습니다. 이 모델은 원래 PoseNet 모델의 17개 keypoint 토폴로지를 확장하여 33개의 keypoint를 감지할 수 있습니다. [1]

또한 BlazePose GHUM은 cropped된 인간 이미지에서 tracker가 작동하는 두 단계의 detector-tracker 접근 방식을 사용합니다. 따라서 모델은 메트릭 공간의 상대 좌표로 3D body pose를 예측하도록 훈련되었습니다. 이 공간의 원점은 대상의 힙 센터입니다. 이 모델은 MediaPipe 런타임과 TF.js 런타임을 사용할 수 있으며, 각각 사용하는 데 장단점이 있습니다. [2]

또한, BlazePose는 모바일 기기에서 실시간 추론을 위해 특별히 개발된 경량 컨볼루션 신경망 아키텍처입니다. 이 네트워크는 단일 사람에 대해 33개의 body keypoint를 생성하며, 빠르게 실행됩니다. [3]

따라서, mediapipe 기반 blazepose는 인간의 body pose를 높은 정확도로 추정할 수 있는 모델입니다. 이 모델은 어려운 도메인에서 작동하도록 설계되었으며, 모바일 기기에서도 실시간으로 실행될 수 있습니다. 또한, 이 모델은 MediaPipe 런타임과 TF.js 런타임을 사용할 수 있으며, 각각 사용하는 데 장단점이 있습니다.

https://google.github.io/mediapipe/

 

Home

Cross-platform, customizable ML solutions for live and streaming media.

google.github.io

https://github.com/google/mediapipe

 

GitHub - google/mediapipe: Cross-platform, customizable ML solutions for live and streaming media.

Cross-platform, customizable ML solutions for live and streaming media. - GitHub - google/mediapipe: Cross-platform, customizable ML solutions for live and streaming media.

github.com

https://github.com/homuler/MediaPipeUnityPlugin

 

GitHub - homuler/MediaPipeUnityPlugin: Unity plugin to run MediaPipe graphs

Unity plugin to run MediaPipe graphs. Contribute to homuler/MediaPipeUnityPlugin development by creating an account on GitHub.

github.com

 

AndroidiOSC++PythonJSCoral

Face Detection
Face Mesh  
Iris      
Hands  
Pose  
Holistic  
Selfie Segmentation  
Hair Segmentation        
Object Detection    
Box Tracking      
Instant Motion Tracking          
Objectron    
KNIFT          
AutoFlip          
MediaSequence          
YouTube 8M          

See also MediaPipe Models and Model Cards for ML models released in MediaPipe.

MediaPipe 전체적 파이프라인은 포즈 , 얼굴   구성 요소에 대한 별도의 모델을 통합하며, 각 구성 요소는 특정 도메인에 최적화되어 있습니다. 그러나 서로 다른 특수화로 인해 한 구성 요소에 대한 입력이 다른 구성 요소에 적합하지 않습니다. 예를 들어 포즈 추정 모델은 더 낮은 고정 해상도 비디오 프레임(256x256)을 입력으로 사용합니다. 그러나 해당 이미지에서 손과 얼굴 영역을 잘라 각각의 모델에 전달하는 경우 이미지 해상도가 너무 낮아 정확한 관절을 만들 수 없습니다. 따라서 우리는 MediaPipe Holistic을 지역에 적합한 이미지 해상도를 사용하여 다양한 지역을 처리하는 다단계 파이프라인으로 설계했습니다.

먼저 BlazePose 의 포즈 검출기와 후속 랜드마크 모델을 사용하여 인간 포즈(그림 2의 상단)를 추정합니다 . 그런 다음, 추정된 포즈 랜드마크를 사용하여 각 손(2x)과 얼굴에 대해 3개의 관심 영역(ROI) 크롭을 도출하고 재크롭 모델을 사용하여 ROI를 개선합니다. 그런 다음 전체 해상도 입력 프레임을 이러한 ROI로 자르고 작업별 얼굴 및 손 모델을 적용하여 해당 랜드마크를 추정합니다. 마지막으로 모든 랜드마크를 포즈 모델의 랜드마크와 병합하여 전체 540개 이상의 랜드마크를 생성합니다.

버전이 빠르게 오르고 있고 개선이 되고 있습니다.
현재 버전은 3Dposition skeleton 까지는 지원하며 3D Avatar는 지원하지 않습니다.
회전구현을 프로그램으로 계산할수 있으나 근본적으로 깊이가 부정확합니다.
2D로서는 충분한 가치가 있을것입니다.

이 모델은 실시간으로 인체 포즈를 추정하도록 최적화된 경량형 CNN 아키텍처입니다. 모바일 기기에서 실시간으로 실행될 수 있도록 설계되었으며, 하나의 사람에 대해 33개의 바디 키포인트를 생성합니다. [3] Blazepose GHUM은 cropped human image에 대한 tracker가 작동하여 subject's hips center를 기준으로 metric space의 상대 좌표로 3D body pose를 예측합니다. [2]

 

 

댓글