스마트 폰에서 이미지의 객체를 실시간으로 분리하는 고속 처리 시스템 "EdgeSAM"
논문:https://arxiv.org/abs/2312.06660
소스:https://github.com/chongzhou96/EdgeSAM
프로젝트:https://mmlab-ntu.github.io/project/edgesam/
데모 : https://huggingface.co/spaces/chongzhou/EdgeSAM
비디오 : https://www.youtube.com/watch?v=YYsEQ2vleiE
EdgeSAM은 모바일 장치에서 효율적으로 실행할 수 있도록 최적화된 이미지 세분화를 위한 프로그램입니다. 이 기술은 "Segment Anything Model"(SAM)이라는 이미지에서 지정된 물체를 분리하는 이미지 인식 시스템을 모바일 장치에 적합한 형태로 개선한 고속화 버전입니다.
성능의 상당한 저하를 억제하면서 원래 ViT 기반 SAM 이미지 인코더를 CNN 기반 아키텍처로 증류하는 방법을 도입했습니다. 이 단순화 프로세스는 사용자 입력과 이미지 인식 결과의 관계를 정확하게 이해할 수 있도록 고안되었습니다. 이 변환 과정에서 발생하는 문제(데이터 세트 편향)를 해결하기 위해 특별한 경량 모듈을 인코더에 추가합니다.
EdgeSAM은 원래 SAM보다 40배 빠르며 NVIDIA 2080 Ti GPU에서 MobileSAM보다 1.6배 빨리 작동합니다. 또한 iPhone 14에서는 한 장의 이미지를 단 14밀리초로 처리할 수 있으며, 이는 플랫폼에서 MobileSAM의 성능보다 14배 빠릅니다. 또한 COCO와 LVIS라는 데이터 세트의 정확도도 향상되었습니다. 그리고 이 기술은 iPhone과 같은 장치에서 초당 30FPS 이상의 실시간으로 작동 가능한 이미지 인식을 수행 할 수있는 첫 번째입니다.
'AI > Segmentation' 카테고리의 다른 글
Grounded-Segment-Anything (0) | 2024.01.29 |
---|---|
Depth-Anything (0) | 2024.01.29 |
ZoeDepth: 상대적 깊이와 메트릭 깊이 결합 (공식 구현) (1) | 2024.01.24 |
SAM (SegmentAnything)-meta (0) | 2023.12.25 |
댓글