Abstract
- CVPR 2021 accepted
- multi-person 3d pose estimation and tracking in videos
- single end-to-end learnable framework
- camera view의 개수에 robust함
- 코드가 공개되어 있지 않다.
- https://www.cs.cmu.edu/~ILIM/projects/IM/TesseTrack/
Motivation
기존 task의 challenging한 점은, multi-person인 경우 occlusion이 많이 발생한다는 것이다.
기존 framework들은 이런 문제를 해결하기 위해 2D estimation 후 lifting하는 multi-stage inference를 하는데, 본 논문에서는 이런 방식이 suboptimal하다고 보았다.
TesseTrack은 top-down approach로 3D body joint reconstruction과 association in space and time을 simultaneous하게 수행한다.
여기서 도입하는 novel spatio-temporal formulation은 다음과 같이 수행된다:
- 3D CNN으로 각 person을 voxel space에서 localize한다.
- 각 person 주위의 고정된 volume을 4D CNN으로 short-term person-specific representation을 얻는다.
- same person의 3d body joint가 person-specific representation에 의해 predict된다.
Method
전체 architecture는 세 개의 main block으로 구성된다.
첫 번째 block은 3D voxel space에서의 person detection block이다. 두 번째 block에서는 4D CNN을 이용하여 각 detected person에 대해 짧은 시간동안의 spatio-temporal representation을 추출한다. 세 번째 block에서는 overlap되는 descriptor를 merge하고 3D pose를 예측한다.
Person Detection Block
multi-view에서 3D로 person detection을 하는 것이 목적이다. HRNet[2]으로 image feature를 각 frame마다 extract하고, 얻은 feature map을 aggregate하여 3D voxelized volume으로 구성한다. 여기서 여러 개의 camera view에 대해 projection하고, 그 calibration data를 포함해서 feature vector를 만든다. 이를 다시 3D convolution을 적용해서 detection proposal을 만든다.
여기서 w, h, d는 3D space 상에서의 좌표이고, 각 person의 center를 기준으로 하고 있다.
Spatio-Temporal Descriptors and Tracking
4D CNN으로 short time description을 만든다. 여기서의 $R×T×X×Y×Z$ volume을 여기서는 tesseract라고 정의한다. 이때 $R$은 feature vector size이고, $X, Y, Z$는 공간상 좌표, $T$는 temporal window size이다.
이렇게 temporal한 차원을 추가하는 것은, joint의 위치를 시간 상에서 predict하는데 도움이 되고, tracking에 사용할 수 있게 함이다.
- Tessaract Convolutions
여기서 feature를 얻기 위한 submodule이 하나 더 있는데, feature extraction이라는 목적은 같으나, 원래 video feature와 tesseract를 합쳐 feature을 enrich하기 위한 process로 생각된다.
HRNet prefinal layer의 feature를 다시 가져와 tesseract의 time step마다의 feature를 만든다. 그 후 이를 4D convolution을 거쳐 reduced size tesseract feature를 만든다. 이 feature를 이용해 tracking과 pose estimation을 하게 된다.
- Attention Aggregation
temporal matching을 하기 전 feature를 GNN을 거쳐 향상한다. edge는 same time instance를 연결하는 self edge와 connecting features from adjacent time instance를 연결하는 cross edge의 두 가지 edge로 구성된다.
- Temporal Matching Layer
attention module의 final layer는 assignment matrix로 연결된다. 한 time $t$에서 $N$개의 feature와 $M$명의 person이 있다고 했을 때, $M×N$ bipartite matching을 할 수 있다. 여기서는 score matrix를 계산하기 위해 time step $t$의 feature $f^t$와 $t+Δt$의 $f^{(t+Δt)}$를 inner product하여 구했다.
3D Pose Estimation
- Spatio-temporal descriptors merging
Results
Discussion
References
[2] Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. Deep high-resolution representation learning for human pose esti- mation. In CVPR, 2019.
Footnotes
'DL·ML > Paper' 카테고리의 다른 글
CLIPSelf (ICLR 2024 spotlight, open-vocabulary dense prediction) (0) | 2024.03.29 |
---|---|
FutureFoul (0) | 2024.03.27 |
MotionBERT (ICCV 2023) (0) | 2024.03.26 |
Grounded SAM (0) | 2024.03.25 |
[task] 3D Pose Estimation (in progress) (0) | 2024.03.25 |