TesseTrack (CVPR 2021)

2024. 3. 27. 14:08·DL·ML/Paper

Abstract

  • CVPR 2021 accepted
  • multi-person 3d pose estimation and tracking in videos
  • single end-to-end learnable framework
  • camera view의 개수에 robust함
  • 코드가 공개되어 있지 않다.
  • https://www.cs.cmu.edu/~ILIM/projects/IM/TesseTrack/

 

Motivation

 

기존 task의 challenging한 점은, multi-person인 경우 occlusion이 많이 발생한다는 것이다. 

 

기존 framework들은 이런 문제를 해결하기 위해 2D estimation 후 lifting하는 multi-stage inference를 하는데, 본 논문에서는 이런 방식이 suboptimal하다고 보았다. 

 

TesseTrack은 top-down approach로 3D body joint reconstruction과 association in space and time을 simultaneous하게 수행한다. 

 

여기서 도입하는 novel spatio-temporal formulation은 다음과 같이 수행된다:

  1. 3D CNN으로 각 person을 voxel space에서 localize한다.
  2. 각 person 주위의 고정된 volume을 4D CNN으로 short-term person-specific representation을 얻는다.
  3. same person의 3d body joint가 person-specific representation에 의해 predict된다.

 

 

 

Method

 

전체 architecture는 세 개의 main block으로 구성된다.

 

첫 번째 block은 3D voxel space에서의 person detection block이다. 두 번째 block에서는 4D CNN을 이용하여 각 detected person에 대해 짧은 시간동안의 spatio-temporal representation을 추출한다. 세 번째 block에서는 overlap되는 descriptor를 merge하고 3D pose를 예측한다. 

 

Person Detection Block

multi-view에서 3D로 person detection을 하는 것이 목적이다. HRNet[2]으로 image feature를 각 frame마다 extract하고, 얻은 feature map을 aggregate하여 3D voxelized volume으로 구성한다. 여기서 여러 개의 camera view에 대해 projection하고, 그 calibration data를 포함해서 feature vector를 만든다. 이를 다시 3D convolution을 적용해서 detection proposal을 만든다. 

Equation 1: loss at time $t$

여기서 w, h, d는 3D space 상에서의 좌표이고, 각 person의 center를 기준으로 하고 있다. 

 

Spatio-Temporal Descriptors and Tracking

4D CNN으로 short time description을 만든다. 여기서의 $R×T×X×Y×Z$ volume을 여기서는 tesseract라고 정의한다. 이때 $R$은 feature vector size이고, $X, Y, Z$는 공간상 좌표, $T$는 temporal window size이다.

 

이렇게 temporal한 차원을 추가하는 것은, joint의 위치를 시간 상에서 predict하는데 도움이 되고, tracking에 사용할 수 있게 함이다. 

 

 

  • Tessaract Convolutions

여기서 feature를 얻기 위한 submodule이 하나 더 있는데, feature extraction이라는 목적은 같으나, 원래 video feature와 tesseract를 합쳐 feature을 enrich하기 위한 process로 생각된다.

 

HRNet prefinal layer의 feature를 다시 가져와 tesseract의 time step마다의 feature를 만든다. 그 후 이를 4D convolution을 거쳐 reduced size tesseract feature를 만든다. 이 feature를 이용해 tracking과 pose estimation을 하게 된다.

 

 

  • Attention Aggregation

temporal matching을 하기 전 feature를 GNN을 거쳐 향상한다. edge는 same time instance를 연결하는 self edge와 connecting features from adjacent time instance를 연결하는 cross edge의 두 가지 edge로 구성된다. 

 

  • Temporal Matching Layer

attention module의 final layer는 assignment matrix로 연결된다. 한 time $t$에서 $N$개의 feature와 $M$명의 person이 있다고 했을 때, $M×N$ bipartite matching을 할 수 있다. 여기서는 score matrix를 계산하기 위해 time step $t$의 feature $f^t$와 $t+Δt$의 $f^{(t+Δt)}$를 inner product하여 구했다. 

 

 

3D Pose Estimation

  • Spatio-temporal descriptors merging

 

 

 

Results

 

Discussion

 

 


References

[2] Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. Deep high-resolution representation learning for human pose esti- mation. In CVPR, 2019.

Footnotes

'DL·ML > Paper' 카테고리의 다른 글

CLIPSelf (ICLR 2024 spotlight, open-vocabulary dense prediction)  (0) 2024.03.29
FutureFoul  (0) 2024.03.27
MotionBERT (ICCV 2023)  (0) 2024.03.26
Grounded SAM  (0) 2024.03.25
[task] 3D Pose Estimation (in progress)  (0) 2024.03.25
'DL·ML/Paper' Other articles in this category
  • CLIPSelf (ICLR 2024 spotlight, open-vocabulary dense prediction)
  • FutureFoul
  • MotionBERT (ICCV 2023)
  • Grounded SAM
Jordano
Jordano
  • Jordano
    Jordano
    Jordano
  • Total
    Today
    Yesterday
    • All categories
      • Introduction
      • Theatre⋅Play
      • Thinking
        • iDeAs
        • Philosophy
      • History
        • Cuba
        • China
      • CS
        • HTML·CSS·JavaScript
        • Dart·Flutter
        • C, C++
        • Python
        • PS
        • Algorithm
        • Network
        • OS
        • etc
      • DL·ML
        • Paper
        • Study
        • Project
      • Mathematics
        • Information Theory
        • Linear Algebra
        • Statistics
        • etc
      • etc
        • Paper
      • Private
      • Travel
  • Blog Menu

    • 홈
    • 태그
    • 방명록
  • Link

  • hELLO· Designed By정상우.v4.10.3
Jordano
TesseTrack (CVPR 2021)
상단으로

티스토리툴바