videograph: recognizing minutes

Motivation

  • 当前基于CNN或者non-lcoal的方法,可以建模 temporal concepts,但是却不能建模分钟级长的时域依赖。
  • 学习一个无向图,节点和边都是直接从video中得到,而不需要进行单独的节点标注。
  • 这里的节点是:组成activity的一个unit-action,比如 “煎鸡蛋” 这个activity里的 “打破鸡蛋” 。
  • 边,表示 (units-action) 运动单元之间的时域关系

Goal

  • 建模长范围的activity
  • 捕捉到细节信息

Vs Video as space-time region graph

  • Video as space-time region graph: 需要提取 key objects
  • Video graph:自动的从video中学到 nodes