Motivation
- 当前基于CNN或者non-lcoal的方法,可以建模 temporal concepts,但是却不能建模分钟级长的时域依赖。
- 学习一个无向图,节点和边都是直接从video中得到,而不需要进行单独的节点标注。
- 这里的节点是:组成activity的一个unit-action,比如 “煎鸡蛋” 这个activity里的 “打破鸡蛋” 。
- 边,表示 (units-action) 运动单元之间的时域关系
Goal
- 建模长范围的activity
- 捕捉到细节信息
Vs Video as space-time region graph
- Video as space-time region graph: 需要提取 key objects
- Video graph:自动的从video中学到 nodes
近期评论