人工智能之AI预测视频中关键帧的动作
前言:据外媒报道,目前MIT研究团队开发了一种时间关系网络(TRN)系统,它能够让AI系统有能力知道视频中的物体在不同时间如何发生变化,更深层次是想要AI系统不仅仅识别物体的外观,更重要的是识别物体的变形。这项研究旨在建立更好的AI系统,具有更高的活动识别能力,并能更好地理解周围世界正在和即将发生的事情。
MIT麻省理工学院的研究人员开发出了用于人工智能(AI)系统的附加模块,该模块通过分析视频中的关键几帧,可以预测物体如何运动。这个模块被称为时间关系网络(TRN),它使AI系统能够学习对象如何在视频的不同时间经历变化。
MIT麻省理工学院的研究人员旨在建立更好的人工智能AI系统,该系统具有更高的活动识别能力和对周围世界发生的事情的更高理解。前麻省理工学院计算机科学与人工智能实验室的博士生周伯雷在博客中评论说:“我们建立了一个人工智能系统来识别物体的转变,而不是物体的外观。”“系统不会遍历所有的帧——它获取关键帧,并且利用帧的时间关系,识别正在发生的事情。”这提高了系统的效率,并使其能够实时准确地运行。“这对机器人技术的应用很重要,当要做特定动作时,你想要一个机器人预测和预测早期会发生什么?”周博士说。目前,周博士是香港中文大学的计算机科学助理教授。
研究人员在三个人群来源的视频数据集上对该模块进行了测试和训练,这些视频集包含正在执行的各种活动的片段。第一个是由20BN公司制作的,有174个动作类别的200000个视频,比如用手捅一桶桶罐头。第二个,被称为JSter,包含150000个视频显示27个不同的手势。而最后一个数据集称为“哑谜”,它教给学生不同的活动,比如打篮球或骑自行车。
根据麻省理工学院的研究,当Trn被录入一个视频时:“同时处理两个、三个、四个组的有序帧-间隔一段时间。”然后判断这些关键帧中的对象转换是否是特定活动的结果。
麻省理工学院的研究人员指出:“如果它处理两个帧,其中后一帧显示屏幕底部的对象,而较早的对象显示顶部的对象,它将赋予活动类高概率,即移动对象向下,”
麻省理工学院的研究人员的下一步将是将物体识别与活动识别软件结合起来。幸运的是,在训练AI来识别视频帧中的对象方面,工作进展非常顺利。
一个更艰巨的任务是训练机器学习“直观物理”,这将让AI更好地理解物体拥有的真实世界属性。
“因为我们知道这些视频中的很多物理学,我们可以训练模块来学习这些物理定律,并将它们用于识别新的视频。”我们还开源所有的代码和模型。“活动理解是目前人工智能领域的一个令人兴奋的领域,”薄磊舟评论道。
------以往文章推荐-----
机器学习
深度学习
人工神经网络
决策树
随机森林
强化学习
迁移学习
遗传算法
朴素贝叶斯
支持向量机
蒙特卡罗方法
马尔科夫模型
Hopfield神经网络
回归模型
K邻近算法
卷积神经网络
受限玻尔兹曼机
循环神经网络
长短时记忆神经网络
Adaboost算法
ID3算法
C4.5算法
CART算法
K-Means算法
Apriori算法
PCA算法
ICA算法
TD-Learning算法
Q-Learning算法
SOM算法
GBM算法
GBDT算法
EM算法
SVD算法
Autoencoder算法
DBN算法
GAN算法
多层感知器
BP算法
DRL算法
AlphaGo浅析(1)~(5)
霍夫曼优化框架
粒子群算法
ResNet模型
DenseNet模型
Xgboost算法
长按下放图片,识别图中二维码,关注“科技优化生活”公众号,谢谢!