微软：让机器根据图片组描绘故事

时间：2016-04-21 09:51|点击：次

　　人工智能学家

作者：Jordan Novet

翻译：心

审校：闫盖

原文：venturebeat

上图最后一行根据顺序分别表示对应图片蕴含的内容

　　微软研究院发明了一种可让计算机利用人工智能技术，从多个图片中提取故事内容的新方法。这种技术有望应用于视觉损伤患者的辅助设备。14号，微软发布了一篇描述该技术的学术论文。报告中，微软也公布了此次研究中用到和生成的相关图片，图片说明，及生成的“故事”内容。

　　这种新性能之所以非常重要，是因为生成描述性文字的能力，固然要难于图片和视频中的图像识别能力。

　　“现在很难估计以后怎样，但是至少每个人都想知道图片中最重要的信息。通过讲述故事，将会告诉读者大量背景信息，以及故事将会如何演进等，”微软研究员Margaret Mitchell告诉Venture Beat。

　　为了提升该技术水平，微软先是依赖用户为单个图片，以及根据特定顺序为多个图片写图片说明。然后工程师们利用这些内容，教给机器讲述各序列图片中所蕴含的整个故事的办法。

　　人工智能在微软的语音识别，机器翻译中早已用到，Facebook，Google等其他公司在AI领域也异常活跃。该项技术正是涉及了人工智能技术。

　　该技术利用卷积神经网络在图片和文字中进行训练。Mitchell是论文的主要作者。她和她的同事从机器翻译领域中借鉴了一种被称作序列到序列学习的一种技术。“我们想说，这个技术，通过一个卷积网络提供序列的一部分来反映一张图片，然后检查整个序列，再生成一系列图片的整体编码，然后根据该编码，我们可以解码生成整个故事。”Mitchell说。

　　她和她的同事——部分人曾在Facekbook人工智能研究实验室（FAIR）工作——曾思考如何提升有特定规则的系统生成的内容。比如，”在一个故事中，同一内容的词不能出现两次，”他们论文中说。

上图为举例说明用序列句说明图片。

　　最后的结果是不是逐字逐句的说明，而是更抽象和迷人的描述语言。随着发展，这种语言将会有很大潜力。不能看图的人能够理解多个图片整体表达的意义。

　　近期服务盲人识别图像和视频中的物体的技术很热，该项技术将是下一步很好的选择。而且，这正是Mitchell最近和微软软件盲人开发员Saqib Shaikh联合研究的领域。

　　人工智能学家 Aitists

人工智能学家是权威的前沿科技媒体和研究机构，2016年2月成立人工智能与互联网进化实验室（AIE Lab)，重点研究互联网，人工智能，脑科学，虚拟现实，机器人，移动互联网等领域的未来发展趋势和重大科学问题。

微软：让机器根据图片组描绘故事

微软：让机器根据图片组描绘故事

您可能感兴趣的文章

阅读排行

内容推荐