编辑机器人2

2018-03-19 本文已影响17人大补丸

本文对编辑机器人的系统架构进行进一步的讨论。如下图所示：

编辑机器人的系统架构

监听目标信息源

对于编辑机器人信息的收集，除了依靠记者到现场采访、官方直接下发、读者主动提供的传统方法来手工输入给编辑机器人以外，通常还会采用以下几种方法：

1、接入专门网站所提供的API，如体育联赛、证券公司、气象局等等。这些网站通常会按照一定的规则，及时提供所涉及业务的数据，供相关媒体直接调用。

2、通过网络爬虫，获取社交网站动态信息，尤其是关注意见领袖（如微博网络大V）所发布的内容；也可以使用爬虫，爬取其他媒体发布的信息。

3、对已有数据进行分析整理，结合当前突出社会热点，形成新的有价值信息。

目前已经投入使用的编辑机器人，广泛应用前两种方法，第三种方法也正在试验中。随着物联网、普适计算技术的发展，有观点认为，将来将会出现“平行世界”，即在世界中的任何事物，都会在数据世界中有所对应，数据世界可以准确描述我们所生活的真实世界，两个世界将会有密切的交叉互动。这就意味着，随着科技的发展，编辑机器人获得数据的方式将无所不在。正如当前自媒体的广泛发展，将来自媒体将不仅仅是人在发布自己的意见，生活中任何物体（subject）都可以成为自媒体。浙江大学CCNT实验室在2011年，一名学生为饮水机安装感应器，使其在水开和没热水的时候会自动发一条微博。因为微博内容非常萌，瞬间走红于网络。这就是subject作为自媒体的一种雏形。当前，计算机视觉领域正由“物体识别”向“场景描述”进军，已经可以实现对摄像头所录制内容进行简单的实时场景描述，将来在技术上，将有望借助普遍部署的摄像头，把无数的信息作为信息源供编辑机器人选择使用。

分析处理数据

“新闻一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分，后二者是辅助部分。写法以叙述为主兼或有议论、描写、评论等。新闻是包含海量资讯的新闻服务平台，真实反映每时每刻的重要事件。”从新闻的描述上可以看出，大部分新闻的文章结构是高度模式化，这就为当前自然语言识别处理技术的发展阶段的机器新闻撰写提供了可能。

就应用而言，分析处理数据通常会分为两步，首先将数据与历史数据进行比较分析，检验是否超过正常值，或是属于所报道事件新闻报道范式的哪一个发展层次；第二步是匹配填入相关文章范式，形成新闻。

编辑机器人目前产生的稿件，通常来自于金融、体育、气象等领域，这些领域重复性高，内容结构简单，所以应用效果较好。但在需要深度探讨的新闻领域中，编辑机器人并没有较多的表现。

对于编辑机器人的发展路径，有观点认为应尽可能发展机器对语言的理解能力，使得机器可以自动生成有深度的新闻评论，或是对复杂社会事件进行准确理解。

我认为，应该着重研究如何发展利用机器客观、快速、准确的优势，而并不应该一味的要求编辑机器人更像人类记者。例如，应该更进一步发展数据挖掘技术，探索如何在海量、异构、复杂数据中，甄别分析出有用信息；探索信息展示技术，对于机器分析出的数据，可以使用一种跟适合人类接收理解方式呈现，包括但不限于新闻的传统方法；探索历史数据与新数据之间的联系，使得读者可以方便获得与其相关的并且是读者关心的历史数据，及必要的分析。

数据发布与推送

传统媒体通常只会将一个新闻制作为一个稿件，进行推送。随着机器智能的发展，可以对用户的历史阅读情况数据进行分析，进行特色新闻服务，除了目前已经广泛应用的推送用户感兴趣（如今日头条，猜你喜欢等）的内容外，将来将有可能针对不同的用户，量身定制不同的稿件，描述同一个新闻事件，提高用户体验。

在数据推送规则和用户体验反馈中，将依托心理学、社会学等相关学科研究成果，建立评价范式和推送规则。

重新定义新闻和记者

商务印书馆出版的《现代汉语词典（修订本）》对新闻的解释是：报社、通迅社、广播电台、电视台等报道的消息；泛指社会上最近发生的新事情。

数据“平行世界”和机器智能发展，势必将重新定义当前的新闻及记者的表现形式。

编辑机器人2

监听目标信息源

分析处理数据

数据发布与推送

重新定义新闻和记者

猜你喜欢

热点阅读