大数据驱动下的智能资讯写作 【恒生首届技术开放日前沿技术开发专场】

 
 

2016年9月24日,在恒生首届技术开放日的前沿技术开发专场上,汤开智(芥籽)作了题为“大数据驱动下的智能资讯写作”的讲演,获得很多关注。

研究提要:在这个信息量指数爆炸的时代,越来越多的新闻从业者感受到了大数据和智能化带来的冲击。当撰稿人还在花费大量精力进行资讯的检索筛选时,写稿机器人却能够在1分钟内完成一篇1600字的高质量稿件。这是媒介与数据的一次碰撞,这是科技和人类的一次颠覆!第一财经首席数据科学家汤开智博士应邀向参会嘉宾介绍了智能写作的概念、稿件类型、实现流程及产品介绍,详细地阐述了基于大数据检索接收而产生新闻稿件的智能写作系统。该系统能够从人工写作中抽取出可建立优化模型的问题,形成数字信息描述、重要信息总结及多信息关联等模式的稿件。整个稿件的形成过程包含了信息采集、信息提取、稿件生成和稿件评估四个步骤。汤博士的介绍由浅入深,通过对相关产品的剖析,全方位揭秘了智能写作系统背后的流程和逻辑。

 

 

精彩观点

人类擅长自由发挥,天马行空,而机器擅长有目标、有约束、优化和机器学习问题,二者的协调在于从人工写作中抽取出能够建立优化模型的问题,让机器完成。

智能写作系统是一个基于所接收的数据而产生新闻稿件的系统,是由信息源驱动的系统。

机器写作亮点:信息实时监控抓取,多信息自动关联及高质量高时效成稿。

PPT回顾

精彩问答

汤开智老师,感觉机器语言有点呆板,是否可以考虑通过对比历史或其他资讯数据,同时对接词义分析工具,通过近义词替换、词义色彩分析等方法,达到为出具的报告加入感情色彩或意义委婉的目的?
目前我们的机器写作主要是针对财经事实的描述,因为文体的局限,语言显得有些呆板。如果要增加可读性,需要尝试写作不同的文体。比如说,基于事实的解读,我们可以针对不同的数字范围,使用不同的语音进行描述,那样会让语言丰富起来。我们最近在针对天猫的清单商品进行描述,这个对语言的要求比较自由,也能容忍更多的色彩。我们的写作技术使用互联网上的流行话题,还有同义词、相关词进行替换,来丰富写作的色彩。
请问,针对个性化需求怎么进行信息的提取并制成模板?是否可以按照自己的意愿去打造个性模板,还是说当前阶段只是适合普遍性的模块分析?
目前的写作技术是不区分个性化的,也就是说个性化和普遍性的我们都可以写,关键看我们设计怎样的写作逻辑和提供怎样的输入数据。但是从业务场景来看,个性化场景的写作是很有价值的。比如说,我们可以根据每一个投资者投资的股票来写出他希望读到的关于他的投资篮子的报告、与此相关的市场趋势和对风险的一些提示等。
请问,对于带有人情世故和一些感情色彩的写作,如果我们全部把这些东西嫁接到智能之类的平台去作总结,是否存在误解和牵强?
我们不勉强所有的文章都用机器的逻辑来实现,只有那些逻辑比较明显,机器的语音风格也能接受的才用智能写作的方法。对于强烈感情色彩的文章,还是要靠作者,特别是高水平作者的发挥。机器也许可以在整理素材,匹配素材,决定写作线索等方面提供协助。
请问,智能写作目前最前沿的科技以及应用是什么?
智能写作的技术一般归类到自然语言生成技术。因为数据的复杂性和多样性,很多数据挖掘和人工智能的技术也被使用。目前的应用主要是一些自动内容生产的工具,如Narrative Science、 Wordsmith等。
请问,关键字及重要信息提取时,如果作者不按规则来,机器提取不了的情况怎么办?如何实现高效提取?
这就会有一个准确性的问题,要作好这件事情需要人工来核对,有一些成本。人工核对的结果可以被机器学习到,经历一段时间,我们可以逐步提高准确性和效率。
请教下芥籽老师,目前智能写作中人工工作占到多大比例?尤其是对时效性要求比较高的新闻,还有人工参与吗?没有的话新闻质量又如何保障?
目前稿件的生成过程完全是自动的,但是成为可以发布的新闻稿,是有人工审核的。即使有很多稿件没有进行任何修改就直接发布了,所有的稿件都经过了人工审核的过程。当然,审核的编辑也可能对机器生成的文章进行一些修改。

by writingmaster DT稿王