大数据驱动的智能化内容生产--统计与大数据创新应用开放论坛讲演

 
 

7月20日,汤博士在“统计与大数据创新应用开放论坛”的大会上做了大数据驱动的智能化内容生产讲演。这个论坛是由中国市场信息调查业协会市场研究分会(CMRA)与上海交通大学安泰经济与管理学院联合发起并主办的。在讲演中,汤博士系统地介绍了目前内容生产在大数据时代的挑战和人工智能技术提供的机会,他特别介绍了第一财经媒体实验室研发的DT稿王产品,以及该产品能够写出的稿件类型,包括数字信息描述的稿件,重要信息总结的稿件,和多种信息关联的稿件。汤博士也展示了DT稿王生产的稿件在一财电视,一财网7*24看板,一财网快新闻,已经Yicai Global的使用。汤博士也描述了智能化内容生产技术未来在不同行业的应用。

该讲演获得了一些媒体研究,金融资讯,和投研报告机构的热议,也开启了DT稿王的一些合作门路。

大数据驱动的智能化内容生产 -- DT稿王介绍 汤开智

发布时间:2016-07-27 07:19:34

各位领导、各位来宾,谢谢有这个机会让我来分享这个题目。我目前为止是在阿里巴巴和第一财经同时做两件不一样的事情,在阿里做的事情其实是刚才讲的与淘宝的指数有一些关系,我们想把阿里代表着中国零售业11%多的数据,通过很多的统计分析数据挖掘的方式,去发挥社会价值,第一财经有一个数据,大家也关注到了,通过一个数据频道向外输出,我是对接比较底层的数据挖掘、技术方面的事情。

同时我们在第一财经做了一个机器写文章这样一个项目,这个项目也是在大数据背景下产生出来的,特别是今天有很多是做统计的,特别是在市场研究领域,其实很有趣的事情,通过数据能不能讲述很多故事出来,通过我们知道的很多的舆情,通过官方发布的一些文件,我们能不能总结出一些有趣的解读或者有趣的延伸。同时我在介绍的是一个数据产品涉及到整个过程当中,从原始的数据,结构化的非结构化的,很脏很乱的数据,怎么样经过一步一步的清洗,最后变成大家可以读的文字,可以读的文章,这样一个过程。

这是今天的演讲纲要,项目背景、技术、细节以及未来的展望。

我们做这个事情有三个方面的背景,第一个方面,因为技术的发展,因为我本身过去将近二十年都在技术领域,目睹了争夺大数据人工智能,以及人工智能技术还有数据挖掘技术的发展。简单来讲,其实人工智能数据挖掘的想法,在很早的时候就有了,在五十年代,那些MIT的教授在设想未来智能化时代的时候,就想到了计算机有一天可能会像人脑一样分析事情。但是后来只停留在概念阶段,大概因为纯粹的方法是不能解决问题的,一定要有数据支撑,经历了好几十年的,当然方法也在发展,但是更重要的是,当数据积累到一定程度的时候,现在其实是大数据,其实还是提供了一个从存储到计算这样一个环境,但是人工智能才是把数据转化价值发挥出来,然后利用数据价值解决一些问题。

这块无论在美国还是在中国,在全球市场上炒的蛮厉害的领域,也有一些相应的产品出现。

第二个方面,因为我们在第一财经,有那么多的记者编辑,记者编辑在大数据时代,或者DT时代,面临很多的压力,首先就是资讯的源头比以前多了N多倍,同时要写出有份量的,或者说有洞察力的文章,单纯靠以前那种拍脑袋或者凭经验已经不够了,数据在这个过程当中会扮演非常重要的角色。还有阿里和一财的投资入股关系,导致一些技术,特别是数据方面的技术,在这里沉淀,在与媒体相关的数据新闻领域沉淀。

其实我在做这个事情的过程当中,不知道大家有多少人学文科的有多少人学理科的,我是理科生,理科生思考问题的时候比较理科。但是我们的客户,我们的用户都是文科生,都是一财的记者编辑,其实这个过程当中,问到一个最大的问题,机器到底能写出什么东西,这是我们经常被问到的一个问题,对于写作来说,特别是对于文科生来讲,写作是专业,在这个过程当中,其实有一个很大的发挥空间,然后自由发挥的过程,其实对于数据技术也好,或者说人工智能也好,讲究的是在一定的约束条件下的一个问题解决方案,大家如果学过简单的数学的话,如果一个问题约束条件没有,光要做一些事情,那个事情有无穷多解,像写作,为什么同样写一个东西,同样一个题目出来几百万篇不一样的文章,在没有约束的情况下,这是非常多样化的事情,但是技术要解决的问题,是一个有约束的问题,有约束才能找出一个最优解,所以在这个过程当中,我们在哪个地方相遇了,就是能够用逻辑或者说用约束加上目标函数能够表达的写作场景,我们就有可能把这样的文章写出来,待会儿可以看一些案例。

我们产品叫做DT稿王,一个很好玩的名字,我们认为是DT时代,给写稿技术的一种呈现,我们想解决这个里面的媒体还有一些商业机构,最后也许到写作爱好者,他们在写作过程当中的一些问题,一些痛点,简单地讲,机器人干的事情,最好让机器人干,比如说你在这里抄一点,那里拷贝一点,无数个元素,这是机器最擅长干的事情,应该由机器来干。另外就是人干不了的事情,机器应该尝试来干,比如说我们要从几十万条微博当中总结出来最重要的几条,最重要的一些信息,机器干这个事情比较好,我们朝这个方面的定位在努力。

我们先看一下机器人能够写什么东西,目前我们能够写三种文章。第一种就是简单的数字讲故事,这也适合在座的工作领域,统计领域有很多数据,这些数据人要能读出来,带有一定的逻辑读出来,需要把数据转换成故事,这个是逻辑可以讲通的,只要数据的条件数据的维度和数据的意义和内涵,以及代表的逻辑能够整理出来,这个故事是可以讲出来的,这是一个进出口的一个数据,根据这个表格我们可以写一句话,而且根据这个表格后面推导出一些定性的描述,这是第一种。

这个更有趣一点,这是一个二级市场,数据五秒钟就有一次更新,但是人又不可能随时盯着这个数据看,而且即使看,背后的逻辑也不知道,我们做的事情就是根据这些高频数据,加上一些分析逻辑,加上一些预判条件,把一切重要的从新闻的角度,重要的一些异常的信息给报道出来,这是一种蛮好的写作场景,左边是一些收盘的数据,还有换手率的报告,这是我们每一分钟看A股市场,看哪只股票有重大的波动,这个可以做的蛮好的,这是第二种数据能写的。

第二个方面是信息的提取,或者说重要信息的总结功能,这里举了一个例子,上市公司公告,这也是一个特别大的数据,而且特别复杂,每天都有很多上市公司公告发布,我们就要判断哪些公告是有价值的,判断出来有价值以后,能不能写一个摘要出来,就是这样一个场景,其实做好这个事情也是非常有难度的,这种场景是机器干的还不错的,像前面讲的给你几十万条微博,总结重要的微博,机器干这个事情比较适合。

另外就是真正反映机器水平的稿件,叫做多种信息关联,刚才提到了CPI的报告,这是六月份的CPI的报告,CPI肯定有一个简单的数据报告,这是一个数据讲故事的写法,最后一段引用统计局一段评论,这段评论中间透露出一些不但是数字的信息,还有一些定量的信息,比如说在哪些猪肉市场、蔬菜市场的一些影响。接下来的是我们在微博微信上,还有通过一些现代的调研所收集到的在那一段时间之内的很多的经济学家还有观察家、意见领袖,他们对中国经济的看法,我们不能把所有收集的数据列上去,之间有关联的强弱,在这个过程当中是一个机器要学习要匹配的过程,所以这样的话我们通过一种计算的办法,匹配出来,再加上一些过渡,不文章自动生成出来,这个文章从去年十一月份开始,每个月都在生成,现在编辑看都不看就发了,发在一财网上面,最近我们发现评论还蛮多的,有很多人评论,六月份的CPI可能比较热,没有人抱怨这是机器写的,这个还蛮有意思的事情。

还有一个是多种信息的关联,这个场景是这样的,根据我们收集到的公告和行情的数据,我们可以对历史进行一个回测,我们知道哪种公告对股市的影响是最大的,这样的话我们可以选择去报哪一类公告,同时我们把历史的表现同时在历史当中与它最接近的那些公司,或者那些板块的一些表现给报道出来,这样的话达到一种通过公告通过市场关联公告这样一个连锁关联分析,产生这样一个稿件,我们觉得这个挺有意思的,我们希望在这当中继续发展,变成亲友参考价值的文章。

其实我们的技术整个数据产生其实是为了实现上面的那些案例,讲到机器人写作,很多人都觉得是带有一种科幻色彩看这个事情,但是对于我们来讲,这是一个实打实的数据产品、数据项目,把各个公开信息源的,宏观的、市场的、公告的、公关公司的、社交媒体的各大类数据,以最快的速度收集过来,进行解析、挖掘,最后根据各种不同写作场景做出来,在这个过程当中,目前用到最多的技术就是信息提取,现在的数据源大部分是文本类的,即使有数字,数字也是嵌在文字当中的,我们有很多信息提取,包括重要信息提举的技术。这方面就不展开了。

另外还有一套,刚才讲到的数据之间怎么样进行关联,讲到数据,如果要能够发现一些新的东西,很多时候要通过这种数据之间的关联,像前面介绍的,大家知道所谓大数据挖掘,最典型的就是沃尔玛的啤酒和尿不湿的案例当中发挥出来数据挖掘寻找关联,和以前的推理有很大的不一样,我们在这个过程当中在构建一套基于金融数据或者基于宏观、微观数据的关联架构,关联算法进行开发。我们开发了一个产品,DT稿王这个产品以后上线,有很多编辑在使用。目前一财的电视节目走马灯有一部分稿件是我们提供的,生成以后自动发布到后台,编辑看一下之后发布。第二个就是第一财经7×24小时的看板,全球的重要财经信息,我们也提供很多稿件。

另外一个方面就是第一财经的快新闻,主要是与公司相关的公告报道,我们还在建设过程当中,很有可能变成一个流量入口,我们会原创性的生成很多数据。另外一财成立了新媒体,一把中国的希望财经信息向海外报道,稿件的呈现形式是英文的,关于市场的关于公告的很多稿件也是DT稿王生成的。

我们是从媒体的角度做自动写作这样一件事情,希望在媒体领域发挥很大的效率,一方面把这些编辑记者的一些写作逻辑在这里面实现,同时媒体从互联网的途径来讲,应该是要获取流量的,从流量获取角度我们希望这种自动写稿的方式,能够提供更多的线索还有素材。

第二个阶段,能够帮助一些分析师进行预判,把这些分析逻辑用文本的形式用分析报告的形式体现出来。

第三个阶段,我们想更多的走向商业化的场景,在电商的环节在自媒体的环节提供自助写稿或者辅助写稿的方式。

这是未来的规划,1.0时代我们做定制化的写作平台,与此对应的我们使用的人工智能技术多数是一种简单逻辑的描述,来描述稿件结构,客户群的话希望是一些媒体机构,因为他们的写作场景非常集中,他们的需求非常集中。

第二个阶段我们希望是开放式的智能写作平台,这样一个平台能够帮很多的编辑自己创建写作场景。

第三个阶段,是一个写作助手,我们可以延伸到一些写字爱好者,把他们利用的技术用到深入学习,可以帮助这些写字爱好者,帮助他们写作。

我希望这样的一个PPT能够给大家一些思路,也希望如果你们有很多数据,希望数据能够产生相应的内容,我们也可以一起合作做这个事情。我预计在将来,机器靠自己的逻辑,协助人进行写作,谢谢大家!

原始链接:http://www.cmra.org.cn/newsshow.php?id=120