陈运文:用数学的方式“断文解字”
发布时间:2019-05-27 报送来源:东方网

陈运文:复旦大学计算机专业博士,达而观信息科技(上海)有限公司创始人及董事长,主攻计算机阅读理解文字。

科创感言:上海是最好的创业热土,“张江男”踏实肯干。 

陈运文的办公室名叫“最大熵”,是一种算法,公司其他房间也都以算法命名,可见他对数学的喜爱。在复旦攻读计算机博士学位时,他想到要把自己的数学天赋用在攻克计算机阅读理解文字上。此后,他一头扎进文本数据的世界,用数学的方式“断文解字”。 

2015年,他创办达而观信息科技(上海)有限公司(下称“达观数据”)。眼下,已有几百家企业正在使用达观的语义理解人工智能产品。2018年,达观数据获得我国人工智能领域含金量最高的“吴文俊人工智能科学技术奖”。 

陈运文说,迄今为止,文本智能处理已经走过了符号主义、语言规则、统计学习、深度学习四个阶段。在去年底斯坦福大学推出的考验阅读理解能力的SQuAD大赛上,计算机的英文阅读能力首次超过人类,这意味着人们距离人工智能协助人类“断文解字”的目标,已经很接近了。 

和英文相比,计算机“理解”中文更难。比如,如何让计算机知道“陈运文”是一个名字呢?他让计算机熟读百家姓,这样当计算机再次读到“陈”这个字时,就知道它可能是一个姓,再通过“喂食”大量文本,计算机可以用统计学的办法留意到人名搭配的词语,经反复练习后,当计算机再次看到“陈运文”时,就知道这是一个名字了。“古人常说‘读书破万卷,下笔如有神’,我们发现,这句话对计算机非常适用。”陈运文说。  

创办达观数据前,陈运文属于国内互联网产业第一批“弄潮儿”。2011年,他所在的大数据团队就开发出了一套个性化的新闻推荐系统。2015年,他辞去百万年薪的工作选择创业。那时,他的身边已经有了一支好团队,团队成员曾在各种世界计算机程序大赛上披荆斩棘。“我们四年间写了两三百万行代码。”这意味着,团队已建立起一个全新的文字坐标系,这使得它已经能够帮助人类处理许多复杂的日常工作。 

“文字这个东西,越做越有意思。”陈运文说,他还有更大的目标,希望未来5到10年国内一半的企业能用上他们的系统。他更希望为普通消费者研发能处理文本的“小秘书”——它能帮你润色文章,甚至只要告诉它提纲,就能帮你写出思路清晰的文章。