返回 登录
3

【BDTC 2016】UIUC计算机系教授翟成祥:文本大数据分析与挖掘——机遇,挑战,及应用前景

阅读5194

【CSDN现场报道】2016年12月8-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办,以“聚焦行业最佳实践,数据与应用的深度融合”为主题的2016中国大数据技术大会在北京新云南皇冠假日酒店隆重举办。

2016中国大数据技术大会首日全体会议中, 美国伊利诺伊大学香槟分校(UIUC)计算机系教授翟成祥 带来了名为“ 文本大数据分析与挖掘:机遇,挑战,及应用前景”的主题演讲。

期间,翟成祥教授就以下三个问题发表了自己的观点:

  1. 如果把人看做拥有主观智能的传感器,就不难理解文本数据具有的广泛而特殊的应用价值。
  2. 若要解决目前机器对文本数据的理解困难,必须加强优化人机合作。
  3. 提出文本数据镜(TextScope)的猜想,暨集信息检索和文本分析挖掘于一体,支持交互式分析,并通过人机合作加入人类的决策支持。

美国伊利诺伊大学香槟分校(UIUC)计算机系教授 翟成祥

以下为演讲实录

大家下午好,很荣幸有这个机会在这里跟大家交流分享文本大数据方面的一些政策,希望我的分享能给大家一些启发,也希望同大家进行一些讨论,更希望能促进文本大数据在各个行业的应用。

人 = 主观智能“传感器”

首先我想谈一下我对文本大数据的一些理解。我认为文本数据可以看成是“人”作为主观、智能的“传感器”所产生的数据。人观察这个世界并进行消化后产生文本数据,作为对世界观察的报告。

如果从这个角度看,那么人跟其他的传感器会有一些区别:

  1. 人的观察能力非常强,可以观察所有的事情。人类可以看到整个事件,比如说现在有个大数据的会在北京召开。
  2. 人存在主观判断。比如温度传感器传出的是一个数字,温度是多少就传出多少度;但是人不一样,人通过感觉,感觉比较热就是热,觉得比较冷就是冷。
  3. 人有智能性。数据通过人加工以后已经不再是原始的形式,而是已经产生了比较高级的知识。

因此我们可以说,文本数据在所有的应用中都很重要,因为在所有应用领域中都会有人这个传感器在起作用。那么我现在来详细讲一下文本数据特有的应用价值。

正是由于文本数据中间包含了人对世界的看法和自己的观点,因此文本数据是一种可以用来挖掘人的行为、关联倾向的很好的数据源。从人所表达的信息往往最容易挖掘出人对某个事情的看法。

另外,文本数据往往表达了直接的知识,因此即使不是很大的文本数据也有很大的价值,原因就在于它的语义含量和知识含量比较丰富。

文本数据理解困难:必须优化人机合作

想要应用文本数据,就需要解决文本数据理解的困难。

比如这个句子:“A dog is chasing a boy on the playground. ” 计算机理解这个很简单的句子的过程是,首先词法分析,然后看哪两个词是拼在一起的,组成了什么意思,谓词表示的是什么关系。但是我们人类看到这个句子马上会有产生推理,比如你可能会想到这个男孩子很害怕。另外人类会产生更深一层的分析,即语用分析。人说话是有用途的,这句话隐藏的意思可能是要求主人把狗牵走,但是计算机要理解这个层面就非常困难但我们该相信,在未来还是能够达到的

所以总体来说,语义分析的现状还是很浅层的,只能做到句法分析或者实体的语义理解,而比较深层的还不能理解。又比如当处理大量的自然语言的时候,会有错误,有了错误以后往往给下面的应用带来更多噪音,这是现状。

因此我觉得现阶段最大的挑战是,怎么把这些不是很完善的自然语言技术,包括信息技术、机器学习、数据化技术,放在一起能够建立一个比较完善的产品。所谓完善的产品就是这个产品一定是有价值的,这样的例子并不少见,比如Google、百度这些检索,结果并不很精确,但是因为它能够帮助我们从很大的数据中找到极可能相关的数据,所以它给我们创造了肯定的价值。

和检索一样,对于文本分析我们也可以从这个角度去看。我们需要做到的是让人跟机器合作。就像在检索的时候,人给一个查询,机器给相应的文档,人再进一步交互。我觉得这个是关键,如果这一点是关键的,最大的挑战就是怎么对人机的合作进行优化。不是什么都让计算机做,而是让计算机发挥它的长处,让人来帮助计算机。如何将机器作为一个智能系统,和人放在同一个生态系统中综合考量,怎么样优化,这是很重要的。

文本数据镜(TextScope)

同样是感知,我们用显微镜可以看微观世界,望远镜可以看远处的事物。对于文本数据,它能拓宽我们的感知,可以让我们看到隐藏在数据背后的规律,或者让我们更快的看到这个规律,这就是一种比较完善的应用。

想象一下这个接口应该是什么样的,如果我们做成所谓的TextScope,这应该是一个交互式的面板系统,它可以支持很多方面的功能。

用TextScope我们能做什么呢?我本人在参与的一些项目包括:飞行安全方面、精准医疗方面、以及商业的智能分析方面。


更多大会精彩内容,请关注CSDN“2016中国大数据技术大会” 专题报道;微博@CSDN云计算,微信搜索“CSDN大数据”订阅号获取大会精彩资讯。

评论