返回 登录
0

Instagram的DeepText是如何识别出负面评论的

原文:INSTAGRAM UNLEASHES AN AI SYSTEM TO BLAST AWAY NASTY COMMENTS

作者:NICHOLAS THOMPSON

翻译:Diwei

译者注:本文描述了Instagram的DeepText是如何识别出网上的一些负面评论,从而帮助Instagram净化网络环境。以下为译文。


每个词在单独隔离时都至少有一个意思。但是,这个意思可能随着上下文环境甚至是时间的推移而改变。由中性词语构成的句子可能饱含敌意,比如“只有白人拥有权力”;同样地,貌似粗鲁的句子可能会在语境中表示中性的语意,比如这句“Fuck what, fuck whatever y’all been wearing”,它其实只是Kanye West的一句歌词而已。

通常人类都很善于分析这些语法,但机器就没那么轻松了。去年六月,Facebook推出一款文本分类引擎DeepText,帮助机器根据上下文情境解释单词。

DeepText采用了“词汇嵌入”的概念,模仿人脑语言区的工作方式。当系统遇到新单词时会像人类一样思考,并试图从上下文的其他单词推断含义,从而达到为评论分类并阻拦垃圾邮件的效果。

DeepText是用作内部沟通而开发出来的,它可以让Facebook的工程师快速整理大量的文本,创建分类规则,然后开发产品来帮助用户。

在了解了DeepText的强大功能之后,2012年被Facebook收购的instagram的高管们仿佛看到了一个机会,来应对instagram面临的一个非常棘手的问题:垃圾邮件。人们使用Instagram是为了拍摄照片,但是由于有人老是发微商广告,有人求互粉,还有人只是没完没了地重复“succ”这个词,很多人会选择不用instagram。

Instagram的第一步是招聘一组男性和女性,对平台上的评论进行分类,确定是不是垃圾邮件。人类训练机器来完成单调甚至是令人沮丧的任务,但是机器最终会做得更好。

在受聘人员整理了大量的垃圾邮件后,四分之三的数据被输入到DeepText中。然后,Instagram的工程师们开始创建算法,试图对垃圾邮件进行分类。系统分析了每句话的语义,并把来源考虑进去。

然后,这些算法利用了五分之一的数据进行测试以观察机器与人类的匹配程度,这些测试数据并没有输入到DeepText。最终,Instagram对这一结果感到满意,该公司于去年10月悄然推出了这款产品。随着算法的运行,垃圾邮件逐渐消失。

Instagram不会透露该工具减少了多少垃圾邮件,也不会揭秘该系统是如何运作的。因为向一个垃圾邮件发送者展示你的防御能力,他们会想出如何反击。但Kevin Systrom(Instagram的CEO)还是很高兴的。

事实上,他如此高兴以至于他决定了将DeepText应用到一个更复杂的问题上使用:消除负面评论。或者,更具体地说,消除那些违反Instagram社区准则的评论,或者再具体地说,正如该公司的一位发言人所说,“in spirit”。他说这些准则就像是为社会媒体平台制定的宪法。Instagram发布了一个1200字的公开版本,公开要求人们永远尊重他人,并且拥有一种更长的私人设置,员工可以使用它作为指导。

另外一个受聘团队开始工作。一个人查看评论,并确定是否符合准则。如果不符合,他就会将其归类为一种类似于欺凌、种族主义或性骚扰的行为。评分者都至少是双语者,他们分析了大约200万条评论,每条评论至少被评为2次。

训练后的DeepText可以将这些评论分为“霸凌”“种族歧视”“性骚扰”等类别。在本系统上线前,评估人员至少用了200多万条评论让它进行学习,而每一条评论至少学习两次,来保证系统的准确性。

目前系统仅能处理英语评论,但Instagram计划将垃圾消息过滤器扩展到9种语言,包括英语、西班牙语、葡萄牙语、法语、德语、日语、俄语、阿拉伯语和汉语。也就是说,它将会被更广泛地应用。

评论