您当前所在的位置:官网首页 > 新闻资讯 > 公司新闻 >

为了故意刁难AI,科学家们制造了这1200个问题,超强AI被“打回原形”

鱼羊 发自 凹非寺

自从 IBM 的 Watson 在 “Jeopardy!” 智力问答竞赛中战胜人类冠军,人工智能真正理解人类语言这件事似乎变得触手可及。

但只要和Siri多聊几次天,你就会明白利来国际ag手机计算机还是会表现出“人工”的一面。

想要更好地理解人类语言,计算机必须接受更高难度的训练。

于是,马里兰大学的研究团队通过人机协作出了一个包含1200多个问题的数据集,来与计算机对抗。

Trick me if you can

马里兰大学副教授Jordan Boyd-Graber的团队提出了一个新的概念,human-in-loop对抗生成。

为了故意刁难AI,科学家们制造了这1200个问题,超强AI被“打回原形”

虽然 Watson 的战绩曾经惊倒众人,让人觉得AI几乎可以理解语言的含义,但过去三四年来,研究者们已经意识到计算机问答其实非常脆弱。

在智力问答中,许多问题稍作改动,人类高手仍能轻松作答,而AI则会被彻底愚弄。

举个例子,对于“哪一位作曲家的海顿主题变奏曲是受到了卡尔·费迪南德·波尔的启发?”这个问题,博学的AI能够轻松给出正确答案:约翰内斯·勃拉姆斯。

为了故意刁难AI,科学家们制造了这1200个问题,超强AI被“打回原形”

但是如果不提卡尔·费迪南德·波尔,而只是描述他的职业—维也纳金色大厅的档案员,那么AI就会傻眼。

所以,研究人员们都在努力创造更高难度的问题,即对抗样本,来迫使AI用人类的方式思考问题。

通常的做法是人类自己写问题,或者是让计算机自己生成问题。但问题非常明显:人在写问题的时候,并不确定问题里的哪些要素会混淆计算机。而AI生成器生成的问题,则容易陷入公式化,有时还会产生空白的,错误的,没有意义的问题。

那么,能不能让机器来帮助人类写出足以混淆计算机模型的问题呢?

团队于是搞出了一个交互式用户界面。

为了故意刁难AI,科学家们制造了这1200个问题,超强AI被“打回原形”

在这个界面中,人在输入问题的同时,计算机会把它的猜测按顺序显示在屏幕上,而那些计算机用来参考以生成回答的单词也会被高亮标注出来。

还用刚才那个例子来说明,AI在得出约翰内斯·勃拉姆斯这个答案的同时,会把卡尔·费迪南德·波尔在屏幕上标记出来,说明它是根据这个名字推断出了答案。

如此一来,输入问题的人只要在不改变问题原义的基础上,把卡尔·费迪南德·波尔这个词替换掉,就能生成一个成功的对抗性问题。

也就是说,人机协作就是human-in-loop对抗生成的核心。

Jordan Boyd-Graber教授是这样介绍他们的工作的:

大多数的问答计算机都没有解释他们是怎样做出回答的,而我们的工作能帮我们看清计算机实际理解的内容。

团队将这个框架应用在了一个叫Quizbowl的问答任务中,与Jeopardy不同的是,Quizbowl的问答模式是这样的:问题被同时读给两个竞争团队,谁先猜到答案就打断问题并回答。

为了故意刁难AI,科学家们制造了这1200个问题,超强AI被“打回原形”

益智问答爱好者和计算机携手,创造了1213个对抗性问题。

他们将这些问题整合成了开源数据集Qanta Adversarial,这个数据集涉及到了不同主题的6541个句子。

为了新的QA的效果,研究团队用上了三个模型:IR模型,循环神经网络以及深度平均网络

第一击

第一轮对抗性问题是针对IR模型生成的。RNN和DAN同样接受了。

为了故意刁难AI,科学家们制造了这1200个问题,超强AI被“打回原形”

问题难度升级之后,三种模型都备受打击,DAN的准确率就从54.1%下降到了32.4%。

第二击

为了故意刁难AI,科学家们制造了这1200个问题,超强AI被“打回原形”

从这个结果来看,针对IR的问题降低了所有模型的性能。不过,IR模型对于针对RNN的问题是鲁棒的。

人机竞赛

最后的重头戏,是人机大战。

为了故意刁难AI,科学家们制造了这1200个问题,超强AI被“打回原形”

现场,有两只人类队伍来与计算机PK。人类这边,是国家级Quizbowl玩家;而计算机这边,是最先进的QuizbowlStudio Ousis模型。

在2017年的NIPS共享任务当中,Studio Ousis曾经以的比分战胜了人类高手。

第一场比赛,使用了IR对抗性问题。形势完全逆转,人类以 的比分获胜了。

第二场比赛规模进一步扩大,有七支人类团队参与其中,而比赛中的400多个问题是针对RNN模型生成的对抗性问题。

这次,人类队伍这边有高中Quizbowl选手,也有Jeopardy!冠军队伍。

然而,连最弱的人类团队也击败了最强级别的AI。

为了故意刁难AI,科学家们制造了这1200个问题,超强AI被“打回原形”

1200问直击弱点,AI果然还有很长的路要走啊。

传送门

QANTA项目:

本文相关词条概念解析:

问题

问题,指要求回答或解答的题目;事态的严重性足以引人研究讨论,或尚待解决者。见《续资治通鉴·宋太宗太平兴国八年》:“进士免贴经,只试墨义二十道,皆以经中正文大义为问题。”

计算机

计算机,俗称电脑,是一种能够按照事先存储的程序,自动、高速地进行大量数值计算和各种信息处理的现代化智能电子设备。由硬件和软件所组成,两者是不可分割的。人们把没有安装任何软件的计算机称为裸机。随着科技的发展,现在新出现一些新型计算机有:生物计算机、光子计算机、量子计算机等。1954年5月24日,晶体管电子计算机诞生。1969年10月29日,通过ARPANET,首次实现了两台计算机的互联。计算机发明者约翰·冯·诺依曼。计算机是20世纪最先进的科学技术发明之一,对人类的生产活动和社会活动产生了极其重要的影响,并以强大的生命力飞速发展。计算机的应用在中国越来越普遍,改革开放以后,中国计算机用户的数量不断攀升,应用水平不断提高,特别是互联网、通信、多媒体等领域的应用取得了不错的成绩。1996年至2009年,计算机用户数量从原来的630万增长至6710万台,联网计算机台数由原来的2.9万台上升至5940万台。互联网用户已经达到3.16亿,无线互联网有6.7亿移动用户,其中手机上网用户达1.17亿,为全球第一位。

上证指数单周暴跌93点,2733注定不是低点 下一篇:没有了

在线客服

  • 点击这里给我发消息
  • 二维码

    微信扫一扫