百度一直引以为豪,和作为未来发展方向的深度学习领域,昨天遭受了一个重大打击。据报道,百度深度学习小组在ImageNet测试中作弊,并已就此致歉;有消息表示,领袖科学家吴韧因此被解除劳动合同,即刻生效。
说起这次出问题的ImageNet测试,我作为参与过几乎所有BIG活动的一员百家作者,应该说非常熟悉。在硅谷的美国研究院,百度在介绍自己图像识别成果的时候,作为背景,把ImageNet的权威性和重要地位也详细讲述了一遍。可想而知,当时他们的脸上有多自豪,现在遭受的冲击就有多大。
同样的,这让我联想到5月初,全球三大权威杀毒软件测试机构分别宣布撤销360和腾讯2015年所有认证奖项的事件。也是在事发几天之前,两家还先后拿着自己高分的测试结果,向社会宣传他们的好成绩。和百度一样,360和腾讯也被称作在测试中“作弊”。
什么是“作弊”?
根据我有限的人生经验,“作弊”应该是“在考试时看到了标准答案”。如此比喻的话,360是加上一个默认关闭的强力杀毒引擎,等于“考试用计算器”;腾讯是针对测试做优化,也就是“跑分”,等于“贿赂监考老师”;百度则是超过限制多次提交结果,等于“做了好几遍卷子”。
那你说他们算不算“作弊”呢?反正360的态度是“抗议考试不公平,今后退出考试”。如果这事发生在高考,你就会知道这有多么滑稽。
也许你可以说,这三家的错好像并没有什么大不了的,不就是参加测试不规范,钻了个空子么?做10次测试和做40次测试取最好成绩只是量上的区别,没有本质区别;监考老师能被贿赂是因为老师自己有问题,“苍蝇不叮无缝的蛋”;明明有计算器这么好的东西,却非得用手算是多此一举。只要不是拿着正确答案抄,都不算作弊——然而说到这里,可能你已经感到心虚了。
对“作弊”的唯一定义,只能是“破坏考试规则——不管这个规则是什么”。规则规定了只能进行有限次数的提交结果,因此百度超过了次数限制,就是作弊;其他情况也是如此。
严重的危害
就算费了这么大力气提升的一点准确度被宣传的很厉害,我们普通用户在实际搜索中的“以图搜图”和“拍照识别”两个功能仍然根本达不到实用程度,闹出了不少笑话。我明白“千里之行始于足下”的道理,但始终用户都希望看到一些自己能理解的实实在在的改变。
这么说吧,如果重复进行多次测试的确可以提高识别精确度的话,那在实际产品中增加测试次数,让用户获得更高的识别率,也还算是有用的。如果360可以把它用于测试的增强版杀毒引擎默认开启,那对用户自然也是有用的。如果能用“忽悠考官”的办法来“忽悠”每一位用户,带来的不也是实际质量的提升吗?可是“忽悠考官”除了刷下分数,对普通用户而言没有任何实际的改善。这是我们要反对所有作弊行为的原因所在。
破坏规则的行为之所以恶劣,并不仅仅是因为它让钻空子的人获得了不正当利益,更是因为它让整个测试的结果没有了可比性,增加了考试的成本。所有正直的参与者,都必须因此进行额外检查,付出额外的时间和精力。
如果某个族群或者特定行业频繁出现作弊,这将迫使监管机构推出有针对性的对特定族群或行业的限制措施,带来一种自找的“种族歧视”。尽管种族歧视天生政治不正确,但根据统计学因素,一些国家还是完全可以对来自某国或某地区的人,在留学、就业、移民等方面额外限制。如果因此形成了“某国人就是喜欢钻空子占小便宜”的民众印象,更是难以扭转。
除此之外,相比已经知道标准答案的考试,在计算机科学相关的测试中作弊,危害尤为严重。
形如ImageNet的测试项目,对未知的结果发起冲击,实际上是一种科学实验,是人类探索未知的一部分努力。采用不同算法对未知项目进行机器识别,从而钻研出最有效的方法,是实现更高级别人工智能的基础。假设一种“作弊”后的图像识别算法得分最高,因此被多种项目引用,最终被应用到实际产品,甚至是工业或安全用途,后果不堪设想。
我们普通人一直带着尊敬和仰视的眼光看待包括百度美研院在内的研究机构,它们所关注的范围已经超出了我们的理解能力之外,我们只能通过它们自己的讲述,以及行业内公认的最高水平测试结果,来判断它们的地位。那么,如果它们自己的讲述有水分,如果行业测试因为作弊沾染了污点,我们又该相信谁呢?
昨天,百度已经开除了涉事团队的负责人。所谓危机公关的最好办法就是公布所有真相,坦白承认错误,保证以后改正。所以,这也许是百度在整个事件过程中做出的最正确的选择。它还需要未来持续不断的努力,来修补自己在学术界和普通大众当中留下的印象。
# 这篇是约稿。话说,百家在百度自家丑闻后还主动找人揭丑,真是少见的真诚啊。
