当前位置: www.89677.com > 互联网 > 正文

你知道它是用来干什么的吗www.89677.com,谷歌验证

时间:2019-11-17 04:34来源:互联网
想必大家最近都被12306坑爹的验证码刷屏了,在这紧张的抢票节奏里,还要忍受验证码对智商的考验,生活也真是不容易。 文章作者:行者无疆  原文链接: 来源 | AI研究所 看到网站上

想必大家最近都被12306坑爹的验证码刷屏了,在这紧张的抢票节奏里,还要忍受验证码对智商的考验,生活也真是不容易。

www.89677.com 1

文章作者:行者无疆   原文链接:

来源 | AI研究所

看到网站上的奇葩验证码,网友们纷纷献计献策,我个人觉得难度最大的应该是下面这种了:

即使现在互联网已经渗透到我们生活的方方面面,但它依然只是现实的物理世界在虚拟的网络空间上按比特信息编码后的投射。

验证码的昨天、今天和明天

天天输验证码,你知道它是用来干什么的吗?

www.89677.com 2什么,你一个都不认识?图片来源:sinotf.com

这就意味着自动化程序同样可以模仿人的行为,同时,因为机器速度更快且不知疲倦,它会被用于批量在论坛、网站、app 中发布营销信息。而且,在监管不足的情况下,利润更高的行业往往底线更低,自动机器人发布的垃圾信息经常也和赌博、诈骗、色情等灰色产业有关。一些自动化程序还会尝试以「撞库」的方式窃取用户帐号、密码,给网站带来巨大的安全隐患。

为什么要使用验证码

你相信,验证码能够辨别出“你是人类还是机器人”吗?

然而,吐槽归吐槽,在这小小的验证码背后,其实有着许多有趣的故事。屏幕上的方寸之间,其实有着智力上的激烈交锋。在验证码不断发展的背后,是一场场来势汹汹的技术变革。而这场变革,我们每个人都身在其中。

www.89677.com 3

如果没有验证码,攻击者会使用有害程序自动注册大量的 Web 服务帐户,然后攻击者可以使用这些帐户为其他的用户制造麻烦,如发送垃圾邮件或通过同时反复登录多个帐户来延缓服务的速度。
然而,在大多数情况下,自动注册程序是不能很好的识别图片中的字符的。因此,为了防止攻击者编写程序来自动注册或者重复登录暴力破解密码,验证码技术应运而生。

在登录某个账号的时候输入验证码,已经成为再平常不过的事情了。不过不少网友抱怨,现在的验证码真是设置得越来越刁钻了。

验证码的起源

想必很多人都觉得12306的验证码“反人类”,但其实,“反人类”的验证码最初是用来"反机器"的。

1998年,康柏电脑公司(Compaq Computer Corporation)的四位程序员马克·李李布瑞吉(Mark D. Lillibridge),马丁·阿巴迪(Martin Abadi),克瑞斯那·巴拉特(Krishna Bharat)和安德雷·布罗德(Andrei Broder)向美国专利局提交了一份专利。

在这份专利里,他们提出了一种选择性限制计算机系统访问的办法(Method for selectively restricting access to computer systems)。他们提出这个方法的主要目的,是为了防止脚本机器人(bot)自动向他们的搜索引擎提交网址。

在这篇专利里,他们采用随机生成含有字符串的图片这一方法来生成验证码,并通过扭曲外观和添加背景来避免图片被OCR(光学字符识别)技术破解。

www.89677.com 4流程图:随机生成字符库→选取随机字符串→随机改变外观→添加背景→提交最终效果

它就是验证码的雏形。

验证码正是为了解决这样的问题而生的。它也是个自动化程序,不过存在目的是区分用户到底是机器人还是真实的人。

当前,很多网站为了防止用户利用机器人自动注册、登录、灌水,都采用了验证码技术。所谓验证码,就是将一串随机产生的数字或符号,生成一幅图片, 图片里加上一些干扰象素(防止OCR),由用户肉眼识别其中的验证码信息,输入表单提交网站验证,验证成功后才能使用某项功能。

www.89677.com 5

区分人与机器的验证码

www.89677.com 6

想必大家一定见过类似上面的验证码图案。而熟悉的验证码技术背后,隐藏的是这样一个很深奥的问题:

如何区分真人和机器?——即如何证明坐在电脑前的是一个活人而不是一段程序呢?

在这个问题上,一种解决方案是“图灵测试”,即“人类向计算机提问”。而验证码恰好相反,是“机器提问人类解答”,因而验证码也被认为是“反图灵测试”。

2003年,路易斯·冯·安(Luis von Ahn)等人提出了“全自动区分计算机和人类的公开图灵测试”,即CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)。

这个短语,正是验证码的名字。

而这就引发了一个新的问题:机器人向人类提出的问题,能让机器人解答吗?如果机器人能够识别验证码,那不是意味着这个验证码不再能够验证“人类”和“机器”了?

从这以后,各种各样的验证码和验证码破解层出不穷,程序员们的创意和才智在这方寸之间得到了尽情的发挥。而我们,也终于有幸体验到了买火车票之艰难。

自动生成的扭曲的文字和图案是最常见的验证码,虽然它可以有效地识别出很大一部分自动化程序,但它对真人用户的体验并不好。而且随着机器学习的发展,它的破解也越来越容易。

什么是验证码

不好意思这个字符我真的看不懂

程序员们智力的角逐

早期的验证码可能只是一串简单的ASCII字符,比如黑客们用

|-|3|_|_()

)-(3££0”

代表“HELLO”。这个后来发展成了火星文(leetspeak),o(╯□╰)o。

后来验证码变成了图片显示字符串或者数字的形式,这也是我们最常见的验证码。

www.89677.com 7

早期的验证码采用扭曲字符和梯度背景,然而好景不长,这样的验证码很快就被破解了:

由于图片中字符与背景颜色之间差异较大,于是程序员们可以利用算法将图片中的每一个像素点的值提取出来,然后判断哪些是背景部分,哪些是字符部分。这样将字符与背景分离。

接着,将分离出来的字符与“训练库”——也就是存有这些字符的资料库——里的字符进行最终识别。而且由于英文只有26个字母,而阿拉伯数字只有10个,这样的验证码识别难度也大大降低。

如果一切顺利,根据上面的流程计算机能很容易地识别验证码,并不需要人。这个验证码,也就被破解了。

于是,喜闻乐见的,我们迎来了中文验证码,庞大的中文字符库保证了验证码识别的难度(还混用了拼音):

www.89677.com 8

而不会中文的歪果仁则开始逆向思考验证码识别技术并进行针对性的对抗。他们把各个字母粘连起来,这增加了算法上分隔每一个字符的难度。并且每次采用不同的字体也能增加模式匹配的难度。

www.89677.com 9

而到了12306这个程度,考验的就不单纯是图案识别了,还有某些抽象思维的能力——比如我得知道“紫砂壶”到底是个啥,或者至少知道它长啥样,我才能选到正确的验证码图案。这,也就是我们俗称的“智商”……

www.89677.com 10

然而,这样的图片验证码也并不是一劳永逸的,有人展示了用网络上的识图算法来机器识别12306图片验证码的一种思路。原理大概是这样的:首先将验证码的图片分割成一个个单独的图片,然后将这些图片上传到机器识图的网站上,网站会返回下面的答案。

www.89677.com 11图片来源:zhihu.com

接着,只需要让机器识别出验证码的“问题”,也就是需要点击的图片是什么“东西”——在这个例子里是“紫砂壶”——最后让计算机一一匹配就可以了。

并且他认为12306的这一方法其实并不靠谱,存在三个问题:

1、图片过于复杂、混淆过多、条件太诡异时会挡住大部分正常用户

2、容易被枚举,题库太弱,不如字符组合可能性多

3、破解门槛不一定高于字符型Captcha

对于这个分析,我举双手双脚赞成。我买不到票不是智商低,而是因为我们属于被挡住的“大部分正常用户”,嗯,一定是这样的。

然后现在, 铁路总局已经表示,12306网站将调整图形验证码中图片的清晰度和分辨率,而且可能剔除根据后台统计出来大家反映最多的和错误率较高的图片验证码……

www.89677.com 12

“验证码”的英文表示为CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart),翻译过来就是“全自动区分计算机和人类的图灵测试”,顾名思义,它是用来区分计算机和人类的。在 CAPTCHA 测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答 CAPTCHA 的问题,所以回答出问题的用户就可以被认为是人类。 CAPTCHA 是由计算机来考人类,而不是标准图灵测试中那样由人类来考计算机,因此人们有时称 CAPTCHA 是一种反向图灵测试。

比如,铁道部购票官网 12306 的购票图形验证码,在 2015 年更新之后引发了全网大吐槽。不仅过滤掉了抢票工具,还有那些摸不着头脑的正常用户。路漫漫其修远兮,吾将上下找扳手与海豹。等下,扳手长啥样?海豹还是海报?

更多的……验证码?

当然,还有一些更奇葩的验证码。这些验证码已经变成了一种游戏,而不是单纯的为了区分人类与计算机了:

www.89677.com 13输入正确的验证码就可以将图片中的码去掉……图片来源:ticbeat.com

www.89677.com 14我的数学是体育老师教的,你们呢?图片来源:buzzedtip.com

www.89677.com 15会画画,走遍天下都不怕……然而手残怎么办?图片来源:twitter

面对越来越复杂的验证码,算法可能捉襟见肘,然而还有一种万能的破解方式,那就是:人工识别(Cheap or unwitting human labor)。即将验证码分发给分布式的客户端,客户端人肉识别,返回结果。

还有人专门开发了客户端软件,让没事干的大学生人肉识别验证码赚些小钱。如果在线人数足够多,任务下达后几乎都是秒回的,效率也是不错的。所以,识别好验证码也是一项赚钱的技能(大雾)。

Google 的验证码团队做了很多创新,比如创造性地把验证码用于纸质典籍数字化。而在扭曲文字、图片的主流路线之后,Google 的团队还尝试了新的思路,通过追踪点击行为等来识别用户是否是真人,用户只需要点击「我不是机器人」的复选框进行验证即可。

现在每天有多达上亿的验证码被人类识别出来,因此CAPTCHA的需求量十分巨大,CAPTCHA需要能自动产生并且评估正确性。此外,人类必须要能够快速地识别并输入验证码,否则容易惹恼用户以至于用户流失。对于CAPTCHA,可以引入人工智能领域的难题,来使现有技术短期无法成功破解。如果一种CAPTCHA没有被破解,那么就有一个可以区分人类和计算机的方法。如果CAPTCHA被破解了,那么一个人工智能的问题也就随之解决了。

www.89677.com 16

验证码还能干啥?

验证码也并非都是那么奇葩,它也可以用来做一些非常有意义的事情。

例如:卡耐基梅隆大学的路易斯·范安等人(对,就是前面提到的造出CAPTCHA这个短语的人啦)设计了一个名叫 reCAPTCHA 的系统,来进行古籍的数字化。

www.89677.com 17

reCAPTCHA将 OCR(光学字符识别)软件无法识别的文字扫描图传给世界各大网站,用以替换原来的验证码图片;那些网站的用户在正确识别出这些文字之后,其答案便会被传回卡耐基梅隆大学。

reCAPTCHA 在 2009 年被 Google 收购,而Google将这一技术发扬光大,不仅用来识别古籍,还用来识别Google街景的街道地址。所以,有一段时间,你会发现google 的验证码变成了某个门牌或者路标:

www.89677.com 18谷歌的验证码有时候是街景拍到的门牌号。图片来源:tumblr.com

在最新版本的 Google 验证码 reCAPTCHA v3 中,你甚至什么都不用做,系统就在悄悄核验当前的用户是不是机器人。技术正在让「验证码」越来越隐形,人类不必再为了自证身份去做「反向图灵测试」,但验证码的进步也带来了一些新的问题。

验证码的类型

验证码你好,你已成功打败全国 99% 的用户

验证码的未来

“反人类”的验证码,从始至终对抗的就不是人类,而是有着庞大计算能力却在模式识别、抽象思维上很弱的计算机。

然而,随着人工智能技术的进步,计算机在模式识别上也越来越强大,验证码也不得不走上越来越“扭曲”、“复杂“、“反人类”的不归路。验证码难度的提升,本质上反应了人工智能技术的进步。

而目前,无论我们多么吐槽12306的验证码,但至少,我们还能够通过它证明我们是真人,而不是机器。这在某种程度上反应了人类在智能上的优越性,至少现在,我们还是比机器智能优越。(或许有一部分小伙伴没法证明?)

目前,Google的算法在扭曲文本类验证码的识别率已经达到了99%,也就是说,这类验证码已经不能作为区分人类和机器的指标了,而总有一天,12306的验证码也会被破解,到那时,为了区分机器和人类,程序猿们又该设计出什么样的验证码呢?

验证码的一生,可以说正是人工智能技术不断进步的一生。而正因为机器越来越聪明,所以人类将不得不面对更多的挑战。或许有一天,人类的造物终将超越人类自己,人工智能终将超越人类,到那一天,验证码或许不复存在了,而人类又该何去何从呢?(编辑:Jerrusalem)

本文由十五言的科学写作训练专栏“科学人的秘密发动机”孵化而成。欢迎科学写作同好加入其中。

初代验证码 CAPTCHA:歪歪扭扭的文字是为了故意让机器人看不懂

文本验证码

网友们也忍不住自己制作一套高难度验证码。验证码的能力,超乎你想象!

卡内基梅隆大学校舍不大,学校排名也和常春藤盟校也有一定差异,但它有全美排名第一的计算机科学专业。

文本验证码方便计算机自动地大量产生,是目前应用最多的最广泛的技术。文本验证码主要靠图像变形和添加噪声。

www.89677.com 19

这所学校出了 13 名图灵奖得主,其中的一位,Herbert Simon 还因为把计算机科学和系统理论、运筹学结合用于管理决策问题,开创了「决策理论」而在 3 年后获得了诺贝尔经济学奖。

文本验证码破解难点主要在于字符的分割和识别。其中字符分割是破解文本验证码的关键。主要步骤是:第一步,分割字符,第二步,单个字符识别,其中单个字符的识别在现有的机器学习算法下可以很容易的识别。

是真的好男人,还是反义“好”男人

在严肃的学术研究之外,卡内基·梅隆大学还有一些对计算机和互联网行业影响深远的「小发明」,比如给了 emoji 产业灵感的第一个笑脸符号 :-),以及「烦人」的验证码。

所以防范对文本验证码的攻击的关键在于加大字符分割的难度。像Google等公司的验证码都是粘连在一起,分割难度大。 

国外的网友也遭遇过类似的经历,纷纷调侃——请在下列图中选择出“时尚达人”或“糖尿病患者”。这是在考验审美?还是读懂微表情?

2000 年,从杜克大学数学系毕业,来到卡内基梅隆大学读计算机科学博士的路易斯·冯·安(Luis von Ahn)和导师一起提出了验证码的概念,全称是全自动区分计算机和人类的公开图灵测试(英语:Completely Automated Public Turing test to tell Computers and Humans Apart,简称 CAPTCHA)。

图像验证码

www.89677.com 20

www.89677.com 21

图像验证码基于图像分类、目标识别、场景理解等问题,一般情况下比文本验证码更加难以破解,但是现有的图像验证码需要庞大的图像数据库,而且无法大规模产生,更糟糕的是,一旦数据库被公布,算法不攻自破。

我放弃登录

图灵测试由计算机先驱人物,「人工智能之父」阿兰·图灵提出,如果一台计算机能和人类对话而不被识别出是机器人即被认为通过图灵测试。验证码也是一种图灵测试,不过它的目的不是为了筛选出人工智能,而是识别出真实的人类用户。

声音验证码

这些仿佛是在搞笑的验证码经常让网友们做到怀疑人生:我是谁?我在哪儿?我为啥要填验证码?

一种最常见的验证码是由算法生成的扭曲的文字,这么做是为了防止被光学字符识别程序自动识别出来。

声音验证码以随机间隔播放随机选择的一个或多个人播报的数字字母,再添加背景噪声。声音验证码容易受到机器学习算法的攻击,而且相对于视觉上的验证码,用户友好性更低。对于字母的声音,可能农村地区的少部分群体会因为对于字母发音不熟悉而导致无法理解,而无法通过测试。

www.89677.com 22

还有一些更现代的方法包括在字母上加一条曲线、将不同的字母叠在一起或者添加复杂的背景。

验证码的使用

www.89677.com 23

www.89677.com 24

服务器端随机生成验证码字符串,保存在内存中,并写入图片,发送给浏览器端显示,浏览器端输入验证码图片上字符,然后提交服务器端,提交的字符和服务器端保存的该字符比较是否一致,一致就继续,否则返回提示。攻击者编写的robot程序,很难识别验证码字符,顺利的完成自动注册,登录;而用户可以识别填写,所以这就实现了阻挡攻击的作用。而图片的字符识别,就是看图片上的干扰强度了。就实际的效果来说,验证码只是增加攻击者的难度,而不可能完全的防止。

这些测试被称为CAPTCHA,“Completely Automated Public Turing test to tell Computers and Humans Apart”的缩写,意为“区分计算机和人类的完全自动公共图灵测试”,这个名词看起来极其科幻又神秘,但通俗的说法就是“验证码”。

图片验证码也大行其道,包括要求用户识别图片的物体,以及把缺失的部分拖到正确的位置和拼图等。

验证码的困境

它的诞生可以追溯到上世纪末,当时黑客非常猖狂,他们创造了一种能够大量重复编写信息的程序,伪装成人类用户,肆无忌惮地朝网络上倾倒 “僵尸”信息,垃圾邮件、垃圾广告、垃圾评论泛滥成灾。还有程序机器人恶意破解密码、恶意刷票,严重损害商家和消费者的利益。

www.89677.com 25

计算机程序可以一天24小时不间断运行,即使是在较低的识别率也可以在较短的时间内大量穿越CAPTCHA系统。所以CAPACHA的识别率需要低于0.01%才可以有效地阻挡自动化的恶意程序的攻击。
当然,也可以通过IP辅助来限制一台机器的尝试次数。

电子邮件提供商 Yahoo公司为了解决垃圾邮件的问题,找到了卡内基梅陇大学的学生路易斯·冯·安。2002 年,路易斯·冯·安的 CAPTCHA 验证码应运而生,赢得了众多网民的鲜花与掌声。2009 年,谷歌收购 CAPTCHA,将它应用在谷歌图书的数字化上。

不管形式如何,这些验证码有一个共同的原则:人类很容易识别,但对计算机来说非常困难。一位人工智能研究者在自己的播客中有一个更详细的解释,为避免 CAPTCHA 过难而使网站损失用户,通常要求人类用户通过测试的时间小于 30 秒,用户通过率大于 90%(引用自CSDN 用户 luolan9611)。

验证码的破解之道

www.89677.com 26

还有一个不被普通人知道的点,验证码被称为一种「图灵测试」,所以它在设计之初就有促进人工智能发展的初衷。

道高一尺魔高一丈,只有了解验证码是怎么破解的,才能设计出更好的验证码。

验证码的发明者路易斯·冯·安

根据定义,验证码的算法必须公开,这样做的目的是为了让破解验证码的过程是在解决对应的人工智能问题,例如图像识别、准确度更高的 OCR 等,破解者不必花费心思通过逆向工程推演算法。

破解主要流程

但是随着技术的发展,机器迎头赶上,CAPTCHA 面临新的问题。2014 年,谷歌让一种机器学习算法与人类进行了对抗,双方需要辨识一套极度失真的文本 CAPTCHA。结果是,计算机完成了99.8%的测试,而人类仅完成了33%。这就很尴尬了,机器人没被排查出去,真实用户倒是被拦截得死死的。

再次引用上文提到的研究者的博文:

1 图像采集:直接通过HTTP抓起HTML,分析出图片的url,然后下载保存。

随后,谷歌对此进行了改进,升级版就是现在我们常见到的reCAPTCHA。它的运行方式是什么样的呢?

CAPTCHA 机制的研究是一个双赢的局面。CAPTCHA 的设计和破解研究呈现出「设计 – 识别 – 再设计 – 再识别」的互相攀升现象,促使 CAPTCHA 研究不断向前发展,从而带来 CAPTCHA 机制的鲁棒性和可用性的不断提升。

2 预处理: 检测是正确的图像格式,转换到合适的格式,压缩,剪切出ROI,去除噪音,灰度化,转换色彩空间等这些动作。

首先网页中会显示出一个勾选的方框和一句“I’m not a robot”的字符。用户点击方框确认后,谷歌会用“风险分析引擎” 对该用户进行无缝分析。

reCAPTCHA:验证码还能用于纸质典籍数字化

3 检测:主要是找出文字所在的主要区域。

如果检测结果正常,则该用户可以顺利进入网站或账户。但如果检测结果异常,比如使用了 VPN 的用户就容易被认作是 “恶意机器人” ,该用户便会经历一个识别验证的过程,即按照要求在图像网格中选出目标物体。这个过程对于机器人来说,还是比较困难的。

验证码发明人路易斯·冯·安除了是个计算机科学家,还是一位企业家,但是是那种相信人性美好,希望借助技术,在创造商业价值的同时能附带创造社会价值的人。

4 前处理:做文字的切割。

www.89677.com 27

冯·安的博士论文完成于 2005 年,他创造了一个新概念「人本计算」(Human-based Computation),即把人的脑力和计算机的能力结合起来,完成两者都无法单独完成的工作。具体的实现方式上,「众包」是最典型的一种,冯·安也被工人是众包的先驱。

5 训练:通过各种模式识别,机器学习算法,来挑选和训练合适数量的训练集。

reCAPTCHA的常见形式

不仅是理论提出者,冯·安也是实践的先驱。验证码已经被广泛用于各大网站、app 中,有数据显示,这项技术在推出后的短短五年内,每天就有 2 亿个验证码在被使用。

6 识别:输入待识别的处理后的图片,转换成分类器需要的输入格式,然后通过输出的类和置信度,来判断大概可能是哪个字母。识别本质上就是分类。

但是局势再次反转。2016 年,伊利诺伊大学芝加哥分校的计算机科学教授 Jason Polakis,发表的一篇论文再次打破了谷歌的“围墙”。他使用现成的图像识别工具,包括谷歌自己的反向图像搜索,以 70% 的准确度解决谷歌的图像验证码。与之相似,还有其他研究人员使用谷歌的音频识别程序完成了谷歌的音频 CAPTCHA 挑战。

很快,他提出一个新的项目 reCAPTCHA,主要用于把互联网出现前的纸质典籍数字化。思路是这样的:验证码系统会向用户出示两个单词,第一个是正常的自动生成扭曲文字,另外一个则来自纸质典籍的扫描版,它们通常因为年代久远、纸上有污点等原因难以被 OCR 程序识别。

对验证码设计的一些建议

Polakis 表示,在基本的文本,图像和语音识别任务中,现在的机器已经拥有等同于人类的学习能力,甚至算法可能更好。而对于谷歌来说,自家程序打败自家 CAPTCHA,其内心苦闷可想而知。难道就没有一套合适的方案吗?

www.89677.com 28

1 在噪音等类型的使用上,尽力让字符和用来混淆的前景和背景不容易区分,尽力让坏人(噪音)长得和好人(字母)一样。

www.89677.com 29

用户输入验证码时,只要第一个单词输入正确就可以被判别为人类,输入第二个单词就成了「义务劳动」。系统会默认这个单词输入正确,并与其他用户的输入结果进行对比,如果多名用户的答案一致,这个词的数字化就完成了。

2 特别好的验证码的设计,要尽力发挥人类擅长而人工智能算法不擅长的。 比如粘连字符的分割和手写体(通过印刷体做特别的变形也可以),而不要一味的去加一些看起来比较复杂的噪音或者其他的花哨的东西,即使你做的足够复杂,但如果人也难识别,这样的验证码等于没有用。

CAPTCHA 的研究历程中,有着各种各样奇怪的尝试,以及悲惨的失败。研究人员为了寻找某些人类普遍擅长,但机器不会的东西,而煞费苦心。

不要小看这样一个词一个词的积累,推出之初,reCAPTCHA 每天就能录入 3000 万个字符。2011 年,它已经完成了全部的《纽约时报》数字化的工作,这份从 1851 年开始出版的老报纸有大量纯纸质版的内容。

3 从专业的机器视觉的角度说,验证码的设计,一定要让破解者在识别阶段,反复在低阶视觉和高阶视觉之间多反复几次才能识别出来,这样可以大大降低破解难度和破解的准确率。

www.89677.com 30

2009 年,Google 看上了这个项目的价值,并出手收购了 reCAPTCHA,它也被 Facebook、Twitter、CNBC 等使用。在帮助这些流量最大的网站抵御自动化程序骚扰的同时,Google 图书中难以被自动识别的扫描版的古老典籍同样借助 reCAPTCHA 得以数字化。

扭曲的字符CAPTCHA

www.89677.com 31

他们设置出了一种 CAPTCHA,让用户通过面部表情、性别和种族对人物图像进行分类;或是基于当地的童谣和民俗来设计 CAPTCHA,但是这种文化类的CAPTCHAs 带有满满的地域歧视的“恶意”——不仅针对机器人了,还针对了在不了解该地区的人类。

此后,reCAPTCHA 还被用于帮助机器学习系统提高图像识别率,运作原理和前述方法一样,机器难以辨别的门牌号、猫狗照片都被拿来当做验证码考人类。

再或是采用“阻碍图像识别”,例如要求用户识别出小猪,但这些小猪可能被制作成卡通形象,或佩戴了太阳镜;更高难度的是,他们要求用户从眼花缭乱的 Magic Eye里,识别出物体或字符。

识别验证码的同时,用户实际在帮机器学习系统标注训练集,所以,AlphaGo 背后的人工智能技术,可能早就有你的功劳。

www.89677.com 32

www.89677.com 33

眼花缭乱的Magic Eye,晕了

顺便提一下,在 reCAPTCHA 被 Google 收购后,冯·安还有很多基于「人本计算」的项目,比如「带着目的玩游戏」(Games With A Purpose,简称 GWAPs),游戏由两个人同玩,如果两名玩家对一张图片的描述一致即可得分,实际上,游戏的同时也在给人工智能标注数据。

如果以上方法都不能解决问题,那么还有这些——

2014 年,冯·安创办了一家更知名的公司——多邻国,这个学外语的应用同样采用「众包」的模式,用户在免费学习一种外语时,也在反过来协助建构多邻国的语言课程,让其他人也能多学习一种语言。

游戏类的 CAPTCHA 也已加入战斗,这种验证需要用户将物体旋转到某个角度或将拼图块移动到位,“游戏指令”可以用文本给出,或者更高级一点,以符号和游戏板的上下文来暗示。还有的研究人员试图使用相机设备或 AR,来进行交互式证明,比如按照指令做个奇怪的姿势或表情什么的。想登录邮箱,先龇牙咧嘴一下。

NoCAPTCHA:不用输入字符的新验证码,以及它带来的隐私风险

www.89677.com 34

一家公司的「基因」通常和个人一样,与生俱来难以改变。

B站用户登录时的拼图验证

收购 reCAPTCHA 后,Google 对它进行了改进,以 Google 的方式。

研究员绞尽脑汁也没办法完完全全阻挡住机器人前进的脚步。事实上,许多测试所存在的问题,并不一定是机器人太聪明了。从某种角度理解,这听起来更像是人类对它们的嘲讽。

2014 年,Google 推出了新的验证码系统——NoCAPTCHA reCAPTCHA,名字有点拗口,核心是不需要输入验证码的验证系统,用户只需要点击一个「我不是机器人」的复选框,Google 就能判别你是不是真正的人类。

事实上,人类在语言,文化和经验方面具有极大的多样性,如果忽视这一关键,去制作测试,就会生产出如图像处理这样的粗暴任务。而这种任务正是机器人,或是 AI,将会愈加擅长处理的事情。

reCAPTCHA 的口号也从「别发垃圾信息了,读点书吧」(Stop Spam. Read Books),变成了验证码最初的目的「对人类简单,对机器人困难」(Easy on Humans, Hard on Bots)。

www.89677.com 35

NoCAPTCHA 的工作机制是跟踪用户点击验证框之前、当时和之后的行为,比如在网页上花费的时间,从而来判断是否是人为操作。

1950 年,计算机科学之父艾伦·麦席森·图灵,发明了图灵测试——测试者与被测试者隔开的情况下,测试者通过一些装置向被测试者随意提问,并轮番更换测试者。多轮测试中,机器需要“蒙蔽”30%的人类测试者才能通过,并被认为具有人类智能。

如果你被误判为机器人,还有一个「申诉」的机会,还是从一堆图片中选出正确的目标。

2014 年,机器人假扮成了一名英语很差的 13 岁乌克兰男孩尤金·古斯特曼(Eugene Goostman),参加了图灵测试。结果,它成功骗过了 33% 的人类测试者,首次通过了图灵测试。这个事件震惊全球,但也并不能成为机器人完胜的铁证。毕竟,裁判们只有几分钟时间进行测试,如果时间加长,他们很有可能会发现真相。而图灵测试最原始的法则,在当下也不能够完全适用了。

www.89677.com 36

www.89677.com 37

www.89677.com 38

假扮乌克兰男孩的机器人尤金·古斯特曼

2018 年,Google 再次升级了 reCAPTCHA,在这个被称为 v3 的版本中,用户已经连「我不是机器人」的复选框也看不到了,系统会在背后悄悄分析用户浏览网站的方式,并根据其行为的恶意程度给出一个风险评分。如果用户评分过低,网站可能会要求用户输入更多的信息来证明自己的身份。

www.89677.com,尽管图灵测试存在弊端,但仍被不少人奉为检验机器是否具有智能性的终级标准。现如今 CAPTCHA 成为图灵测试最为广泛的应用,俨然成为了人类与机器的重要竞争项目。

目前,已经有 65 万个网站使用了最新的 reCAPTCHA v3,而使用 reCAPTCHA 的网站超过了 450 万,包括 top 1000 网站中的 25%。

2017 年,潮牌 Supreme 的官网为了对抢货机器人进行管制,启用了 reCAPTCHA,似乎从此往后 Supreme 的粉丝们将会拥抱一个公平的购物环境。但是道高一尺魔高一丈,就在 reCAPTCHA 上线的几个小时后,某 Supreme 专用机器人网站就向官方下了“挑战书”。他们高调地宣布,已开始研究 reCAPTCHA 的破解方案,并将破解工具命名为 2CAPTCHA,仅售价 5 美元。你的艰辛努力,我 5 美元就让它付诸东流!

在 Google 看来,这是最好的体验,用户不需要任何输入,而且它很难被破解程序学习。唯一的问题是,Google 掌握了越来越多的用户隐私。

www.89677.com 39

据 FastCompany 报道,两位研究者对 reCAPTCHA v3 进行了测试后发现,用户是否使用 Google Cookies 是决定评分的一个重要因素。也就是说,如果用户选择让 Google 记住登录信息的话,会得到更高的分数,没有登录 Google 帐号,或者使用 VPN 或者洋葱浏览器通常会被提示高风险。

来呀,battle呀

www.89677.com 40

除了 Supreme,Nike、Adidas 等品牌都在与抢货机器人的斗争中,苦苦挣扎。但机器人的攻势绝不仅局限在消费领域,他们在科学界也得意地举起了胜利的大旗。

另外,使用 reCAPTCHA v3 的网站被鼓励在网站的每个页面放置 reCAPTCHA v3 代码,而不只是在登录页面,因为 reCAPTCHA 系统会跟踪用户的所有浏览行为进行分析。

也是 2017 年,美国的 Vicarious AI 公司在杂志《Science》发表文章,详细地描述了他们的AI是如何轻松破解CAPTCHA。研究者们向哺乳动物的视觉皮层学习,借鉴了其处理图像的方法,并构建了一套全新的算法。

两个因素结合,Google 可以获得几乎所有的用户行为。在 FastCompany 的报道发出后,Google 确认,用户使用的硬件信息即设备上的软件会被发送回 Google 服务器,但它表示,获得的结果「只用于分析用户行为,不用于个性化广告推荐」。

这套算法可以通过识别物体的轮廓及其表面的平滑度,获取信息并创建关联。经过多次的信息传递,可以在一定程度上实现对目标物体的识别。这套算法的准确性,比其他性能一流的模型高出了1.9%左右。

2018 年,Facebook 遭遇了史上最大的危机,除了商业上的广告收入增速放缓,在监管和公众层面,作为最大的社交网络和在线广告公司之一,Facebook 对用户隐私保护不力激起了前所未有的质疑。Google 也牵连其中。但一个不可逆转的趋势是,我们的一举一动都在被互联网巨头「记录在案」,从这个层面来看,在隐私保护上,监管部门应该对大公司有更高的要求。

www.89677.com 41

Vicarious AI发表的文章

这对 CAPTCHA 提出了更高的要求。Polakis 认为,“CAPTCHA 更需要了解跨文化领域,可以同时与来自希腊、芝加哥、南非、伊朗和澳大利亚的人合作。它应该具有普适性,而不是和某个特定人群捆绑。与此同时,还需要给计算机制造困难。这意味着,人们能做的事情非常有限。”

www.89677.com 42

弄清楚如何快速修复与提升 CAPTCHA,可能又是一个深奥的哲学问题:人类共有、且机器人不可模仿的品质是什么?人类又是什么?

www.89677.com 43

也许,我们的人性不是通过人类是如何执行任务来衡量的。机器人检测公司 Shape Security 的首席技术官 Shuman Ghosemajumder 表示,不管是游戏还是视频形式的 CAPTCHA,最终都会被打破,他更倾向于观察用户的行为,顺着踪迹寻找答案。

Ghosemajumder 说:“一个真正的人类对自己的运动功能,并没有很好的控制能力,所以他们不能在多次交互中连续不断地移动鼠标。但是机器人可以在不移动鼠标的情况下与页面交互,或者非常精确地移动鼠标。这是人类与机器较大的区别。”

www.89677.com 44

是人类还是机器?这是一个问题

谷歌的 CAPTCHA 团队也有类似的思路。去年年底,谷歌宣布的最新版本 reCAPTCHA v3 使用了“自适应风险分析”。团队的产品经理 Cy Khormaee 介绍,谷歌会观察网站上的“正常流量”,以此为标准,来检测“异常流量”,并进行评分。倘若有可疑情况,网站所有者可以选择向被检测用户提出“挑战”,例如密码请求或身份验证。

简而言之,就是通过分析人类的行为特点作出总结,利用这些特点与机器人行为进行比较,以此来判断出用户是人,还是机器人。

www.89677.com 45

reCAPTCHA认证成功

在《最有人性的人》一书中,作者布莱恩·克里斯蒂安对图灵测试比赛提出质疑,他认为在对话中证明你的人性实际上是相当困难的。机器人制造商已经发现了通过测试的秘诀——不是让机器人成为最聪明的谈话者,而是利用逻辑混乱或是拼写错误来回避问题。

www.89677.com 46

因为,人类是会犯错的。

现在看来,世界上使用最广泛的图灵测试 CAPTCHA 会遇到全新的挑战——不是机器人飞速进步的识别能力,而是它们的犯错能力。机器已开始模仿会犯错、误点按钮的人类了。Ghosemajumder 说:“我认为人们已经意识到,AI 更需要模拟一个普通人类,或者愚蠢的人类。”

我们总认为机器人是极度聪明的,但是当它开始出错,和日常的你一样犯迷糊的时候,你还能辨认出站在你身边的,是人还是机器人呢?

参考文章

1] Josh Dzieza.Why CAPTCHAs have gotten so difficult.The Verge

2] NOWRE.Supreme官网用上了CAPTCHA,作弊机器人的末日真的来了吗

3] 云头条.验证码已无效:AI彻底击败图灵测试的安全机制

4] Wikipedia.reCAPTCHA

原标题:如何证明你是人类,而不是机器人?

来源:AI研究所

编辑:Major Tom

编辑:互联网 本文来源:你知道它是用来干什么的吗www.89677.com,谷歌验证

关键词: