专访顶象 CEO: 新一代 AI 如何增强验证码安全性
验证码,是一种普遍的安全防护手段。但正因使用场景广泛,针对验证码的攻击也非常常见——如果在网络上输入“破解验证码”的关键词,会出现 1740 万个搜索结果,包括“轻松破解”、“暴力破解”、“逻辑漏洞破解”等内容。
过去,业内有按时更新图片库、提升生成要素难度、二次验证的方式以降低验证码的安全风险。如今,随着生成式 AI、大模型能力的出现,提升验证码安全性的方式又得以多样化。
36 氪日前了解到,业务安全公司「顶象」已经利用大模型能力,更新自己的验证码防护类产品。
公司向 36 氪表示,过往针对验证码的典型攻击手法有机器破解和人工打码两种。
其中,机器破解主要通过识别图片中的相关验证要素进行破解,如识别滑动验证码的缺口,点选验证码中的文字要素、数字要素。在这种方式中,黑灰产会爬取验证码平台的图片素材,生成自己的验证码图片素材模型库,并进行训练,从而让程序迅速识别出遇到的验证码(如滑动、拼接、点选、旋转、计算等)类型。接下来,通过识别的结果,程序会使用相似度算法检索模型库,快速定位到相近的图片,并模拟人类操作,对图片进行旋转/滑动/选择/计算/拼接等,直至成功。
可以看出,这是一种技术门槛较高的方式。因此,另一种门槛较低的破解途径——“人工打码”应运而生。在这种方式中,黑灰产会建立或寻找一个任务平台,将获取到的验证码信息封装成任务提交到打码平台。这时,任务领取者就可能在打码平台接到这一任务,帮黑灰产完成打码。
基于验证码被破解的原理,业界提供的对应安全措施主要包括,加快验证码图库更新、提升验证要素识别难度、基于验证环境信息进行防御三种。
加快验证码图库更新,是指通过高频率的生产图片,保证新的验证图片实时更新,防止打码平台拖库。这种情况下,黑灰产的标注者需要源源不断的对新的图片进行验证,识别与破解成本较高。
提升验证要素识别难度,指的是基于深度学习和神经网络,生成一些难以被预测和重复的图片、元素,并在验证过程中加入时间戳或者随机数等动态变化的因素,增加破解的难度,帮助抵御机器破解。
基于验证环境信息进行防御,是说在验证码的验证环节,采集有辨识度的环境信息,配置规则和策略,通过辨别异常筛选出可能是黑灰产的请求,进行二次验证或拦截。例如,判断完成验证时的验证环境信息和 token 上报时的验证环境信息是否一致,对多次恶意攻击的 IP 地址进行拦截,限制验证码输入的次数等。
植入新一代 AI 能力的验证码产品,首先能够提升图片库的更新频率。
顶象 CEO 陈树华告诉 36 氪,为避免版权问题,验证码公司需要自己生成图片,但一个设计师的生产力最多可以达到一天十张左右。有了 AIGC,顶象生成图片的频率提升,从而降低了黑灰产快速破解的概率。陈树华表示,在过去的图库更新速度下,黑灰产快速爬取完图库的概率较高。"大家辛苦设计了很久,但黑灰产把图片全部爬下来,很可能是瞬间的一件事。接下来就可以发动针对性攻击。也就是说,整个对抗力量是不对等的,这个问题一直是行业痛点。"陈树华表示。
据介绍,使用 AIGC 工具后,顶象图片的生产效率提升上万倍。以单个 GPU 计算机为例,利用 AIGC 技术 20 秒就可以生成一张图片。使用 100 个 GPU 的小型计算集群,一天就可以生成 43 万 2000 张新的图片,一个月可以生成超过 1000 万张新图片。"AIGC 的生产能力是人工制图的上万倍。"陈树华说。
而提升图片更新效率,不仅能相对弥补攻防双方的力量差距,还能减轻业务安全公司员工的部分工作。"比如,图片库的配置工作就可以减少。目前看管理员配置效率提升了 50%。"陈树华介绍。
但其实,内容生成不是全新事物。陈树华告诉 36 氪,顶象早前已开始探索图片生成。据介绍,顶象原先采用将 3D 模型和有限的背景结合生成的方式,生成不重复的背景图片,希望解决传统验证方式使用有限集合背景图片,导致被破解的问题。
但这次大模型的能力让陈树华还是觉得打开了思路。原因在于,之前的生成方式不能做到图片质量的稳定,而这次基于大模型而生成的图片,不仅速度快,图片审美也得到了提升。"验证码的图片一定要是一眼看上去可接受的、自然的。否则用户是不会使用这类产品的。"他认为。
AIGC 为验证码安全提供的好处不止如此。据介绍,利用 AIGC,验证码厂商还可以优化已有的验证方式,甚至创造出一些对用户友好、但机器识别难度较高的新型验证码。比如,常见的滑块验证码,为保证有足够识别度,目标缺口的像素与周围的像素需要有一些差异,往往非常容易识别,能让黑灰产较轻易地判断出滑块的目标位置。利用 AIGC,可以设计出没有缺口的滑块验证码,要判断出目标位置还需要理解图像的语义,由此增加黑灰产的破解难度。
顶象为整体的使用效果做了测试,发现使用 AIGC 后,产品的风险拦截率提升 19%。对比来说,使用静态图库作为验证码图片时,图库更新一周以后,爬虫的拦截防御能力会出效果衰减,一个月左右,恶意爬虫通过率会达到 20%。使用 AIGC 生成图片后,爬虫通过验证通过率立即下降至 0.8%以下,且长时间维持在 1%以内。
当然,要合理使用 AI 能力,还需要其他技术能力支撑。
当前,顶象主要使用 Stable Diffusion 生成图片,正在测试 Midjourney 等其他大模型。但不论是哪种工具,都可能出现生成图片的图片不准确、不符合逻辑(比如人像中出现六根手指)的情况。为避免影响商用,顶象如今采用限定标签的方式,重点生成特定领域的、可控的图片。
据介绍,当前公司的 AIGC 图片的标签库,包括植物、风景、交通工具、食物以及生活用品等,按照小类划分,大概有 110 多种。目前标签库主要以常见的实物为主——如大海中的轮船、十字路口的红绿灯、大海中的轮船、十字路口的红绿灯等。后续,顶象计划将标签库拓展到生活家居、计算机等,客户也可以根据自己的行业属性、业务特点、业务场景自定义标签。
另外,生成的图片也要避免内容安全问题。陈树华表示,顶象当前会在产品内叠加更多的算法,用以检测内容。
在交付方式上,目前顶象的 SaaS 用户已经可以体验到加入 AIGC 能力后的产品。但私有化部署的客户,由于交付方式较复杂和客户方算力成本较高等因素,暂时没能参与其中。
陈树华认为,大模型的另一个好处是改变国内 To B 产业的交付方式。"大模型最大的特点就是智能化能力的提升。但要出现这一效果,必须让大量数据、服务得以汇聚。"他认为,如果客户都认可大模型的智能化能力,那么 To B 长期私有化部署的产业形态可能会减弱。
另一个不可忽视的可能性是,理论上,大模型的能力对所有人开放,这意味着黑产也可以利用 AIGC 增强破解能力——基于 AIGC,黑灰产或许不再需要采集验证码厂商的图库并打标,就能训练模型识别各种艺术字。在这种场景中,黑灰产可以利用 AIGC 自动生成大量汉字对应的各种样式的艺术字,作为数据集训练模型,让模型鲁棒地识别任何风格的艺术字。
"也许在不久的将来,艺术字验证码这种验证方式将完全失效。这也会进一步推动验证码企业提升验证方式的安全性和对抗性。"陈树华如此认为。
评论