内容审核:中国 GPT 医生面临困境,怎么保障信息的“安全流通”?
医学领域大语言模型发展迅速。谷歌的 Med-PaLM、升级版 Med-PaLM 2,在医学问题回答上表现卓越。国内医联推出的 MedGPT 基于 Transformer 架构,通过多轮问诊提升诊断准确性,能覆盖多种疾病,实现全流程智能化诊疗。这些模型不仅提升了医疗服务的效率与准确性,还展示了 AI 在医学领域的巨大潜力。
一、引言
随着大模型逐渐在 AI 世界占据主导,更多人意识到数据的重要性,甚至有业内人士称其为人工智能的“护城河”。以 ChatGPT 为例,它虽然可以快速、多角度回答问题,但在没受过训练的情况下,无法很好地胜任健康咨询的任务。可是,在医学领域,大模型对数据的需求,往往可能会触及到病人的隐私问题、医院的数据安全等。
2023 年,一份发表在权威期刊上的试验结果显示,ChatGPT 在根据现行临床指南针对心血管疾病预防保健提出建议时,虽然有 84%的回答是合理的,但是另外 4 个答案,不仅错误,而且有害,是严肃的临床诊疗中绝对不允许出现的。在更多试验中,还进一步发现了伦理、法律等方面的问题。
8 月 30 日,国务院常务会议审议通过了《网络数据安全管理条例(草案)》,明确提到“要厘清安全边界,保障数据依法有序自由流动”,为促进数字经济高质量发展、推动科技创新和产业创新营造良好环境。为了保障数据的安全,维护医疗领域的边界,我们不仅要在源头掐灭数据泄露的风险,还要对数据传输的过程中进行内容审核。
二、用技术检测风险内容
百度作为国内最早研究 AI 模型安全性问题的公司之一,其内容审核平台以视觉计算、NLP、ASR、OCR 等技术为底座,能对用户上传、发布或共享的内容进行内容风险安全审查,提示企业对不合规、疑似的内容进行重点关注。
1、独有的大模型能力
大模型能力是实现自动化、智能化、高效性和准确性的关键技术之一。内容审核基于百度海量数据训练优化,利用深度学习技术及算法迭代模型,识别准确率高,减少人工复查率,能有效降低企业运营成本。
测评发现,百度云内容审核的大模型能力主要包括以下几个方面。通过对文本进行分类和识别,判断其所属的类别或标签;对文本进行语义理解和分析,识别其中的关键词、短语、句子的含义和上下文关系;对文本进行情感分析和判断,识别其中的情感倾向;对图像进行识别和过滤,判断其中是否包含违规或不适宜的内容。
2、领先的审核能力
具备高并发、高吞吐、低时延等能力,且算法卓越,识别速度业界领先,毫秒级响应,可应对各种实时性业务需求。
审核维度丰富:紧跟监管需求,实时同步政府指令,提供业内最丰富的审核维度,其中图像审核具备恶心图、质量检测的独家识别能力。
审核粒度细腻:具备业界最丰富、全面的分类标签体系,并且持续更新。可根据业务需求,自由组合标签,让模型效果犹如“量身定制”。
3、灵活配置
提供灵活的自定义配置功能,内设 150+项细分审核模型标签并且持续更新,界面化调整审核维度和松紧度,5 分钟即可完成规则配置,高效适配多元化、细粒度业务场景的审核需求。
更有意思的是,对于业务中小众细分场景的模型需求,如果通用审核模型还没覆盖到,百度云提供接入 Easy-DL 零门槛开发平台,仅需少量数据简单标注,最快 15 分钟即可训练对应模型。
策略配置:可根据业务场景,灵活选择审核维度、细分标签、以及对应的审核松紧度,贴合业务场景。
数据统计:一页概览业务全貌;可查看各个接口按照时间维度的调用趋势,并可查看违规数据的类型分布及统计信息。
数据分析:可查看各个媒体类型的数据详情;支持导出全量多维度 Excel 表格,便于后续业务分析。
4、部署方式
内容审核平台支持公有云接入、私有化部署,公有云支持 API 和 HTTP-SDK。企业无需自建平台,可基于自身业务诉求,零门槛快速接入使用,灵活选用智能机审平台或人机协同审核平台。
三、用 API 接入内容审核平台
出于低代码、可视化、灵活配置等目的,本节介绍怎么用 API 接入内容审核平台。
1、创建应用
应用是调用 API 服务的基本操作单元。
我们可以基于应用创建成功后获取的 API Key 及 Secret Key,进行接口调用操作,及相关配置。
填写完毕后,即可点击「立即创建」,完成应用的创建。点击左侧导航中的「应用列表」,可以进行应用查看。
创建完毕应用后,平台将会分配此应用的相关凭证,主要为 AppID、API Key、Secret Key。调用 API 接口时,可以使用这些凭证,进行 Access Token(用户身份验证和授权的凭证)的生成。
2、调用服务
调用 AI 服务相关的 API 接口有两种方式,两种不同的调用方式采用相同的接口 URL。区别在于请求方式和鉴权方法不一样,请求参数和返回结果一致。
调用方式一 请求 URL 数据格式
向授权服务地址https://aip.baidubce.com/oauth/2.0/token发送请求(推荐使用 POST)。百度 AI 开放平台使用 OAuth2.0 授权调用开放 API,调用 API 时必须在 URL 中带上 Access_token 参数。Access_token 是用户的访问令牌,承载了用户的身份、权限等信息。
grant_type: 必须参数,固定为 client_credentials;
client_id: 必须参数,应用的 API Key;
client_secret: 必须参数,应用的 Secret Key;
获取 Access_token 有三种方式:通过代码的形式获取,使用网页调试工具获取,在线调试工具。
调用方式二 请求头域内容
在请求的 HTTP 头域中包含以下信息,API 认证机制 authorization 必须通过百度云的 AK/SK 生成:
host(必填)
x-bce-date (必填)
x-bce-request-id(选填)
authorization(必填)
content-type(必填)
content-length(选填)
四、结语
在接下来生命科学领域的尖端探索中,没有 AI 辅助工具的医生,很可能会远远落后于有 AI 辅助的医生。医疗行业是一个强监管的行业,任何新技术进入其中都会受到慎重的评估。同样,内容安全性、合规性对金融、科技、传媒等领域也至关重要。
大模型的白热化已经无法逆转,在数据流通的过程中加强内容审核,将是大势所趋。
版权声明: 本文为 InfoQ 作者【爱AI的猫猫头】的原创文章。
原文链接:【http://xie.infoq.cn/article/4bae82258bc6f646a6af53830】。文章转载请联系作者。
评论