写点什么

独家|GenAI 年中回顾,2024 网络内容审核的 API 实战指南

  • 2024-06-21
    北京
  • 本文字数:2793 字

    阅读完需:约 9 分钟

GenAI,即生成式人工智能,正在不断推动各个领域的创新和发展。

一、年中回顾

2024 年被称为视频生成技术的爆发之年,各类 GenAI 在全球范围引领了一波又一波的潮流,真称得上是神仙打架。让我们共同回顾 2024 上半年的 GenAI 有哪些主要表现,并讨论,大量 AI 生成内容的涌现,又对互联网内容安全的格局产生了哪些影响?

1.AI 生成视频

北京时间 2 月 16 日凌晨,OpenAl 发布文本生成视频的 AI 模型 Sora,瞬时刷屏科技圈,成为 2024 年开年“顶流”。Luma AI 首发了视频生成模型 Dream Machine,可以通过文字或图片生成高质量的逼真视频,API 对全球免费开放。谷歌推出视频生成模型 Veo,可以对光照、镜头语言、视频颜色风格等进行设定,支持长视频生成。此外,谷歌团队发布 110 亿参数 Genie「精灵」,用一张草图就能创造出一个虚拟世界。


在国内,生数科技联合清华大学发布了视频大模型「Vidu」,支持一键生成 16 秒高清视频,还能虚构超现实主义画面。腾讯和清华大学、香港科技大学联合推出全新图生视频模型"Follow-Your-Click”,可以让图片中原本静态的区域动起来,一键转换成视频。极佳科技联合清华大学自动化系,发布超长时长、高性价比、端侧可用的 Sora 级视频生成大模型视界一粟 YiSu。6 月,快手 AI 团队自研“可灵”视频生成大模型,引发国内外热议,其生成的视频分辨率高达 1080p,时长最高可达 2 分钟(帧率 30fps),且支持自由的宽高比。

2.AI 生成图像

2024 年,GenAI 在生成图像方面取得了新进展。

Mistral AI 推出了全新专家混合(MoE)大模型 Mixtral 8x22B 磁力链接,模型参数规模高达 1760 亿。Stability AI 开源了全新文本生成图像模型 Stable Cascade,大幅度降低了对推理、训练的算力需求。谷歌推出 Imagen 文生图模型,具备更高的细节调整功能、逼真的光线和更少的干扰,能够从草图快速生成高分辨率图像。Adobe 发布了 Firefly 图像生成模型的最新版本——Firefly Image3,声称具有“摄影细节”的图像生成能力。腾讯混元团队联合中山大学、香港科技大学,联合推出全新图生视频模型“Follow-Your-Pose-V2”。七火山科技正式发布 Etna 文生视频模型,支持从简单文本到高质量视频的转换。


3.AI 生成音乐

今年,音乐创作呈现出了人机协作的趋势,AI 能创造更加丰富、多元的音乐作品。

腾讯发布多模态音乐生成模型 M2UGen,融合了音乐理解和多模态音乐生成任务,支持图片、视频生成音乐。网易云音乐旗下一站式 AI 音乐创作工具“网易天音平台”,具备词、曲、编、唱、混等音乐创作全流程的 AI 创作辅助功能。昆仑万维的“天工 3.0”基座大模型与“天工 SkyMusic”音乐大模型正式开启公测。


Adobe 推出了新的生成式 AI 实验项目——Project Music GenAI Control,允许用户使用文本提示生成音乐,然后直接编辑音频,无需跳转到专门的编辑软件。Stability AI 发布 AI 音频模型 Stable Audio Open,支持文本生成鼓点、乐器等音效。Al 初创公司 Suno 推出 V3 音乐生成模型,只需几秒即可生成 2 分钟的爆款音频。ElevenLabs 推出文本生成歌曲产品 ElevenLabs Music,用户仅通过文本提示就能生成各种音效、短乐器曲目、音景和角色声音。Pika 发布 Sound Effects 功能,可以给生成的视频自动配音效。

4.AI 生成 3D 模型

生成式 AI 的浪潮席卷而来,科技公司正在冲击 AIGC 的下一个突破口——3D 生成。

Luma AI 发布了一个文生 3D 模型的项目——Genie1.0,只需要输入一句文字提示,就能在 10 秒内生成四个高保真的 3D 模型。初创公司 NationAI 推出了生成式人工智能技术 Neuroid,可以根据类似 GPT 的文本提示,生成人形角色和四条腿动物的 3D 动画。Meta 与德国慕尼黑工业大学研发创新模型 ViewDiff,通过文本、图像或二者结合使用,就能快速生成高质量多视角 3D 图像 。A utodesk 推出了生成式人工智能项目——Project Bernini 的文本转 3D 工 具,致力于理解现实世界物体的存在方式。

浙江大学、蚂蚁集团、深圳大学联合推出了创新模型 MaPa,能通过文本直接生成高分辨率、物理光照、超真实材质的 3D 模型,可以极大提升游戏、VR、AR、影视等行业的开发效率。南洋理工大学、上海 AI 实验室等共同推出了一款名为 3DTopia 的文生 3D 基础模型,可以在五分钟内生成多样化、高精度的 3D 模型 。


除此之外,OpenAl 发布了全新的生成式 AI 模型 GPT-4o,并正式与 Apple 展开合作。

二、无法回避的挑战

从内容层面来看,GenAI 已经被大量使用和传播,例如某在线运动 APP 透露,其 5000 节官方运动课程中有 15%为 AIGC。可是,由于人工智能技术的复杂性和不确定性,其生成出来的内容会有无法控制的偏差,不仅可能误导用户,还可能对社会稳定造成威胁。


很多企业开始意识到 GenAI 的商业价值,并积极将其应用于业务场景中,但其不确定性也是一个无法回避的挑战,任重而道远。当下,如何选择高性价比的内容审核方式,把违规内容拦截在市场外,对 GenAI 的开发者和使用者来说十分重要。

三、用 API 接入内容审核平台

出于低代码、可视化、灵活配置等目的,本节以某大厂的 AI 平台为例,讨论怎么用 API 接入内容审核平台。

1.创建应用

应用是调用 API 服务的基本操作单元。

我们可以基于应用创建成功后获取的 API Key 及 Secret Key,进行接口调用操作,及相关配置。


填写完毕后,即可点击「立即创建」,完成应用的创建。点击左侧导航中的「应用列表」,可以进行应用查看。


创建完毕应用后,平台将会分配此应用的相关凭证,主要为 AppID、API Key、Secret Key。调用 API 接口时,可以使用这些凭证,进行 Access Token(用户身份验证和授权的凭证)的生成。


2.调用服务

调用 AI 服务相关的 API 接口有两种方式,两种不同的调用方式采用相同的接口 URL。区别在于请求方式和鉴权方法不一样,请求参数和返回结果一致。

调用方式一 请求 URL 数据格式

向授权服务地址发送请求(推荐使用 POST)。百度 AI 开放平台使用 OAuth2.0 授权调用开放 API,调用 API 时必须在 URL 中带上 Access_token 参数。

Access_token 是用户的访问令牌,承载了用户的身份、权限等信息。

grant_type: 必须参数,固定为 client_credentials;

client_id: 必须参数,应用的 API Key;

client_secret: 必须参数,应用的 Secret Key;

https://aip.baidubce.com/oauth/2.0/token?

获取 Access_token 有三种方式:通过代码的形式获取,使用网页调试工具获取,在线调试工具。

调用方式二 请求头域内容

在请求的 HTTP 头域中包含以下信息,API 认证机制 authorization 必须通过百度云的 AK/SK 生成:

  • host(必填)

  • x-bce-date (必填)

  • x-bce-request-id(选填)

  • authorization(必填)

  • content-type(必填)

  • content-length(选填)

四、发展方向

2024 年,图像、视频、音频和 3D 模型生成等领域的技术不断突破,使得 GenAI 的应用更加广泛和深入。以结合了大模型的低代码平台为基础,运用先进算法和技术手段,对 AI 生成的内容进行自动化审核,可以有效地减少不良信息传播,为社会稳定进步和业务健康发展保驾护航。

发布于: 刚刚阅读数: 6
用户头像

还未添加个人签名 2024-04-30 加入

还未添加个人简介

评论

发布
暂无评论
独家|GenAI年中回顾,2024网络内容审核的API实战指南_人工智能_爱AI的猫猫头_InfoQ写作社区