写点什么

借 AI 之势,打破创意与想象的边界

  • 2023-03-29
    浙江
  • 本文字数:4061 字

    阅读完需:约 13 分钟

借AI之势,打破创意与想象的边界

IMMENSE、36 氪|作者

01 “未来是属于 AI 的”


3 月 2 日,内容创作圈大地震。


就在 3 月 2 日凌晨,OpenAI 宣布开放 ChatGPT 本体模型 API,其价格为 1k tokens/$0.002。也就是说,从这一天开始,任何企业都能让 ChatGPT 为自己打工,而价格仅仅是每输出 100 万个单词 18 元人民币(2.7 美元)


如果对这个价格没有概念的话,举个例子。今年,河南省鹤壁市淇县某机动车维修店招聘文案编辑,店里开出的最低薪酬是 2000 元/月,学历不限。


图片方面,早在 ChatGPT 走红之前,AI 绘画早已引发了艺术圈的一场大地震。


去年 9 月,一幅由 AI 创作的绘画作品《太空歌剧院》获得美国科罗拉多州艺术博览会数字艺术类别冠军,几乎标志着 AI 作画的“AlphaGo 时刻”。


《太空歌剧院》(Théâtre D'opéra Spatial)


这幅作品是基于 AI 生成的画作加上人类画师的后期绘制,这一点被业内人士大为诟病,指责作者以 AI 为噱头,实际上依旧需要人类加工。


这些质疑 AI 作画能力的人忽略了一个重要因素——进化。


人们往往极大低估了 AI 大模型的学习与进步能力。仅仅在几年之前,人工智能还是被戏称为“人工智障”的存在。人们时常拿间或出现的“翻车”案例证明 AI 与人类的差距,却忽略了这项技术在最近数年间突飞猛进的进化能力。


在知乎“AI 绘画半年了,到目前为止,AI 绘画让多少画师失业了?未来又会有多少?”的这条问题底下,3202 人点赞了同一条回答:


“AI 对美术行业的冲击是巨大的,这个效应会在未来两三年随着显卡升级大爆发,美术行业会变的卷中卷,50%的人可能面临转行。”


“……我只是在做劝退而已,我希望新人不要跳火坑了,未来是属于 AI 的。”


也许有人认为,文字与图片都是高度结构化的信息,能够被轻易替代无可厚非。但是,视频内容信息量大、非结构性数据多,是 AI 尚未攻克的坚固堡垒,也是内容创作者最后一块自留地。


事实并非如此。


早些年 DeepFake 换脸带来的恐慌暂且不论,近年间,谷歌、Meta(Facebook)陆续发布 Phenaki、Imagen Video、Make-A-Video AI 视频自动生成模型,其效果有时足以以假乱真。


没有创作者能够和这样的力量抗争。

02 “没有人的文明,毫无意义”


在 ChatGPT 刚火起来那阵子,网上流传过一个笑话:


“快进到 10 年以后,乙方方案全部由 ChatGPT 生成,甲方方案全部由 ChatGPT 审核。双方合作大半年,一点工作没干过。”


这个笑话引人发笑的荒谬之处显而易见——双方的工作都没有意义。


如果更进一步思考,什么是意义?


无独有偶,在今年春节档爆款电影《流浪地球 2》中,一句广为流传的台词给出了答案:“没有人的文明,毫无意义。


是的,ChatGPT 本质上依旧是为人类所设计、制造、使用的工具,认为这项技术将会替代人类文明实际上是一种本末倒置。


就像历史上其他人认为怀疑自我存在意义的时刻一样,在工业革命之后,电视、计算机、手机、互联网、云计算,这种种新兴科技产品都曾在不同时间段引发过人们的恐慌。


人工智能也不例外。早在 1997 年,IBM 的深蓝计算机就已在国际象棋比赛中打败了世界冠军卡斯帕罗夫。全球在深蓝赢得比赛之后陷入了兴奋与恐慌,“机器将会在未来取代人类,占领地球”的言论层出不穷。


可事实上,20 多年过去了,如今我们每一个人的智能手机算力都足以与当年的深蓝相匹敌,但人类文明并没有因此而终结。


正如美国政治记者与作家诺曼·卡曾斯在其 1935~1974 年所撰写的《人的选择》一书中所载:文明的建立,靠的不是机器,而是思想。


21 世纪的今天,机器占领人类文明的事件不但没有发生,科技、工业、自动化的进步反而让边远山区通水通电,让大规模消费日用品的价格低到人人可享,让每一个人的生活都比我们两个世纪以前最优渥的祖先都要更便捷、更丰腴、更自由。



即便是如今引发大量恐慌的 ChatGPT 类 AIGC 技术,也在不断被运用于普惠人类、降低服务门槛的地方。


比如,基于人口统计学、相关的病史或流行病学风险因素,Glass.health AI 能够辅助医生更快速、更准确地诊断病人;


而基于 AI 文档分析技术,Humata.ai 能够快速帮助用户提取文档中的有价值信息,降低技术文档、法律文档等专业文件的阅读难度,让缺乏相关训练的普罗大众能够更好地保护自身利益;


基于 AI 文本摘要和 TTS 技术生成的口播文案,AI 绘画生成的贴纸、特效等不断应用在短视频生产领域,进一步降低了短视频生产门槛,越来越多的内容创作者搭上了短视频的“快车”。


其他关于 AI 写作、AI 绘画、AI 视频等的 AI 创作工具则更是层出不穷。小到脚本错别字检查,大到分镜设计与画面排版,曾经困难重重的内容创作环节被不断拆解重构,降低入门门槛。


而 AI 与 AI 使用者的关系,也在这一次次的工具迭代之中,被时代所不断解构、重组、赋予了新的内涵。


举个例子,2021 年 5 月,安徽的一名小伙子突然在网络上走红。


此前的几年间,通过 AI 技术,他累计帮助了超过 500 人“复活”了亲人们的老照片。那些泛黄模糊的照片经过他一顿操作,不仅变得更清晰明亮,还能朝着电脑前的亲人眨眼、微笑、摆头。


看着自己 6 岁时就去世的父亲重新在电脑屏幕上“活过来”,那些哭得情难自禁的情景,也许才是 AI 与文明的真实意义。

03 是颠覆者,更是解放者


在祛除了对 AI 的盲目崇拜与盲目恐惧之后,我们终于可以稍微理性地看待 AIGC 这回事。


一直以来,在内容创作的过程中,都存在着大量的重复动作,它们繁琐、冗余、耗时极长却又本质上与创作无关


比如,文稿校对者为了找出错别字,一次又一次地重复阅读一篇文章,读得眼睛都发酸、发胀。


再比如,画家灵感迸发,在画布上挥毫而就一幅巨作,然后花上十倍的时间对整幅画面的每一处细节重复勾线、加阴影、卡闭塞、勾线、加阴影、卡闭塞……


视频制作则更是重灾区。视频拍摄的原始素材动辄长达几十、甚至几百小时,后期剪辑师不仅要用肉眼逐一观看,还要一而再再而三地对其进行重复识别、筛选、剪辑切割,在 AI 出现之前还要用耳朵一遍遍听原片内容,手动添加字幕。



这些过程既无趣,又冗长,而且与真正的人类创造力几乎毫无关系。创作者们的大量精力都被分散到了这些重复环节,真正用来创作的部分少之又少。


AIGC 对于内容创作者的意义,正是将他们解放出来,让创作者的精力更好地用于探索创意极限,而重复、冗杂的工作交给 AIGC,让创作者的产能不再受到制约,让优质内容能够爆炸式增长。


听起来这一天似乎很遥远,但实际上,由 AI 辅助生成的创意内容已经来到了我们身边。


去年冬奥期间,央视体育新媒体和总台技术团队联合阿里云视频云、达摩院,打造了“AI 云智剪”智能视频剪辑工具。


基于阿里 AI 视频理解技术 EMC2 与阿里云强大的流媒体处理能力,AI 云智剪能够实时解析并提取赛事视频中的运动员信息、精彩动作、镜头类型、赛程信息、运动员特点等,并自动生成多种类型的集锦视频,大规模解放剪辑师压力。


去年整个冬奥期间,阿里 AI 云智剪共生产出 39878 段素材,时长超过 200 小时,覆盖超 200 场比赛。


除了 AI 视频生成之外,通过和云计算结合,AIGC 还能够从根源上颠覆电视台与演播室的工作流程,将原本庞大、复杂、昂贵的演播环节,全部集成在一台普通的手机上。


比如,在连续多届的全国两会期间,人民日报新媒体记者的手机里就装进了一款内容创作增效“神器”:两会“AI 编辑部”移动版。


这是基于阿里云视频云的“AI 编辑部”衍生而来的定制化智能媒体生产产品。通过“AI 编辑部”,记者所拍摄的现场视频素材既能由 5G 网络同步回传后方,也能由记者在前方即时剪辑。从发现线索、获取素材,到拍摄制作、审核签发,以及发起直播、连麦访谈等系列动作,都能通过一部手机实时完成。


在当前的 AIGC 领域,AI 全自动生成的文字与图片,在不少时刻都几乎能达到“以假乱真”的效果。在视频制作领域,对比文字、图片,视频的信息量最大、非结构化数据最多,AI 需要对于视频内人物、物品、场景、关系等高阶信息进行理解,加之视频制作本身对于审美、节奏、画面、BGM 的极高要求……


AI 全自动生成过程虽然略显漫长,但并不是那么天方夜谭的未来。


冬奥会的 AI 云智剪,面向特定的赛事场景,限定了素材集的范围,套用成熟的编排模式,由 AI 负责素材的预处理,并按预设模版进行编排,这是 AIGC 的序曲,实现了视频全智能生产的第一个阶段。


AIGC 的第二个阶段,AI 除了负责素材的预处理,还能完成本属于视频创意环节的编排工作,从而实现智能批量混剪。


第三阶段,面向特定场景和特定要求的成品,由 AI 根据已有成片反向解构分镜头,负责素材的搜索、筛选、处理、编排,并最终制作合成。


第四阶段,面向特定场景,AI 负责理解场景的要求,包括素材的搜索、筛选(以及部分素材生成)、处理、编排,并最终制作合成。


AIGC 视频生成的终极阶段,由 AI 挖掘视频制作的兴趣点及创意点,并完成相应的制作。


当然,在此之前,AI 视频制作依旧面临着一个迫在眉睫的挑战——算力


一段文字、一张图片、一段视频,处理它们所需要的算力级别呈指数型爆炸上升。


这道题,云计算成了唯一的答案



目前,云计算和人工智能的结合正处于技术突破和发展的关键时期,生成式 AI 正在发生颠覆性突破,阿里巴巴将全力构建自己的 AI 预训练大模型,并为市场上风起云涌的模型和应用提供好算力的支撑,阿里董事会主席兼首席执行官张勇在今年 2 月的财报会上表示。

04 结语


早在 1956 年,以约翰·麦卡锡、马文·明斯基、克劳德·香农等为代表的科学家们就在美国达特茅斯组织了一场为期两个月的人工智能夏季研讨会,开启了人工智能技术的探索之路。


半个多世纪后的今天,在云计算、深度学习、万亿级参数大模型等相关技术的发展之下,AIGC 才第一次真正走进我们的生活,它在绘画、作曲、视频等创作领域几乎完美地替代了重复人工,进而将成为革命性意义的新时代生产力工具


3 月 15 日凌晨,OpenAI 正式上线了新一代人工智能大模型 GPT-4。与它的上一代相比,这款多模态模型不仅可以接受文本输入,甚至已经可以接受图像等其他模态的信息输入,离真正的通用型人工智能又近了一步。


不要温和地走进这场 AIGC。



当人类优渥于一种状态,总有想象力来冲破平衡。Cloud Imagine《云想之力》是阿里云联合 36 氪共同打造的系列报道,旨在探索云计算大背景下爆发的应用场景和新兴技术,以想象的高维碰撞之力,窥探“云”上的无限空间。从蒸汽机到人工智能,一切生产力工具都是为了将人类从繁冗的劳动中解放出来,将时间与精力留给创意与想象的破界。

发布于: 2 小时前阅读数: 14
用户头像

公众号:视频云技术 2020-10-20 加入

「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。

评论

发布
暂无评论
借AI之势,打破创意与想象的边界_阿里云_阿里云视频云_InfoQ写作社区