讯飞星火极速超拟人交互技术:语音端到端,8 月底开放;昆仑万维发布 AI 短剧平台 SkyReels 丨 RTE 开发者日报
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、昆仑万维发布全球首个集成视频大模型与 3D 大模型的 AI 短剧平台 SkyReels
昆仑万维于 8 月 19 日发布全球首个集成视频大模型与 3D 大模型的 AI 短剧平台 SkyReels。SkyReels 平台集剧本生成、角色定制、分镜、剧情、对白/BGM 及影片合成于一体,让创作者「一键成剧」,轻松制作高质量 AI 视频。奇幻大片、凄美虐恋、爆笑喜剧……只要输入一个简单创意,SkyReels 就能完成从剧本到成品短剧制作全流程。
SkyReels 平台集成了昆仑万维自研剧本大模型 SkyScript、自研分镜大模型 StoryboardGen、自研 3D 生成大模型 Sky3DGen、以及业界首个将 AI 3D 引擎与视频大模型深度融合的创新平台 WorldEngine。
SkyReels 能够通过 AI 一键生成完整剧本、分镜、人物对白与 BGM,支持角色形象、音色与分镜的自定义调整,并能够自动将内容转换为 1080P 60 帧的高清视频,单次可生成视频长度达 180 秒,相比 Sora 单次可生成 60 秒视频、可灵单次可生成 10 秒视频,有显著突破。一键整合所有创作成果,极大提高视频的创作效率,降低创作成本,推动「一人一剧」时代加速来临。(@机器之心)
2、科大讯飞推出星火极速超拟人交互技术,对标 GPT-4o
科大讯飞宣布对星火语音大模型进行更新,正式推出星火极速超拟人交互,在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现突破,对标 GPT 4o。
响应和打断速度:官方称即便被频繁打断,也能「迅速反应」,更加符合日常对话情境
情绪感知情感共鸣:升级后的版本可以针对高兴、悲伤、生气、害怕等情绪进行识别,自动带入符合情境的对话,用合适的情绪语气进行回复
语音可控表达:在交流中能够跟随用户指令控制数十种情感、风格、方言,支持调节语速
人设扮演:能够模仿包括孙悟空、蜡笔小新、小猪佩奇等多种角色的音色、语气,还会模仿他们的人设与用户聊天
此次星火极速超拟人交互采用统一神经网络直接实现语音到语音端到端建模,大幅缩短响应时间的同时,提升交互拟人度和流畅度。该项技术将于 8 月底在讯飞星火 APP 上全民开放使用。(@IT 之家)
3、阿里通义千问宣布启用新域名「tongyi.ai」,网页版聊天新增深度搜索功能
阿里大语言模型「通义千问」于 8 月 19 日宣布启用新域名「tongyi.ai」,并带来多项新功能。
网页版聊天新增深度搜索功能:支持更多内容源索引,搜索结果更加深度、专业和结构化,数字角标悬浮显示来源网页
App 图片微动效支持多尺寸图片:进入通义 App 频道页,选择「图片微动效」,需要上传一张图片,即可生成与画面匹配的音效及微动视频效果
App 自定义唱演支持 3:4 画幅(原先 1:1):音频的上传逻辑进行调整,将时长由 120S 提高到 300S
阿里云在 8 月 8 日的万网焕新发布会上宣布,域名产品服务完成 AI 化系列改造,推出首个域名 AI 大模型应用,并上线「.ai」等 40 余个全新的域名后缀、2000 万个全球域名资源。
据阿里云官方介绍,升级后的阿里云万网,实现了智能起名。用户输入只需输入品牌信息与所属行业,一键点击后,基于通义大模型就能批量生成创意域名。(@IT 之家)
4、Linly-Dubbing:一个开源的多语言 AI 配音和视频翻译工具
Linly-Dubbing 是开源的多语言 AI 配音和视频翻译工具,支持下载 YouTube 等网站上的视频、多语言配音和字幕翻译,能转换语音为文本、识别说话者并准确翻译,还能用声音克隆和口型同步技术,用户可上传视频、选择语言和标准。虽口型匹配效果有待提高,但整体获好评,被认为是方便视频搬运和线上会议实时字幕的有力工具。
主要功能
自动下载视频:支持从 YouTube 等网站下载视频
多语言支持:支持中文及多种其他语言的配音和字幕翻译。
AI 语音识别:精准的语音识能力,语音到文本转换和说话者识别。
LLM 翻译:结合领先的大语言模型(如 GPT),快速且准确地进行翻译,确保翻译的专业性和自然性。
声音克隆:通过声音克隆技术,生成与原视频配音高度相似的语音,保持情感和语调的一致性。
口型同步:通保持口型同步,使配音与视频画面高度契合,提升视频的真实性和互动性。
灵活上传与翻译:用户可以上传视频,自主选择翻译语言和标准,确保个性化和灵活性。(@小互 AI)
5、Melodisco:AI 版的网易云音乐,一个开源的 AI 播放器
Melodisco 是由 @idoubicc 开发的开源 AI 播放器,该项目最初的目标是创建一个 AI 版的网易云音乐,现已收录了 30 万首 AI 歌曲,并且可以通过 Vercel 进行一键部署。该播放器的主要功能包括音乐生成、歌曲排行榜、随机漫游、歌曲管理以及播放器组件。此外,Melodisco 还集成了 Stripe 支付系统,支持在线购买服务或产品。(@小互 AI)
02 有态度的观点
1、中国工程院院士邬贺铨:AI 大模型仍需「大力出奇迹」、提升算力枢纽利用率
中国工程院院士邬贺铨 8 月 19 日在 2024 北京人工智能生态大会上表示,人工智能是新质生产力的引擎,大模型的发展仍然需要「大力出奇迹」,多措并举提升对物理世界的模拟能力。
邬贺铨院士指出,中国已建的算力枢纽的利用率还有较大提升空间,通过集约优化可解决目前对算力的需求。中国具有超大规模市场、海量数据资源、丰富应用场景等潜能,但数据供给质量不高、流通机制不畅、应用潜力释放不够,需加快数据基础制度建设,推动政府数据共享和开放,促进数据流通和应用。
邬贺铨院士表示,大模型领域存在规模化定律,模型参数量、数据集大小,以及用于训练的算力规模三因素同时放大才有最佳效果,当不受其他两个因素的制约时,大模型性能与单个因素都有幂律关系,仍然需要「大力出奇迹」。(@雷锋网)
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
评论