写点什么

商汤推出「可控」人物视频生成大模型;大阪将在多座车站部署实时语音识别系统丨 RTE 开发者日报

作者:声网
  • 2024-07-05
    四川
  • 本文字数:2467 字

    阅读完需:约 8 分钟

商汤推出「可控」人物视频生成大模型;大阪将在多座车站部署实时语音识别系统丨 RTE 开发者日报


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@JLT,@鲍勃

01 有话题的新闻

1、腾讯「AI 翻译公司」上线,成本只有专业译者的 1/80


7 月 4 日,腾讯 AI 实验室推出翻译多智能体框架 TransAgents,专门用于超长文学内容翻译,提供中文、英文、日文、韩文等多种语言的翻译。


TransAgents 是一家「虚拟翻译公司」,模仿人类社会中传统的翻译出版过程,含有高级编辑、初级编辑、译者、校对员等角色,每个角色都有自己独特的职责和任务。


使用 TransAgents 进行文学翻译的成本只有专业人类翻译员的 1/80,用户可以对翻译公司里的员工数量进行设置,还可设置最大对话轮数以及最大重试次数。


在实际评估中,无论是人类评估者还是高级语言模型(如 GPT-4),都更倾向于选择 TransAgents 的翻译结果。在需要领域特定知识的情况下,比如历史背景和文化细节,TransAgents 的表现更是超越了人类翻译。(@IT 之家)


2、商汤发布首个「可控」人物视频生成大模型


7 月 4 日,商汤科技在世界人工智能大会(WAIC)上发布了首个「可控」人物视频生成大模型 Vimi,通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。


与图片表情控制类技术只能控制头部表情动作不同,商汤称 Vimi 不但可以实现精准的人物表情控制,还可实现在半身区域内控制照片中人物的自然肢体变化,并自动生成与人物相符的头发、服饰及背景变化。


同时 Vimi 可稳定生成 1 分钟的单镜头人物类视频,画面效果不会随着时间的变化而劣化或失真,满足娱乐互动等需要长时间稳定视频生成需求。据了解,Vimi 将完全面向 C 端用户开放使用,用户只需上传不同角度的高清人物图片,即可自动生成数字分身和不同风格的写真视频。(@IT 之家)


3、网易发布首个机器人品牌「灵动」


昨日,网易多款 AI 新品首次亮相 WAIC,并发布首个机器人品牌「灵动」。据介绍,网易灵动是网易伏羲基于自研工业大模型和 AOP 技术思想打造的机器人品牌,旗下的挖掘机器人和装载机器人两款核心产品,已参与 10 多个省份的 50 个重点建设项目,覆盖矿山、港口、搅拌站、学校等多种应用场景。


网易有灵平台是网易伏羲自研的人机协作任务平台,支持用户快速建模、发布和运营可由机器与人协作完成的任务,从而帮助各行各业发布数字化工作岗位。


网易有道还带来了全新的 AI 大模型学习硬件有道词典笔 X7、预置国内首个教育大模型「子曰」的原生应用「AI 全科家庭教师有道小 P」和「虚拟人口语私教 Hi Echo」。(@爱范儿)


4、日本大阪将在多座车站部署实时语音识别系统:透明显示屏形态,支持 23 种语言翻译


据日媒 ROBOSTART 报道,JR 西日本和阪急电铁将于 7 月 12 日至 9 月 13 日在 JR 大阪站、阪急大阪梅田站部署新型实时语音识别系统 YYSystem 进行乘客引导示范测试。据悉,该系统可借助 AI 将对话实时翻译成多种语言,日语和目标语言都将即时显示在一块配有定向麦克风的透明显示屏上。


该系统支持 23 种语言,有望为入境旅客或听障人士提供更加顺畅的服务。此次测试将会对所获得数据进行分析,以验证其是否可以对车站信息中常用的词语或表达方式作出响应,目标是在明年的大阪-关西世博会开幕前引进这一系统。


据介绍,YYSystem 的核心是一套将声音、语音可视化的独特算法,起初是 AISIN 公司为内部听障员工而开发的。目前,该系统正在扩大其自身功能与目标受众,包括为外国用户提供多语言支持。(@IT 之家)


5、开源跨平台视频编辑工具 LosslessCut:基于 FFmpeg,支持无损剪辑


LosslessCut 是一款开源的跨平台视频/音频编辑工具,利用 FFmpeg 提供快速无损的剪辑功能。支持多种常见媒体格式,适用于 macOS、Windows 和 Linux 系统。用户可以通过 GitHub 免费下载,也可从应用商店购买。


该软件不仅提供基础的无损剪辑功能,还支持高级多步工作流程、命令行界面和 HTTP API。开发者 Mikael Finstad 独立维护这个项目。LosslessCut 的设计理念强调在保持原始质量的同时,为用户提供高效的媒体处理解决方案。(@AI 科技评论)

02 有态度的观点

1、百度李彦宏:AI 只是辅助,不会替代人的工作


2024 世界人工智能大会暨人工智能全球治理高级别会议(WAIC)于 7 月 4 日在上海举行,百度 CEO 李彦宏出席并发表演讲。


李彦宏指出,AI 正在以前所未有的速度向各行各业渗透,很多人担心 AI 抢走人类工作机会,但他强调,AI 更多是在扮演「副驾驶」的角色,背后还是需要人类来把关,AI 可以提升人的工作效率和工作质量。李彦宏也表示,随着 AI 技术发展,一些新的工作机会也开始出现,比如数据标注师、提示词工程师等等,这些职位门槛并不高。


李彦宏也谈到 2023 年的「百模大战」,认为造成了社会资源尤其是算力的巨大浪费。他认为,没有应用,模型不值一提,呼吁大家去卷应用。(@爱范儿)


2、对话比尔·盖茨:现在对 AI 的狂热远超互联网泡沫,还将经历两次规模提升


7 月 4 日消息,据国外媒体报道,微软联合创始人比尔·盖茨日前做客知名播客节目《下一个伟大的构想》讨论了人工智能的未来,以及他对超人类人工智能和技术进步的构想。


盖茨认为,人工智能技术发展速度快,潜力的上限更加难以预测,未来超人类的人工智能终将成为现实。现在对 AI 的狂热远超互联网泡沫,不过 AI 规模法则依旧成立,整个 AI 产业还将经历两次规模上的提升。(@腾讯科技)


写在最后:


我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
商汤推出「可控」人物视频生成大模型;大阪将在多座车站部署实时语音识别系统丨 RTE 开发者日报_声网_InfoQ写作社区