写点什么

ElevenLabs Voice Design :可通过文本创建个性化语音;苹果推出首个开发者测试版丨 RTE 开发者日报

作者:声网
  • 2024-10-24
    四川
  • 本文字数:2436 字

    阅读完需:约 8 分钟

ElevenLabs Voice Design :可通过文本创建个性化语音;苹果推出首个开发者测试版丨 RTE 开发者日报


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、苹果推出 iOS 18.2 首个开发者测试版,Siri 接入 ChatGPT



今日,苹果向 iPhone 15 Pro 及以上机型推送了 iOS 18.2 首个开发者测试版。新版本包括了更多的 Apple 智能功能更新:


Image Playground:允许用户使用提示词生成图片


Genmoji:允许用户使用提示词生成自定义的表情符号


Siri 接入 ChatGPT:Siri 现在可以把用户的提问和请求移交给 ChatGPT。集成 ChatGPT 的 Siri 支持屏幕响应功能,用户可以发出类似「这张照片中有什么」的提问


视觉智能:iPhone 16 系列机型支持,可以用于识别周围的物体和地点,还能获取 Google 搜索结果和 ChatGPT 答案


写作工具:重写工具支持描述语气和内容


语言更新:新增了对澳大利亚、加拿大、新西兰、南非和英国英语的支持


除了 Apple 智能,iOS 18.2 还带来了重新设计的邮件应用、更新的语音备忘录、自定义默认应用等功能。(@ APPSO)


2、Runway 推出一键表情复制功能 Act-One



AI 视频生成平台 Runway 发布了全新工具「Act-One」,能够在 Gen-3 Alpha 模型中生成富有表现力的角色表演视频。


据介绍,Act-One 可以使用视频和语音表演作为输入源,可以用来进行真人演员的表情捕捉,能够准确地将表演转换为与原始视频比例不同的角色,而不需要传统动作捕捉的大量设备。


Act-One 也支持仅靠单个演员和摄像机,生成两个不同的角色的多机位对话场景。(@ APPSO)


3、ElevenLabs 推出全新 AI 语音生成工具 Voice Design 可通过文本提示创建个性化语音


ElevenLabs 日前发布全新 AI 语音生成工具 Voice Design,通过简单的文本描述即可创建个性化语音,开创了 AI 配音领域的新纪元。


这款工具最大的特点是其直观的文本提示功能。用户只需描述所需声音的特征,如「温暖友好的中年女性声音,带着轻微英国口音」,系统便能快速生成符合要求的语音。


Voice Design 支持调节多个语音参数,包括年龄、性别、口音、语调和音高等,确保生成的声音精确匹配用户需求。


除了模拟真实人声,Voice Design 还突破性地支持创作角色化语音。无论是精灵的空灵之音,还是机器人的金属音效,系统都能准确捕捉并还原这些虚拟角色的声音特征。用户可以反复调整参数,探索无限的创作可能,为游戏开发、有声内容制作等领域提供了强大的创意工具。(@站长之家)


4、OpenAI 聘请第一位首席经济学家


TechCrunch 报道,OpenAI 聘请了第一位首席经济学家:Aaron Chatterji,他曾为两位美国总统服务,现任杜克大学商业与公共政策教授。


Chatterji 将为 OpenAI 研究人工智能造成的经济影响,并领导人工智能如何影响经济增长和就业前景的研究。


OpenAI 还任命了前助理副总检察长和 Uber 的合规主管 Scott Schools 为新任首席合规官,将为这家公司就法律要求和道德规范方面进行合作。(@ APPSO)


5、JetBrains 为开发者打造最强 AI 助手 Mellum:为编程而生,延迟低、补全快、准确度高



JetBrains 公司于 10 月 22 日发布博文,专门设计推出了全新的大语言模型 Mellum,为软件开发者提供更快速、更智能和更具上下文意识的代码补全。


官方表示 Mellum 相比较其它大语言模型,最大的亮点就是专门为开发者编程而设计的,具备延迟低、性能强、功能全面等优点,可以在最短时间内为开发者提供相关建议。


Mellum 已支持 Java、Kotlin、Python、Go 和 PHP 等流行编程语言,用户可通过加入早期访问计划获取更多语言支持。


Mellum 表示补全代码延迟时间是此前的三分之一,显著提高了任务完成速度;完成建议的接受率约为 40%,成为行业内的可靠基准。


Mellum 不仅在速度和准确性上表现卓越,还深度集成 JetBrains IDE,让其能够提供符合项目需求的上下文代码建议。


JetBrains 承诺 Mellum 的训练数据仅来自公开可用且具有宽松许可的代码,确保用户隐私。(@IT 之家)

02 有态度的观点

1、《人类简史》作者尤瓦尔:我们需要防止人工智能失控,确保其符合人类价值观


「2024 ESG 全球领导者大会」于 10 月 16 日 -18 日在上海举行。新浪财经欧洲站站长郝倩与知名历史学家、哲学家、《人类简史》、《智人之上》作者尤瓦尔・赫拉利展开对话。


尤瓦尔认为,人工智能(AI)的崛起是人类所面临的一大挑战。但不可否认的是,人工智能能够造福人类的观点同样存在。在被问题及,在可持续发展的社会中,人工智能应该扮演什么角色时,尤瓦尔表示,如果能够防止人工智能失控,确保它能符合人类的价值观,那么人工智能可能会成为人类历史上最好的发明。


「因为到那时,它的巨大力量将服务于人类社会,而不是危害人类社会」,尤瓦尔举例说,诸如医疗保健等领域,目前没有足够数量的医生为病人服务,而人工智能医生可以在这方面提供巨大帮助。


谈及人工智能的监管问题,尤瓦尔强调,「监管非常重要,而且许多国家的政府对此很感兴趣」。


他强调,禁止人工智能假冒人类是一项重要规定。「我们欢迎人工智能以医生或教师的身份在社交媒体上与我们互动,但它绝不能假装自己是人类。你在交谈时,需要知道交谈的对象是人类还是人工智能。」


此外,同样重要的是,人工智能公司要对其算法的行为负责。如果一家公司研发了一种功能强大的算法,而它对社会、人类心理或其他方面产生了危险的副作用,那么这家公司就必须承担责任,必须对它造成的损害负责。(@IT 之家)


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
ElevenLabs Voice Design :可通过文本创建个性化语音;苹果推出首个开发者测试版丨 RTE 开发者日报_声网_InfoQ写作社区