写点什么

Amphion 推出开源 TTS 模型 MaskGCT,5 秒克隆声音;神秘文生图模型「小熊猫」登顶竞技场丨 RTE 开发者日报

作者:声网
  • 2024-10-30
    四川
  • 本文字数:3174 字

    阅读完需:约 10 分钟

Amphion 推出开源 TTS 模型 MaskGCT,5 秒克隆声音;神秘文生图模型「小熊猫」登顶竞技场丨 RTE 开发者日报


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、MaskGCT:Amphion 系统推出开源 TTS 大模型,5 秒语音实现跨语言声音克隆新突破


近日,香港中文大学(深圳)联手趣丸科技推出了新一代大规模声音克隆 TTS 模型——MaskGCT。该模型在包含 10 万小时多语言数据的 Emilia 数据集上进行训练,展现出超自然的语音克隆、风格迁移以及跨语种生成能力,同时保持了较强的稳定性。MaskGCT 已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统 Amphion 发布。


据介绍,MaskGCT 在三个 TTS 基准数据集上都达到了 SOTA 效果,性能超过当前最先进的同类模型。


相较于现有的 TTS 大模型,MaskGCT 在语音的相似度、质量和稳定性上进一步突破,尤其在语音相似度方面处于绝对领先地位。显著特点如下:


秒级超逼真的声音克隆:提供 3 秒音频样本即可复刻人类、动漫、「耳边细语」等任意音色,且能完整复刻语调、风格和情感。更精细可控的语音生成:可灵活调整生成语音的长度、语速和情绪,支持通过编辑文本编辑语音,并保持韵律、音色等方面的极度一致。高质量多语种语音数据集:训练于香港中文大学(深圳)和趣丸科技等机构联合推出的 10 万小时数据集 Emilia,是全球最大且最为多样的高质量多语种语音数据集之一,精通中英日韩法德 6 种语言的跨语种合成。( @Amphion)


2、ElevenLabs 雇佣收购稍后阅读 app Omnivore


语音合成技术见长的人工智能公司 ElevenLabs 最近雇佣收购了开源待读应用程序 Omnivore 背后的团队。


在一篇博客文章中,Omnivore 的联合创始人 Jackson Harper 和 Hongbo Wu 表示,加入 ElevenLabs 将为他们提供「一个更大的平台,以便为严肃读者创造无障碍且富有吸引力的体验」。


Harper 和 Wu 写道:「ElevenLabs 致力于开发者社区,Omnivore 的代码库将保持 100%开源,供所有用户使用。」这一决定确保更广泛的开发社区能够继续发展和改进 Omnivore 的技术。


Omnivore 的用户可以在 11 月 16 日前导出他们的数据,届时这些数据将被删除。


Harper 和 Wu 于 2021 年创办了 Omnivore,旨在为他们所称的「热爱文字的人」提供一个「稍后阅读」的解决方案。Omnivore 是一个功能齐全的平台,具备高亮显示、PDF 支持和离线功能,提供网站、iOS 和 Android 应用程序,还包括适用于所有主流网络浏览器的扩展。Omnivore 还提供由 ElevenLabs 语音生成 API 支持的文本转语音功能。


Harper 和 Wu 提到:「我们通过将 ElevenLabs 超逼真的人工智能语音整合至 Omnivore,深入了解了他们的技术。」很快,利用 ElevenLabs 的声音来收听文章和书籍成为了我们在 Omnivore 中最受欢迎的功能之一。


在转投 ElevenLabs 后,Harper 和 Wu 表示他们将把开发精力集中于 ElevenLabs 自有的阅读器应用程序 ElevenReader 上。ElevenReader 于今年早些时候推出,用户可以上传文章、PDF 文件和电子书,并通过不同的语言和声音(如朱迪·加兰和詹姆斯·迪恩等演员的声音)进行收听。


ElevenLabs 在今年早些时候从包括 Andreessen Horowitz 在内的投资者处筹集了 8000 万美元,成为一家独角兽公司。据 TechCrunch 本月报道,该公司正在与投资者接洽新一轮融资事宜,预计该轮融资可能使公司估值达到约 30 亿美元。(@TechCrunch)


3、神秘模型「小熊猫」一夜刷屏:排名超 Flux、Midjourney



「red_panda」神秘模型登顶文生图竞技场,引发广泛猜测。其生成效果优异,胜率高达 79%。


网友对其来源众说纷纭,猜测包括 Midjourney V7、中杯 Stable Diffusion 3.5、甚至 OpenAI 的 DALL-E 4,以及中国厂商的可能性。目前,red_panda 仍占据榜首,备受关注。(@IT 之家)


4、GitHub Copilot 进驻 Windows Terminal 和苹果 Xcode,助力开发者效率提升


在 GitHub Universe 大会上,GitHub 宣布了备受期待的 GitHub Copilot 重大更新,该智能代码助手将登陆 Windows Terminal 和 Xcode 开发环境。


首先,GitHub Copilot 将登陆 Windows Terminal。通过与 Windows Terminal Canary 版本中的终端聊天功能结合,开发者可以直接在终端内获得来自 Copilot 的命令建议和解释。此功能适用于所有 Copilot 个人版、商业版和企业版用户。


同时,GitHub Copilot for Xcode 也迎来了公开预览版。这将让使用 Xcode 的苹果开发者享受与其他集成开发环境 (IDE) 用户相同的智能编码辅助功能。在公开预览版中,Copilot for Xcode 提供了以下特性:


代码补全:Copilot 无缝嵌入 Xcode,在你键入代码时提供实时建议。多语言支持:支持 Swift 和 Objective-C 等苹果生态系统常用编程语言,确保所有开发者都能受益于 Copilot 的智能辅助。多行建议:默认情况下,Copilot 会显示单行建议。按住 Option 键并按下 Option + Tab 键,可以接受完整的多行建议。内容过滤:Copilot 提供高级过滤器,可以筛除有害或不恰当的内容建议,确保所有代码符合专业标准并营造安全、尊重的编码环境。阻止匹配公共代码的代码块建议:你可以选择激活重复检测过滤器,该过滤器会阻止与 GitHub 上的公共代码相匹配的代码块建议。除了 Windows Terminal 和 Xcode 支持之外,GitHub 还为 Copilot 带来了其他新功能。全新的 Copilot 访问必应功能使 VS Code、Visual Studio 和 GitHub.com 中的 Copilot 聊天室支持网络搜索。开发者可以通过此功能轻松讨论最近发生的事件、新发展、趋势和技术,例如询问「Typescript 的最新版本是什么?」或「Node.js 下次重大更新何时发布?」目前,该功能仅对 Copilot 商业版和企业版用户开放。(@IT 之家)


5、腾讯推出 AI 笔记,可搜公众号文章



腾讯近日推出 ima copilot AI 工具,可以搜索微信公众号文章中的内容。


在 ima copilot 的搜索框内键入搜索关键字,即可引用一些微信公众号的文章生成回答,支持深度模式、脑图生成等功能。除了搜索想要的内容,ima copilot 也能作为 AI 浏览器,总结网站内容。ima copilot 也支持 500 页和 100MB 内的本地文档总结。


除了搜索内容,用户还可以用 ima copilot 生成 1GB 的专属知识库,可以上传本地文档和网页。


ima copilot 还支持 AI 笔记功能,在完成 AI 搜索、总结后,可以将生成的结果导入笔记之中,进行进一步 AI 写作和解读。(@APPSO)

02 有态度的观点

1、Anthropic CEO:强大的 AI 将在 21 世纪为我们带来什么?


Anthropic CEO Dario Amodei 预测,凭借强大的 AI 的力量,生物学和医学将加速进步,在未来 5-10 年内实现原本需要 50-100 年的成果。他称这一现象为「压缩的 21 世纪」,即 AI 能够让人类在几年内取得整整一个世纪的生物医学成就。


Amodei 还认为,若 AI 的逻辑被推向极致,最终将引导人类走向法治、民主和启蒙价值观。虽然这一进程并非必然,但从统计趋势来看,AI 将加速人类正向这些目标前进的步伐,让方向更加清晰,目标更加明确。


相较于在真实神经网络上的实验,人工神经网络的实验要容易得多,因为前者通常需要对动物大脑进行解剖。因此,可解释性可能会成为深入理解神经科学的有力工具。同时,AI 在智能系统训练方面的知识应该能够推动神经科学领域的变革,尽管目前尚不确定这一变革是否已经发生。(@Z potentials)


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
Amphion 推出开源 TTS 模型 MaskGCT,5 秒克隆声音;神秘文生图模型「小熊猫」登顶竞技场丨 RTE 开发者日报_声网_InfoQ写作社区