AI 日报|文生语音大模型国内外均有突破,Pika 完成 6 亿新融资,视频大模型也不远了!
文章推荐
AI日报|智谱AI再降价,同时开源9B系列模型;国内外气象大模型竞逐升级
字节推出文本到语音模型家族 Seed-TTS:擅长情感表达,与真人几乎无异
字节跳动推出文本到语音模型家族——SEED TTS,其核心亮点在于生成的语音音色高度接近人类,在相似度与自然流畅度方面,可以与真声媲美。
在技术层面有以下创新:
Seed-TTS 是一系列大规模自回归文本到语音(TTS)模型,它通过学习语音上下文、说话人相似度和自然度等方面的特征,生成与人类语音难以区分的高质量语音。此外,Seed-TTS 还具有优越的情感控制能力,可以根据需求生成具有不同情感和语音属性的语音。
Seed-TTS 还提供了自蒸馏方法用于语音分解,可以更好地理解语音的特征,以及增强模型鲁棒性、说话人相似度和控制性的强化学习方法。
Seed-TTS 还展示了非自回归(NAR)变体 Seed-TTSDiT,它采用完全基于扩散的架构,不依赖于预先估计的音素持续时间,通过端到端处理进行语音生成。
https://bytedancespeech.github.io/seedtts_tech_report/
Stability AI 发布 Stable Audio Open 文本至音频模型,时间可长达 47 秒
Stability AI 宣布推出生成声音和歌曲的开放式人工智能模型—Stable Audio Open。该公司声称,该模型仅接受免版税录音训练。用户只需输入文本描述,模型就能生成最长 47 秒的声音片段,
Stable Audio Open 能够创造鼓点、乐器旋律、环境音效及视频、电影、电视节目的制作元素,还能“编辑”现有歌曲或融合不同曲风,例如将柔和爵士风格应用于另一首歌。
并且 Stable Audio Open 一大亮点是用户可基于个人音频资料微调模型,让生成的内容更加个性化。
然而,这款开源模型存在局限:无法生成完整歌曲、旋律或人声,对此类需求,Stability AI 推荐使用其付费服务 Stable Audio。
此外,Stable Audio Open 禁止商业用途。
https://techcrunch.com/2024/06/05/stability-ai-releases-a-sound-generator/
Pika 完成全新 6 亿融资,即将发布全新视频生成大模型
AI 视频生成初创公司 Pika 日前已完成总额 8000 万美元的 B 轮融资,由 Spark Capital 领投,Greycroft、Lightspeed Venture Partners 以及 Jared Leto 参投,公司估值超过 4.7 亿美元,较上一轮翻了一倍。
截至目前,Pika 总融资额已达 1.35 亿美元。Pika 用户数达到数百万,每周生成数百万个视频。同时,Pika 已租用数百个量级的 GPU(图形处理器)芯片,用于模型训练和推理计算。
创始人郭文景表示:“我们正在努力打造最好的视频模式,同时也在努力打造真正服务于创作者的产品。”据悉,Pika 将在今年下半年发布一个全新关键的基础模型以及配套产品更新。
https://mp.weixin.qq.com/s/fJtcza5MB9rmFRmLT2bI9g
Cartwheel 提供文字生成 3D 动画,为创作者提供支持
从头开始制作 3D 角色动画通常既费力又费钱,需要使用复杂的软件和动作捕捉工具。Cartwheel 希望让基本动画变得简单,只需用文字描述动画,就可以用 AI 生成基本动作。
因此用户在使用 Cartwheel 时,可以从文本框时输入任何内容,一两分钟后就可以得到一个流畅的基本动作动画,然后可以将其导出到 3D 编辑软件中。
Cartwheel 表示,动画师无需在迈步,拍打,坐下等基本动作上花费太多时间,Cartwheel 可以自动生成基本动作,用户可以自己对其进行关键帧处理,制作过程会更加快捷。
苹果发布会前 iOS ChatGPT 迎来重大更新,支持后台交互
距离类似 ChatGPT 的智能功能引入 iOS 18 仅剩几天时间。ChatGPT 官方 iOS 应用迎来重大更新(1.2024.150),用户现在可以在使用其他应用的同时继续与 ChatGPT 进行对话。ChatGPT 的这项全新多任务功能默认处于关闭状态,需要手动开启。
开启后台对话功能后,用户可以启动与 ChatGPT 的语音对话,然后离开应用并继续交谈。即使用户在使用其他应用,也能继续与 ChatGPT 语音助手进行对话。
https://www.ithome.com/0/773/429.htm
Nvidia 市值突破 3 万亿美元,超越苹果
得益于 AI 芯片的需求激增,英伟达今年股价飙升约 147%,市值增加约 1.8 万亿美元,周三,该公司股价上涨 5.2%,收于创纪录的 1224.40 美元,市值超过 3 万亿美元,超越苹果公司。
周三股价上涨使英伟达 CEO 黄仁勋在彭博亿万富翁指数上的财富增加了 50 多亿美元,达到 1074 亿美元。
英伟达没有放缓脚步的迹象,CEO 黄仁勋表示计划每年升级其 AI 加速器。黄仁勋在台湾大学的演讲中提到,生成式 AI 的兴起是一场新的工业革命,随着 AI 技术渗透到个人电脑领域,英伟达将继续扮演重要角色。
版权声明: 本文为 InfoQ 作者【可信AI进展】的原创文章。
原文链接:【http://xie.infoq.cn/article/67cc99aa09d6a7598b9bce48c】。文章转载请联系作者。
评论