多模态AI
0 人感兴趣 · 1 次引用
- 最新
- 推荐
Ovi:双骨干跨模态融合的音频 - 视频生成技术详解
Ovi是一个类似Veo-3的音频视频生成模型,能够同时从文本或文本+图像输入生成同步的视频和音频内容。该模型采用双骨干架构,支持5秒720×720分辨率视频生成,具备高质量音频分支和灵活的分辨率适配能力。
0 人感兴趣 · 1 次引用
Ovi是一个类似Veo-3的音频视频生成模型,能够同时从文本或文本+图像输入生成同步的视频和音频内容。该模型采用双骨干架构,支持5秒720×720分辨率视频生成,具备高质量音频分支和灵活的分辨率适配能力。