写点什么

多模态AI

0 人感兴趣 · 1 次引用

  • 最新
  • 推荐

Ovi:双骨干跨模态融合的音频 - 视频生成技术详解

用户头像
qife122
11-06

Ovi是一个类似Veo-3的音频视频生成模型,能够同时从文本或文本+图像输入生成同步的视频和音频内容。该模型采用双骨干架构,支持5秒720×720分辨率视频生成,具备高质量音频分支和灵活的分辨率适配能力。

多模态AI_多模态AI技术文章_InfoQ写作社区