写点什么

Ovi:双骨干跨模态融合的音频 - 视频生成技术详解

作者:qife122
  • 2025-11-06
    福建
  • 本文字数:2650 字

    阅读完需:约 9 分钟

Ovi:双骨干跨模态融合用于音频-视频生成

*Chetwin Low * 1 , Weimin Wang * † 1 , Calder Katyal 2


  • 同等贡献,† 项目负责人

  • 1 Character AI, 2 耶鲁大学

视频演示

[final_ovi_trailer.mp4]

🌟 主要特性

Ovi 是一个类似 veo-3 的视频+音频生成模型,能够同时从文本或文本+图像输入生成视频和音频内容。


  • 🎬 视频+音频生成:同时生成同步的视频和音频内容

  • 🎵 高质量音频分支:使用高质量内部音频数据集从头设计和预训练我们的 5B 音频分支

  • 📝 灵活输入:支持仅文本或文本+图像条件

  • ⏱️ 5 秒视频:生成 5 秒视频,24 FPS,720×720 区域,支持各种宽高比(9:16, 16:9, 1:1 等)

  • 🎯 高分辨率支持:可尝试 960×960 区域(如 720×1280, 704×1344 等)

🎯 高分辨率示例(1280×704, 1504×608, 1344×704 等)

  • 🧠 训练分辨率:我们的模型完全在 720×720 分辨率下训练

  • 🚀 放大能力:尽管训练分辨率较低,Ovi 能够自然生成更高分辨率如 960×960 和可变宽高比视频,同时保持时间和空间一致性

📋 待办事项

  • 发布研究论文和演示网站

  • 11B 模型检查点

  • 推理代码

  • 文本或文本+图像作为输入

  • Gradio 应用程序代码

  • 多 GPU 推理,支持或不支持序列并行

  • fp8 权重和改进的内存效率

  • qint8 量化

  • 改进序列并行实现的效率

  • 使用 FSDP 实现分片推理

  • 视频创建示例提示和格式

  • 使用更高分辨率数据和 RL 进行微调以改进性能

  • 新功能,如更长视频生成,参考语音条件

  • 蒸馏模型以加快推理速度

  • 训练脚本

🎨 简单创建方式

我们提供示例提示来帮助您开始使用 Ovi:


  • 文本到音频-视频(T2AV):example_prompts/gpt_examples_t2v.csv

  • 图像到音频-视频(I2AV):example_prompts/gpt_examples_i2v.csv

📝 提示格式

我们的提示使用特殊标签来控制语音和音频:


  • 语音<S>您的语音内容在这里<E> - 这些标签之间的文本将被转换为语音

  • 音频描述<AUDCAP>音频描述在这里<ENDAUDCAP> - 描述视频中存在的音频或音效

🤖 使用 GPT 快速开始

为方便创建提示,尝试以下方法:


  1. 从上面的 csv 文件中获取任何示例

  2. 告诉 GPT 根据主题(如人类对抗 AI)修改所有<S> <E>对之间的语音

  3. GPT 将根据您请求的主题随机修改所有语音

  4. 使用修改后的提示与 Ovi!

📦 安装

逐步安装

# 克隆仓库git clone https://github.com/character-ai/Ovi.git
cd Ovi
# 创建并激活虚拟环境virtualenv ovi-envsource ovi-env/bin/activate
# 首先安装PyTorchpip install torch==2.6.0 torchvision torchaudio
# 安装其他依赖pip install -r requirements.txt
# 安装Flash Attentionpip install flash_attn --no-build-isolation
复制代码

下载权重

要下载我们的主要 Ovi 检查点,以及来自 Wan 的 T5 和 vae 解码器,以及来自 MMAudio 的音频 vae:


# 默认下载到./ckpts,推理yaml设置为./ckpts,因此无需更改python3 download_weights.py
# 或者指定--output-dir下载到特定目录python3 download_weights.py --output-dir <custom_dir>
# 如果只有约24Gb GPU VRAM,请下载fp8量化版本wget -O "./ckpts/Ovi/model_fp8_e4m3fn.safetensors" "https://huggingface.co/rkfg/Ovi-fp8_quantized/resolve/main/model_fp8_e4m3fn.safetensors"
复制代码

🚀 运行示例

⚙️ 配置 Ovi

Ovi 的行为和输出可以通过修改ovi/configs/inference/inference_fusion.yaml配置文件来自定义。


以下参数控制生成质量、视频分辨率以及文本、图像和音频输入的平衡:


# 输出和模型配置output_dir: "/path/to/save/your/videos"  # 保存生成视频的目录ckpt_dir: "/path/to/your/ckpts/dir"      # 模型检查点路径
# 生成质量设置num_steps: 50 # 去噪步骤数。较低(30-40)= 更快生成solver_name: "unipc" # 去噪过程的采样算法shift: 5.0 # 采样调度器的时间步偏移因子seed: 100 # 可重现结果的随机种子
# 引导强度控制audio_guidance_scale: 3.0 # 音频条件强度。较高 = 更好的音频-文本同步video_guidance_scale: 4.0 # 视频条件强度。较高 = 更好的视频-文本遵循slg_layer: 11 # 应用SLG(跳过层引导)技术的层
# 多GPU和性能sp_size: 1 # 序列并行大小。设置为使用的GPU数量cpu_offload: False # CPU卸载,将大幅减少峰值GPU VRAM,但增加端到端运行时间约20秒fp8: False # 加载fp8版本模型,会有质量下降,推理时间不会加快
# 输入配置text_prompt: "/path/to/csv" or "your prompt here" # 文本提示或包含提示的CSV/TSV文件路径mode: ['i2v', 't2v', 't2i2v'] # 生成t2v、i2v或t2i2vvideo_frame_height_width: [512, 992] # T2V模式的视频尺寸[高度,宽度]each_example_n_times: 1 # 每个提示生成的次数
# 质量控制(负面提示)video_negative_prompt: "jitter, bad hands, blur, distortion" # 视频中要避免的伪影audio_negative_prompt: "robotic, muffled, echo, distorted" # 音频中要避免的伪影
复制代码

🎬 运行推理

单 GPU(简单设置)


python3 inference.py --config-file ovi/configs/inference/inference_fusion.yaml
复制代码


多 GPU(并行处理)


torchrun --nnodes 1 --nproc_per_node 8 inference.py --config-file ovi/configs/inference/inference_fusion.yaml
复制代码

Gradio

我们提供了一个简单的脚本来在 gradio UI 中运行我们的模型:


python3 gradio_app.py
# 启用CPU卸载以节省GPU VRAMpython3 gradio_app.py --cpu_offload
# 启用额外的图像生成模型为I2V生成第一帧python3 gradio_app.py --use_image_gen
# 使用24Gb GPU VRAM运行模型python3 gradio_app.py --cpu_offload --qint8
复制代码

🙏 致谢

我们要感谢以下项目:


  • Wan2.2:我们的视频分支从 Wan2.2 仓库初始化

  • MMAudio:我们重用了 MMAudio 的音频 vae

🤝 合作

我们欢迎各种类型的合作!无论您有反馈、想要贡献或有任何问题,请随时联系我们。


联系:如有任何问题或反馈,请联系 Weimin Wang。

⭐ 引用

如果 Ovi 对您有帮助,请帮忙给仓库点⭐。


如果您发现这个项目对您的研究有用,请考虑引用我们的论文。


BibTeX


@misc{low2025ovitwinbackbonecrossmodal,      title={Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation},       author={Chetwin Low and Weimin Wang and Calder Katyal},      year={2025},      eprint={2510.01284},      archivePrefix={arXiv},      primaryClass={cs.MM},      url={https://arxiv.org/abs/2510.01284}, }
复制代码


更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)


公众号二维码


办公AI智能小助手


公众号二维码


网络安全技术点滴分享


用户头像

qife122

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

评论

发布
暂无评论
Ovi:双骨干跨模态融合的音频-视频生成技术详解_视频生成_qife122_InfoQ写作社区