VoxCPM Logo VoxCPM
VoxCPM Logo

VoxCPM

新一代免分词文本转语音
零样本声音克隆技术

VoxCPM基于MiniCPM-4架构,采用分层语言建模技术,实现免分词的端到端语音合成。通过180万小时双语语料训练,支持上下文感知的语音生成和零样本声音克隆。仅需3-10秒参考音频即可复制说话人音色、口音和情感基调,在消费级GPU上实现高效推理,生成速度比播放速度快6倍。VoxCPM能够根据文本内容智能推断语调风格,支持中英文跨语言合成。

上下文感知
零样本克隆
免分词技术
高效推理

立即体验 VoxCPM

在线演示免分词TTS技术,体验零样本声音克隆的强大能力

如果持续加载失败,请检查网络连接

演示暂时不可用

直接访问

使用指南

零样本声音克隆

  • • 上传3-10秒参考音频
  • • 输入目标文本
  • • 即可生成目标说话人声音

上下文感知

  • • 无需提示音频
  • • 根据文本内容推断语调
  • • 支持情感表达和语境适应

VoxCPM技术架构

深入了解VoxCPM的核心技术原理和创新架构设计

文本输入
MiniCPM-4 + 分层语言建模
FSQ量化
局部扩散
高质量语音输出

核心技术创新

MiniCPM-4骨干网络

基于面向端侧部署优化的MiniCPM-4大语言模型作为核心架构,通过分层语言建模技术实现文本语义理解和语音特征提取的有效结合,支持上下文感知的语音生成。

免分词端到端架构

摒弃传统TTS系统的文本分词预处理步骤,直接在连续语音空间中建模,通过端到端扩散自回归架构实现从文本到语音的无损转换,保持语音的自然流畅性。

FSQ量化技术

采用Finite Scalar Quantization(有限标量量化)技术对语音特征进行高效编码,在保持音质的同时显著降低计算复杂度和存储需求。

局部扩散Transformer

结合扩散模型和Transformer架构的优势,通过局部扩散机制实现高质量语音生成,在保证音质的同时实现RTF 0.17的高效推理性能。

零样本声音克隆

通过少量参考音频(3-10秒)即可提取说话人的音色、口音、情感基调等细微特征,实现高保真度的声音克隆。

技术实力指标

基于国际权威基准测试,VoxCPM在多项关键指标上表现卓越

0.17
实时因子 (RTF)
生成速度比播放快6倍
0.93%
字符错误率 (CER)
中文语音识别准确性
77.2%
声音相似度
中文声音克隆相似度
1.85%
英文错误率 (WER)
英文语音识别准确性
基于Seed-TTS-eval等权威基准测试评估结果

技术对比矩阵

VoxCPM与主流TTS模型的全面性能对比

VoxCPM

免分词架构

0.17
RTF
0.93%
CER
77.2%
相似度
全功能支持

竞品对比

CosyVoice
RTF: 0.25 WER: 3.2%
F5-TTS
RTF: 0.42 WER: 4.1%
SparkTTS
RTF: 0.31 WER: 2.8%
VoxCPM在速度、准确性和功能完整性方面均领先同类产品

核心能力音频演示

体验VoxCPM在跨语言克隆、情感表达和上下文感知方面的卓越表现

跨语言克隆 - 英转中

英文说话人音色克隆为中文语音

跨语言克隆 - 中转英

中文说话人音色克隆为英文语音

情感表达 - 开心

情感丰富的开心语调表达

情感表达 - 悲伤

情感丰富的悲伤语调表达

上下文感知 - 新闻

智能推断的新闻播报风格

上下文感知 - 故事

智能推断的故事讲述风格

更多音频样本可在 官方Demo页面 中体验

技术深度解析

深入了解VoxCPM的技术细节,获取开发资源和学术研究成果

学术论文

详细的技术原理、实验结果和性能评估报告

阅读论文

开源代码

完整的源代码、模型权重和训练脚本

访问仓库

快速开始

简单几步即可部署和使用VoxCPM模型

开始使用

模型下载

预训练模型权重,支持直接推理使用

下载模型

API 文档

详细的API接口说明和使用示例

查看文档

社区支持

加入开发者社区,获取技术支持和交流

加入讨论

技术亮点

Apache 2.0
开源许可证
500M
模型参数量
1.8M Hours
训练数据量
RTX 4090
推荐硬件

应用场景

VoxCPM在多个领域展现卓越性能,为创新应用提供强大支持

有声书制作

快速生成高质量有声书,保持统一音色

语言学习

个性化语音教学,支持多语言口音训练

内容创作

视频配音、播客制作的专业语音解决方案

无障碍应用

为视觉障碍人士提供个性化阅读体验

快速开始

立即开始使用 VoxCPM,仅需几步即可部署并体验免分词TTS技术

1

环境准备

首先克隆仓库并安装依赖:

$ git clone https://github.com/OpenBMB/VoxCPM.git
$ cd VoxCPM
$ pip install -r requirements.txt
2

模型下载

下载预训练模型权重:

$ huggingface-cli download openbmb/VoxCPM --local-dir ./checkpoints/VoxCPM
3

快速使用

使用Python脚本进行语音合成:

from voxcpm import VoxCPM

# 初始化模型
model = VoxCPM("./checkpoints/VoxCPM")

# 语音合成
audio = model.synthesize(
    text="你好,这是VoxCPM的声音合成演示",
    reference_audio="path/to/reference.wav"
)

系统要求

  • • Python 3.8+
  • • PyTorch 1.13.0+
  • • CUDA 11.6+ (推荐 RTX 4090 或更高配置)
  • • 内存: 16GB+ RAM
  • • 显存: 12GB+ VRAM

常见问题

关于VoxCPM技术和使用的常见问题解答

免分词TTS技术摒弃了传统的文本分词步骤,直接在连续语音空间中建模。这种方法类似于在原始连续空间中创作音乐,而非将其切碎成MIDI音符再重建,从而保持了语音的自然流畅性和表现力。

VoxCPM在消费级GPU(如RTX 4090)上即可高效运行,实时因子达到0.17,生成速度比播放速度快6倍。模型参数量为5亿,在该领域属于轻量级设计,平衡了性能与效率。

只需提供3-10秒的参考音频,VoxCPM即可提取并复制说话人的音色特征,包括口音、情感基调等细微差别。系统通过分层语言建模实现语义与声学特征的隐式解耦,确保高保真度的声音克隆效果。

VoxCPM主要支持中文和英文,在180万小时双语语料上训练。同时支持跨语言声音克隆,可以将英文说话人的音色应用到中文语音生成中,反之亦然。对于其他语言,效果可能不如中英文理想。

VoxCPM采用Apache 2.0开源许可证,代码和权重完全开放。您可以从GitHub仓库获取源代码,从HuggingFace下载预训练模型,按照快速开始指南进行部署。任何人都可以研究、构建或改编这项技术。