VoxCPM

新一代免分词文本转语音
零样本声音克隆技术

VoxCPM基于MiniCPM-4架构，采用分层语言建模技术，实现免分词的端到端语音合成。通过180万小时双语语料训练，支持上下文感知的语音生成和零样本声音克隆。仅需3-10秒参考音频即可复制说话人音色、口音和情感基调，在消费级GPU上实现高效推理，生成速度比播放速度快6倍。VoxCPM能够根据文本内容智能推断语调风格，支持中英文跨语言合成。

上下文感知

零样本克隆

免分词技术

高效推理

在线演示安装使用 GitHub

立即体验 VoxCPM

在线演示免分词TTS技术，体验零样本声音克隆的强大能力

VibeVoice.info: 免费在线播客生成&语音克隆

如果持续加载失败，请检查网络连接

演示暂时不可用

直接访问

使用指南

零样本声音克隆

• 上传3-10秒参考音频
• 输入目标文本
• 即可生成目标说话人声音

上下文感知

• 无需提示音频
• 根据文本内容推断语调
• 支持情感表达和语境适应

VoxCPM技术架构

深入了解VoxCPM的核心技术原理和创新架构设计

文本输入

MiniCPM-4 + 分层语言建模

FSQ量化

局部扩散

高质量语音输出

核心技术创新

MiniCPM-4骨干网络

基于面向端侧部署优化的MiniCPM-4大语言模型作为核心架构，通过分层语言建模技术实现文本语义理解和语音特征提取的有效结合，支持上下文感知的语音生成。

免分词端到端架构

摒弃传统TTS系统的文本分词预处理步骤，直接在连续语音空间中建模，通过端到端扩散自回归架构实现从文本到语音的无损转换，保持语音的自然流畅性。

FSQ量化技术

采用Finite Scalar Quantization（有限标量量化）技术对语音特征进行高效编码，在保持音质的同时显著降低计算复杂度和存储需求。

局部扩散Transformer

结合扩散模型和Transformer架构的优势，通过局部扩散机制实现高质量语音生成，在保证音质的同时实现RTF 0.17的高效推理性能。

零样本声音克隆

通过少量参考音频（3-10秒）即可提取说话人的音色、口音、情感基调等细微特征，实现高保真度的声音克隆。

技术实力指标

基于国际权威基准测试，VoxCPM在多项关键指标上表现卓越

0.17

实时因子 (RTF)

生成速度比播放快6倍

0.93%

字符错误率 (CER)

中文语音识别准确性

77.2%

声音相似度

中文声音克隆相似度

1.85%

英文错误率 (WER)

英文语音识别准确性

基于Seed-TTS-eval等权威基准测试评估结果

技术对比矩阵

VoxCPM与主流TTS模型的全面性能对比

模型	RTF	CER (%)	相似度(%)
VoxCPM	0.17	0.93	77.2
CosyVoice	0.25	3.2	0.88
F5-TTS	0.42	4.1	0.85
SparkTTS	0.31	2.8	0.89

VoxCPM

免分词架构

0.17

RTF

0.93%

CER

77.2%

相似度

全功能支持

竞品对比

CosyVoice

RTF: 0.25 WER: 3.2%

F5-TTS

RTF: 0.42 WER: 4.1%

SparkTTS

RTF: 0.31 WER: 2.8%

VoxCPM在速度、准确性和功能完整性方面均领先同类产品

核心能力音频演示

体验VoxCPM在跨语言克隆、情感表达和上下文感知方面的卓越表现

跨语言克隆 - 英转中

英文说话人音色克隆为中文语音

跨语言克隆 - 中转英

中文说话人音色克隆为英文语音

情感表达 - 开心

情感丰富的开心语调表达

情感表达 - 悲伤

情感丰富的悲伤语调表达

上下文感知 - 新闻

智能推断的新闻播报风格

上下文感知 - 故事

智能推断的故事讲述风格

更多音频样本可在官方Demo页面中体验

技术深度解析

深入了解VoxCPM的技术细节，获取开发资源和学术研究成果

学术论文

详细的技术原理、实验结果和性能评估报告

阅读论文

开源代码

完整的源代码、模型权重和训练脚本

访问仓库

快速开始

简单几步即可部署和使用VoxCPM模型

开始使用

模型下载

预训练模型权重，支持直接推理使用

下载模型

API 文档

详细的API接口说明和使用示例

查看文档

社区支持

加入开发者社区，获取技术支持和交流

加入讨论

技术亮点

Apache 2.0

开源许可证

500M

模型参数量

1.8M Hours

训练数据量

RTX 4090

推荐硬件

应用场景

VoxCPM在多个领域展现卓越性能，为创新应用提供强大支持

有声书制作

快速生成高质量有声书，保持统一音色

语言学习

个性化语音教学，支持多语言口音训练

内容创作

视频配音、播客制作的专业语音解决方案

无障碍应用

为视觉障碍人士提供个性化阅读体验

快速开始

立即开始使用 VoxCPM，仅需几步即可部署并体验免分词TTS技术

环境准备

首先克隆仓库并安装依赖：

$ git clone https://github.com/OpenBMB/VoxCPM.git
$ cd VoxCPM
$ pip install -r requirements.txt

模型下载

下载预训练模型权重：

$ huggingface-cli download openbmb/VoxCPM --local-dir ./checkpoints/VoxCPM

快速使用

使用Python脚本进行语音合成：

from voxcpm import VoxCPM

# 初始化模型
model = VoxCPM("./checkpoints/VoxCPM")

# 语音合成
audio = model.synthesize(
text="你好，这是VoxCPM的声音合成演示",
reference_audio="path/to/reference.wav"
)

GitHub 仓库模型下载学术论文

系统要求

• Python 3.8+
• PyTorch 1.13.0+
• CUDA 11.6+ (推荐 RTX 4090 或更高配置)
• 内存: 16GB+ RAM
• 显存: 12GB+ VRAM

常见问题

关于VoxCPM技术和使用的常见问题解答

免分词TTS技术摒弃了传统的文本分词步骤，直接在连续语音空间中建模。这种方法类似于在原始连续空间中创作音乐，而非将其切碎成MIDI音符再重建，从而保持了语音的自然流畅性和表现力。

VoxCPM在消费级GPU（如RTX 4090）上即可高效运行，实时因子达到0.17，生成速度比播放速度快6倍。模型参数量为5亿，在该领域属于轻量级设计，平衡了性能与效率。

只需提供3-10秒的参考音频，VoxCPM即可提取并复制说话人的音色特征，包括口音、情感基调等细微差别。系统通过分层语言建模实现语义与声学特征的隐式解耦，确保高保真度的声音克隆效果。

VoxCPM主要支持中文和英文，在180万小时双语语料上训练。同时支持跨语言声音克隆，可以将英文说话人的音色应用到中文语音生成中，反之亦然。对于其他语言，效果可能不如中英文理想。

VoxCPM采用Apache 2.0开源许可证，代码和权重完全开放。您可以从GitHub仓库获取源代码，从HuggingFace下载预训练模型，按照快速开始指南进行部署。任何人都可以研究、构建或改编这项技术。

VoxCPM

新一代免分词文本转语音 零样本声音克隆技术

立即体验 VoxCPM

演示暂时不可用

使用指南

零样本声音克隆

上下文感知

VoxCPM技术架构

核心技术创新

MiniCPM-4骨干网络

免分词端到端架构

FSQ量化技术

局部扩散Transformer

零样本声音克隆

技术实力指标

技术对比矩阵

VoxCPM

竞品对比

核心能力音频演示

跨语言克隆 - 英转中

跨语言克隆 - 中转英

情感表达 - 开心

情感表达 - 悲伤

上下文感知 - 新闻

上下文感知 - 故事

技术深度解析

学术论文

开源代码

快速开始

模型下载

API 文档

社区支持

技术亮点

应用场景

有声书制作

语言学习

内容创作

无障碍应用

快速开始

环境准备

模型下载

快速使用

系统要求

常见问题

什么是免分词TTS技术？

VoxCPM的硬件要求是什么？

如何实现零样本声音克隆？

VoxCPM支持哪些语言？

如何获取和使用VoxCPM？

新一代免分词文本转语音
零样本声音克隆技术