“Kokoro-82M”最近爆火的文本转语音 TTS 模型

小渣渣 · 发表于 2025-1-24 21:03:01

什么是 TTS？

TTS是Text To Speech的缩写，即“从文本到语音”，是人机对话的一部分，让机器能够说话。
它是同时运用语言学和心理学的杰出之作，在内置芯片的支持之下，通过神经网络的设计，把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换，转换时间之短可以秒计算。在其特有智能语音控制器作用下，文本输出的语音音律流畅，使得听者在听取信息时感觉自然，毫无机器语音输出的冷漠与生涩感。

Kokoro TTS

一款先进的AI文本转语音模型，拥有8200万参数，基于StyleTTS 2架构，提供高质量、自然的语音合成。地址：超链接登录可见。

微信截图_20250124205635.jpg

特点：

1. 开源且许可友好

Kokoro TTS 使用 Apache 2.0 许可证，无限制支持商用场景，是真正意义上的开源解决方案。

2. Hugging Face 排名优势

Kokoro TTS 在 Hugging Face 的 TTS Arena 排名第三。虽然 Play.HT 和 ElevenLabs 等模型排名更高，但它们并不支持商用，因此 Kokoro TTS 显得更具竞争力。

核心功能

参数小，性能强：Kokoro TTS 拥有仅 82M 参数，与其他需要庞大资源的模型相比，它显得格外高效。
多语言支持：支持中文、韩语、日语、法语、英语等五种语言。
多人物音色支持：提供多种男性和女性语音包，满足不同场景需求。提供了多达18种男女人物音色。
实时语音生成：在普通CPU上，Kokoro TTS可以近乎实时生成语音，而在GPU上，生成速度更是快到了令人难以置信的50倍实时速度。
自然的语音合成：Kokoro TTS 生成的语音自然流畅，接近人类语音。无论是用于语音助手、有声读物，还是角色配音，均能提供高质量的语音体验。
ONNX 版本：提供轻量级、无需依赖 GPU 的部署选项，非常适合实时应用场景。

在线体验：超链接登录可见。
模型下载：超链接登录可见。

小渣渣 · 发表于 2025-5-26 10:43:02

B 站开源项目 IndexTTS 部署教程
https://www.itsvse.com/thread-11011-1-1.html

		自动登录	找回密码
密码			注册[Register]

“Kokoro-82M”最近爆火的文本转语音 TTS 模型

相关帖子