低成本 tts 方案 - V2EX

自己折腾个小工具, 需要克隆音色生成语音 tts(text-to-speech),主要要求:
1. 推理时间尽量实时(100 字符/10s)
2. 多音色支持
目前直接使用火山或者腾讯云的大模型,单个音色费用太贵了(>50),自己搭建 GPU 服务器也很贵(16G T4 约 1000/月),实时性也不太好
有没有比较低成本的方案推荐?

TTS 音色低成本

34 条回复 • 2025-08-30 14:37:25 +08:00

1

knva

2025 年 8 月 29 日

基本没有。

2

letking

2025 年 8 月 29 日

买个显卡自己部署模型，加内网穿透

3

AoEiuV020JP

2025 年 8 月 29 日

你到底是要克隆音色还是要 tts ？
tts 最低成本的应该就是直接调用系统的 tts ，
克隆音色需要 AI 算力，就没有便宜的，一个小工具搞什么克隆音色，

4

8820670

2025 年 8 月 29 日

#3 说的对调用系统 TTS 是最方便的。
前段时间才做过： https://www.v2ex.com/t/1153662#reply0
不过移动端支持其实挺一般的，具体得自己试试

5

8820670

2025 年 8 月 29 日

@8820670 另外就是 edge 浏览器有一套在线的 tts 有不少 github 开源的库可以直接调用。但是这种不一定能非常长期的使用。
搜 edge_tts

6

yulon

2025 年 8 月 29 日

我是 Mac mini 4 当副机，跑 GPT-SoVITS ，也就 3G 显存左右吧，看你要不要并行，并行还会多一点

7

chengz

OP

2025 年 8 月 29 日

@AoEiuV020JP @8820670 我没说清楚,是自定义音色的 tts, 单纯 tts 是很便宜

8

chengz

OP

2025 年 8 月 29 日

@AoEiuV020JP 自定义音色的 tts, 单纯 tts 是很便宜

9

Leon6868

2025 年 8 月 29 日

1

fish speech 、cosyvioce （ vllm ），本地部署，3060

10

glouhao

2025 年 8 月 29 日 via Android

我的显卡是 A770 16g 然后调整不好一直是 cpu

11

zenghx

2025 年 8 月 29 日 via iPhone

[VibeVoice 实现 90 分钟、多角色播客生成，拓展语音合成新边界]( https://www.microsoft.com/en-us/research/articles/vibevoice/) 这个怎么样

12

zenghx

2025 年 8 月 29 日 via iPhone

@zenghx 没看到自定义的需求，打扰了😂

13

aishellphy

2025 年 8 月 29 日

用 f5-tts ，在 windows 电脑上跑，自带加速引擎，速度特别香

14

yulon

2025 年 8 月 29 日

@zenghx VibeVoice 听说显存要占十多 G ，没有音色，当普通 TTS 用，成本也太高了，适合公司用吧

15

abersheeran

2025 年 8 月 29 日

自定义音色可以用 fish.audio

16

Latin

2025 年 8 月 29 日

f5-tts 之前实测过太慢了

17

jackOff

2025 年 8 月 29 日

买个有 4G 显存 3050 显卡的二手笔记本，基本上可以稳定高效跑 GPT-SoVITS

18

UnluckyNinja

2025 年 8 月 29 日

https://github.com/RVC-Boss/GPT-SoVITS
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
TTS 用上面的，SVC 用下面的，没上手用过，只是有所耳闻

19

realJamespond

2025 年 8 月 29 日

配置最简单是 indextts,1066 batch2 能跑两章小说 batch3 一章，多音字直接拼音替换

20

dzdh

2025 年 8 月 29 日

阿里音色克隆免费的吧.

21

rammiah

2025 年 8 月 29 日

minimax 一个音色 10 块钱，合成声音的话 4 元/1w 汉字

22

TQQQ

2025 年 8 月 29 日

StyleTTS+Vocos ，开源的非自回归模型，可以直接部署在 cpu 服务器上，4090 上训练大概要一周左右。但是年头有点久了，效果比不上 cosyvoice/indextts 这些

23

bigtear

2025 年 8 月 29 日

微调 Kokoro TTS 吧，满足你的需求，速度快，可自定义音色（微调音色 pt 文件）

24

Huelse

2025 年 8 月 29 日

自己调模型 https://github.com/benjaminwan/ChineseTtsTflite

25

tcper

2025 年 8 月 29 日

自己搭完就会发现还是云服务便宜

26

looveh

2025 年 8 月 29 日

怎么没有 index-tts

27

looveh

2025 年 8 月 29 日

@looveh RTX 3090 实测 120 字不到 20s

28

pipi32167

2025 年 8 月 29 日

同推荐 minimax ，效果可以的。价格也不贵。

29

pipi32167

2025 年 8 月 29 日

@bigtear 之前 Kokoro 放出来的中文一言难尽。。。不过能微调 Kokoro 的话确实又快又好。

30

DefoliationM

2025 年 8 月 29 日 via Android

chrome 自带的不要钱，直接用 js 的 api 。

31

bigtear

2025 年 8 月 29 日

@pipi32167 #29 你用 1.1 新版的，很不错了已经，达到了 edge tts 的水平

32

cwcc

2025 年 8 月 29 日

我直接用 macOS 自带的个人声音生成自己的声音，也够用了。

33

yulon

2025 年 8 月 30 日

楼上那么多说 minimax ，早上试了下刚用几次就 504 了，没绷住

34

RobinHuuu

2025 年 8 月 30 日 via iPhone

试过手机 app/安卓端，可下载和使用离线模型，效果还行

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

关于 · Language

© 2026 V2EX · 49ms · 3.9.8.5