|
可爱的晴风终于放寒假咯,给大家开一个新的坑/ x' I0 k4 p, S; V
$ s5 X8 J" W3 ~( H3 F) p- \) K" P声学模型0 D, F+ E5 D* d7 b" e6 e. B" p' W
声学模型是声音合成系统的重要组成部分! C9 \- R. `; ~" X
7 D+ b- I& b$ b4 u. p1 K" {& E: U0 C, z) B5 T" d
主流的声学模型主要有Tacotron,FastSpeech等
' X1 {* r+ D- ~
/ u6 @7 a, M6 SVITS也是一个声学模型
9 m. Z% |1 o* g' p& y- P# aVITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种语音合成方法,它使用预先训练好的语音编码器 (vocoder声码器) 将文本转化为语音。
+ U% k! ?+ f0 r2 M( n2 }. p2 @/ H/ W! a
. _: s3 P& I: u+ Z. MVITS 的工作流程如下:" G# W' o$ P& P- v3 }2 o8 n/ H9 U
将文本输入 VITS 系统,系统会将文本转化为发音规则。
7 M# @# O7 c) n, B U: R; Z
9 h6 F5 ^, t% W将发音规则输入预先训练好的语音编码器 (vocoder),vocoder 会根据发音规则生成语音信号的特征表示。
* p3 M6 f& q! F$ Z
! K: V( U Y6 _将语音信号的特征表示输入预先训练好的语音合成模型,语音合成模型会根据特征表示生成合成语音。
' Z# S0 W3 L p3 }9 I3 S9 y+ e
: d6 }: {' X& Q2 h2 q% PVITS 的优点是生成的语音质量较高,能够生成流畅的语音。但是,VITS 的缺点是需要大量的训练语料来训练 vocoder 和语音合成模型,同时需要较复杂的训练流程。
. r: x4 K# V8 A; s8 L$ S1 s! I) f6 o. i8 w
VITS项目
) Z# l2 b; J9 _' H4 \- K8 Z) D& i5 p2 Y1 V$ [5 Y4 r
! B( n1 i; ?" e- Z& M# F# l( A+ ^$ | m! I
原始项目地址8 Z2 P. |2 h% r X$ U* M0 b, q E
5 W; w/ i" i% Q3 ?( \; a7 m& \* Mhttps://github.com/jaywalnut310/vits# z; k& \* F/ D# K/ F. |
原始论文地址5 _) r- U; i' J, _* G8 f* u' u! V g
4 d; ], p* C( p- fhttps://arxiv.org/abs/2106.061036 a% V! k- P' a/ E- G2 G( f
参考资料# ]0 Y; v% _! o+ R) f1 r+ }
( F' X* O3 L6 U& q+ ?& Q+ j! D- g
cnlinxi/book-text-to-speech: A book about Text-to-Speech (TTS) in Chinese. (github.com)* @3 h- J3 E& Q3 d) ~! ]
4 W0 R6 q/ P3 ]https://github.com/cnlinxi/book-text-to-speech
, F* _. c1 F0 Z, _/ K3 h8 |# [# a9 ^8 z: C+ I# n
https://github.com/snakers4/silero-models
& r, V- j5 l7 a# G `$ B! B0 H5 Q; u; O G) }, Y
https://wespeech.github.io/awesome-tts/tts-wiki/9 ^" Z( H* W1 |- W
% K4 d! v3 ^0 p5 l% q0 _' O) [ https://github.com/JusperLee/Speech-Separation-Paper-Tutorial
( ?5 n C) T' `. S; Q
8 I( |0 z" a1 T 作者:Harekaze晴风 https://www.bilibili.com/read/cv20837189 出处:bilibili: ~) U3 u; Z6 O
0 | w& {0 e3 C' K. U |
|