|
可爱的晴风终于放寒假咯,给大家开一个新的坑
- s- u# c% c0 Z# Z; `6 L7 G4 J9 M; p
声学模型
- \( _5 s9 C' V/ m/ { Y, q声学模型是声音合成系统的重要组成部分
! O1 ?8 f Z/ `8 D3 C
" O+ T3 Z n4 f6 E
1 s6 s% r$ H6 I6 N5 ^, J6 h主流的声学模型主要有Tacotron,FastSpeech等% o9 w! K* m% C" R! Y' O4 S8 P3 \% J
# y; S M& _) ], ~/ K3 UVITS也是一个声学模型
: K* G7 W7 p6 Z2 `) Z' j& NVITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种语音合成方法,它使用预先训练好的语音编码器 (vocoder声码器) 将文本转化为语音。, y" ]' T% C: l% Q- ^! ?& A
" b* ^; ]4 B5 ^. {( g6 i# n
* d9 C1 h% h/ H) U/ Q0 N- XVITS 的工作流程如下:* {+ \" I4 T6 \' t
将文本输入 VITS 系统,系统会将文本转化为发音规则。& Z0 \/ F- g& W
8 Q) D4 N x6 |0 x0 e. T0 ]
将发音规则输入预先训练好的语音编码器 (vocoder),vocoder 会根据发音规则生成语音信号的特征表示。
7 k x4 P" l& s7 b. D: m& Z8 b2 i1 b( j) W& H- }( c2 ~' ?# ~& G7 @; w* H
将语音信号的特征表示输入预先训练好的语音合成模型,语音合成模型会根据特征表示生成合成语音。
( B8 c4 h: Y, m [! \ G
2 o* c2 z# z0 s L! V7 Y4 A% TVITS 的优点是生成的语音质量较高,能够生成流畅的语音。但是,VITS 的缺点是需要大量的训练语料来训练 vocoder 和语音合成模型,同时需要较复杂的训练流程。
: U& Q' H# r/ ~. p# a4 A! e; Q& v: x7 P
# d4 A. F) D' GVITS项目) E" |8 X! N# N! f B
: {5 \) a( @- f- D |+ ?6 W8 K* S
6 s* e: q( }# h1 d% b原始项目地址
) _& _- z) s+ H6 o# l
" f, ^2 [, L5 @+ T, Lhttps://github.com/jaywalnut310/vits: B0 l6 m, F3 i
原始论文地址
2 C& f! H# S) q% \4 u' S1 |4 d0 q* h( q/ `9 m$ T
https://arxiv.org/abs/2106.06103/ {6 m9 v6 [ }+ b
参考资料
, M, k* j. x* X- g9 `3 a/ v$ k& O* r' H
cnlinxi/book-text-to-speech: A book about Text-to-Speech (TTS) in Chinese. (github.com)* g# l/ m2 @* t! v
4 p0 D7 q9 t* j9 yhttps://github.com/cnlinxi/book-text-to-speech
9 K5 w3 O. [7 w# C- y7 o+ a% o( }1 a8 U# ?- m& o$ B/ j
https://github.com/snakers4/silero-models# I$ [/ L5 l4 Z. e, D3 R- R
" J$ {% }6 u# D' ]9 U
https://wespeech.github.io/awesome-tts/tts-wiki/
, S3 U) v/ J& X+ K3 Z$ G$ ?. N! a3 \) i, A" j* O9 x
https://github.com/JusperLee/Speech-Separation-Paper-Tutorial7 t* y# D( P) _. U1 l- P
) {: {8 U* H3 j4 y/ ^3 F
作者:Harekaze晴风 https://www.bilibili.com/read/cv20837189 出处:bilibili
+ a" Y2 \, t% W) G% c; U7 t9 V# t# M4 N
|
|