|
|
可爱的晴风终于放寒假咯,给大家开一个新的坑: z. k! V0 y3 M. A: C: K9 k7 P" J) c
0 u. c# z# r! r9 ^' w* @
声学模型
7 l: H+ W# X* j6 z0 \0 E声学模型是声音合成系统的重要组成部分
% L* j, @' g. u8 s6 m8 ^" j6 m7 I
3 U: L( O3 z$ k) i, k9 I) ?1 v+ _) `6 e% E' c3 X
主流的声学模型主要有Tacotron,FastSpeech等
9 N1 \6 T5 X L! s, O5 g- z6 Z: k3 ]' e
VITS也是一个声学模型
( N/ W+ T( [" i$ ]VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种语音合成方法,它使用预先训练好的语音编码器 (vocoder声码器) 将文本转化为语音。
2 H7 e5 j5 Z6 |7 b0 s8 t0 E f6 @) M( q/ ]
9 r+ Z2 E6 J% L8 F0 U6 _) T0 JVITS 的工作流程如下:
% A# C) t* d r7 n$ a3 {6 U; V" v+ \将文本输入 VITS 系统,系统会将文本转化为发音规则。- r& @" k. X. x" H
, v/ b* e' P' K) P7 ^& }将发音规则输入预先训练好的语音编码器 (vocoder),vocoder 会根据发音规则生成语音信号的特征表示。. O! n/ O* {, A
. x' X! [6 L* N4 W将语音信号的特征表示输入预先训练好的语音合成模型,语音合成模型会根据特征表示生成合成语音。
7 w1 H2 e4 B# n* c- b" Z0 @7 D2 o" t; c T/ a# E" F6 q
VITS 的优点是生成的语音质量较高,能够生成流畅的语音。但是,VITS 的缺点是需要大量的训练语料来训练 vocoder 和语音合成模型,同时需要较复杂的训练流程。
8 K% c0 Z- L4 w; l- D
2 B7 A0 e9 d. b# m* S5 O. ~& KVITS项目. d: ~. W) }, | T* I# I3 ^8 X' W. o
# @& S9 T D3 |( ?% O. h
9 \( f0 g7 X+ d( g1 u
- R! }8 s3 T8 a; w* g# S6 L原始项目地址: {9 O( q) [0 J8 a7 X/ B& @
! q% M/ q3 F) Y+ n" ghttps://github.com/jaywalnut310/vits# I' k: h! T$ t% C0 C* y
原始论文地址3 ~7 [" T# i$ J( \* T2 f) q( `
/ I S+ g( ]: a K/ y: T
https://arxiv.org/abs/2106.06103
; ?# m+ L3 p |4 ?参考资料
9 P0 |# o: K9 j! q
" e4 N* @* W9 U! `0 rcnlinxi/book-text-to-speech: A book about Text-to-Speech (TTS) in Chinese. (github.com)
0 A1 c4 A, g: z& u- z
0 h, f6 ]3 ~' ?/ a# D) O0 w; u9 [https://github.com/cnlinxi/book-text-to-speech) s8 I( C& d' V! R
5 j7 R' L5 t3 ?https://github.com/snakers4/silero-models# f# y$ U% b3 [# }- M9 m
# x$ _, J' [4 T! g, ohttps://wespeech.github.io/awesome-tts/tts-wiki/) b; u4 {! w8 Y/ j6 }) S j
: s$ @- g0 W& f# K) p/ H https://github.com/JusperLee/Speech-Separation-Paper-Tutorial2 K# `2 X' v: ]/ ?7 f+ P
6 O/ E# ~4 ?- b% c* W 作者:Harekaze晴风 https://www.bilibili.com/read/cv20837189 出处:bilibili3 r. m1 z& k1 t. t0 H! S$ P
2 {, O; C" }# X( N |
|