Skip to content

[tts] 基于 BERT 实现语音合成文本前端的停顿预测 #1282

@yt605155624

Description

@yt605155624

简单的序列预测问题,数据集可以用标贝的文本,其实就是判断每个字后面是否有停顿,如果有的话,是 #1~#4 中的哪一个,是一个 5 分类的序列预测问题
可以把标贝的文本和 aishell3 的文本结合到一起(但是 aishell3 只有两级停顿,需要考虑一下映射)
实在没有停顿数据的,可以用 MFA 的结果(sp 帧数 > 某个值表示长停顿、< 表示短停顿)
参考 example, 标点预测(BERT ERNIE 直接用 PaddleNLP 的模型,trainer 用 PaddleSpeech 提供的模板,自己需要补充的部分很少)

进阶:多任务的 BERT
image

Metadata

Metadata

Assignees

Type

No type

Projects

Status

Done

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions