如题,tts 中,我想给 aishell3 数据里额外添加一些数据来进行训练(采样率相同),对于 am 和 voc,请问我除了需要 '文本内容' 和 '音频数据' 外,还需要其他东西吗?我看到其他 issue 里面说,直接给 aishell3 的数据里面加一个 speaker_id 即可,那除此之外的步骤能大概描述一下吗?非常感谢!