向 aishell3 里添加自己的音频数据进行训练

如题，tts 中，我想给 aishell3 数据里额外添加一些数据来进行训练(采样率相同)，对于 am 和 voc，请问我除了需要 '文本内容' 和 '音频数据' 外，还需要其他东西吗？我看到其他 issue 里面说，直接给 aishell3 的数据里面加一个 speaker_id 即可，那除此之外的步骤能大概描述一下吗？非常感谢！