运行联合流式语音识别和标点预测很慢 一个40秒的音频要500多秒