最终的安排是文字转WAV音频