所以我认为目前可行的方案只有两个文字转WAV音频