最终他还是选择了前者文字转WAV音频