我倒是觉得第二种的可能性最大文字转WAV音频