他的思路是对着文字转WAV音频