在普通人眼里确实是可以这么理解文字转WAV音频