这个逻辑是很容易就推断出来的文字转WAV音频