实际上是一个开放式的结尾文字转WAV音频