确实应该坚持文字转WAV音频