毕竟涉及到了上层了文字转WAV音频