完全可以做到他们口中的文字转WAV音频