但是他需要人的配合文字转WAV音频