然后以口语相传文字转WAV音频