但是依靠每个人的声音文字转WAV音频