而且每个人面对的又不是只有一只文字转WAV音频