直接回归了本色文字转WAV音频