其他人都是直接计数文字转WAV音频