似乎是在衡量着什么文字转WAV音频