第三层的比例为1000文字转WAV音频