所以这个半成的比例是偏高的文字转WAV音频