所以它无需太过精确文字转WAV音频