但是他们一再强调需要足够的安静文字转WAV音频