所以它们在面对人类时文字转WAV音频