他们的身份是文字转WAV音频