他只能认出一小半来文字转WAV音频