竟然只能认出一小半的意思文字转WAV音频