按照机器人的思考模式推理一遍确实文字转WAV音频