得多次重复指令才能让其听话文字转WAV音频