还是通过外部网络还原之后文字转WAV音频