基本上全是他间接传授的文字转WAV音频