所以他们差的只是几个关键的地方文字转WAV音频