他怎么能够拿到这些核心数据的文字转WAV音频