在框架构造上的差异文字转WAV音频