这里的制约的确是双方面的文字转WAV音频