能依靠的只有彼此文字转WAV音频