他们从一开始就秉承一个文字转WAV音频