所以他们都是在拖文字转WAV音频