所以他记得大体位置文字转WAV音频