是根据所占位置的不同来判定的文字转WAV音频