争议点在于坐标问题文字转WAV音频