这标准还是照搬的前朝文字转WAV音频