在他们的眼中只能算一般文字转WAV音频