而是直接从他们的面前文字转WAV音频