他们不仅需要补给文字转WAV音频