他们的担心是多余的文字转WAV音频