他的担心显然是多余的文字转WAV音频