他们希望能感应到文字转WAV音频