他捕捉进去的可能数量很少文字转WAV音频