他们更多考虑的是罐头文字转WAV音频