因为它实际上是一个组合性的技术文字转WAV音频