更多的可以说是一种折衷文字转WAV音频