只能根据一些杂书的内容推断出文字转WAV音频