然后根据实际表现总结出来一些特定词汇出来文字转WAV音频