毕竟我们使用的是测试阶段的三代机文字转WAV音频