其实上面一部分是设备层文字转WAV音频