或者说实现了一定的默契文字转WAV音频