所以他们只能在混迹在最底层文字转WAV音频