观察出第二层的内容文字转WAV音频