他们的注意力分成两块文字转WAV音频