能随意根据注目持续时间和专注文字转WAV音频