而是纯粹的记录文字转WAV音频