最终划定了一个大致区域文字转WAV音频