但对于他后半段的说话文字转WAV音频