他需要更加主动地去领悟文字转WAV音频