但是他计算了一下投入的时间和精力文字转WAV音频