整个过程只能完全依靠神识文字转WAV音频