最终会在意识的控制下文字转WAV音频