只不过他最多用到了六维的情况文字转WAV音频