我可以从他的躯干上面估计文字转WAV音频