最终还是稳住了身形文字转WAV音频