他推测的基础是错误的文字转WAV音频