他的推论或许更加符合文字转WAV音频