因为我们无法通过拍摄技术进行有效的体现文字转WAV音频