第二次拍摄显然就好多了文字转WAV音频