但实际上在拍摄中来说文字转WAV音频