核心问题在于他们怎么看待电影文字转WAV音频