按照剧本里的戏份估计文字转WAV音频