但说话前却要判断和推算文字转WAV音频