我们可能很难接近目标文字转WAV音频