两者其实是相辅相成的文字转WAV音频