我们又何必考虑第二个文字转WAV音频