最后不得不退到文字转WAV音频