所以很难协调行动文字转WAV音频