他们也难以推演文字转WAV音频