现在是不是就当是训练里的矛盾文字转WAV音频