它们必须老老实实执行文字转WAV音频