或许是因为很少见过人类文字转WAV音频