但因为行人的稠密文字转WAV音频