这等于是一个大概的统计文字转WAV音频