一贯是按照人头分配的文字转WAV音频