但大都数属于平原文字转WAV音频