就需要消耗一百万贡献文字转WAV音频