但是我认为这个标准只是罗列了能够通过具体数据来细化的标准文字转WAV音频