标准未必是硬性的文字转WAV音频