的确是难以推算文字转WAV音频