他们刚才看到的是他们得到了多少文字转WAV音频