他们只得顺着声音不断向内寻找文字转WAV音频