毕竟目标是霍克托文字转WAV音频