只不过你在跟踪时文字转WAV音频