我最多就能分辨出软绵绵的和激昂的文字转WAV音频