虽然他只是单纯的凭着直觉文字转WAV音频