传统派的做法是文字转WAV音频