肯定会考虑他们的情绪文字转WAV音频