虽然他们最初是因为意识到了文字转WAV音频