颜苏提出了一个更为可怕的假设文字转WAV音频