完全可以先由本体去熟悉和记忆文字转WAV音频