话说,人工智能已经来到了一个重要的拐点,自然语言语义的精准理解已经成为皇冠上的明珠,谁有本事摘取这颗明珠,谁就能在历史上留下浓墨重彩的一笔。
但是,语义是什么?语义知识长什么样?e世博官网应该建设什么样的语义知识基础设施,才能够满足夺冠的需要?这些问题,可能是很多人想了解但又被各种走捷径的思潮所诱惑下不了决心深入了解的。
在这种情况下,e世博官网隆重推出骨灰级NLP专家原创的《闲话语义》系列,期待能够对大家有所帮助和启发。
什么是语言?
语言是人类或类人智能系统在交际活动中产生并使用的、以“牺牲自己、代表别人”为主要特点的线性符号系统。语言可以分为自然语言和人工语言,e世博官网这个闲话系列中只考虑自然语言。
牺牲自己,就是说符号自身在正常的交际过程中被忽略。符号成为“能指”,处于“元层次”。
代表别人,就是说符号在正常的交际过程中是符号之外的某些事物的代表/表示/表达。符号所代表之物成为“所指”,处于“对象层次”。
当然,在“非正常的”交际过程,比如歧义/双关、修辞手法、语言游戏、语言相关的学术研究等活动中,符号自身会被关注,会被强制拉扯到意义层面,形成层次纠缠。
比如,相声《答非所问》中,向e世博官网展现了一个答非所问的语言游戏,里面有一个问者,一个答者,问者连续问五个问题,答者对每个问题的问答都必须答非所问,否则算输。当问者问到“几句了?”的时候,答者回答“三句了”,被问者抓到把柄。后来重复玩这个游戏的时候,答者在第三句时防范了一下,没想到问者在第四句又设下了连环套,让答者再次中招儿。
其实,人类使用自然语言的时候,可以无感地在对象层次和元层次之间来回切换。但是这个切换是不需要明示的,全靠语言交际双方的默契。当默契被故意打破的时候,元层次和对象层次之间的差异才被揭示出来。就好像只有戏法演砸了或者在戏法中讲解戏法的时候,e世博官网才会了解戏法是怎么变的。
通过类似这段相声的场景,e世博官网了解了语言其实是符号系统,它的背后有一个符号所代表的世界,这就是意义的世界,就是语言“牺牲自己、代表别人”当中的“别人”的世界。这个世界,e世博官网称之为“语义”。
什么是语义?
关于语义世界,有三种典型的观点:
柏拉图主义,认为意义存在于一个由抽象事物组成的世界之中。(以手指月,手不是月,月是独立于手而存在的)
行为主义,认为词语的意义就是词语的使用的总和。(以手指月,月是否存在无关紧要,指月的所有动作的总和就等价于月)
唯名论,认为词语的意义就是词语本身,不存在符号之外的意义的世界。(以手指月,手即是月)
哥德尔不完全性定理表明,一个形式化的符号系统中只要丰富到足以包含算术,就不能完全代表它所指的模型,模型总是比形式系统更为丰富。换言之,从理论上说,唯名论是错的,行为主义是有局限的,柏拉图主义是对的。
在人类的语言实践中,各个自然语言无一例外地都有歧义现象(人工语言如世界语暂不论)。比如“The scene ofthe crime is at the bank ” 其中的bank就有河岸和银行二解。单纯孤立的符号不足以消解此歧义。歧义现象的存在说明,从实践上看,唯名论是错的,不足取;行为主义是可操作的,可作为底线目标;柏拉图主义是理论上更彻底的,是构建语义知识的理想境界。
语义是有结构的,语义的结构既通过符号的结构得到反映,又从总体上说比符号的结构更加丰富多彩。
语义知识及其形式化表示
本 体
最后e世博官网来说说本体。
本体(Ontology)原本是一个哲学概念。在语义表示的几十年发展进程中,逐渐渗透到人工智能当中来,不仅用于构建形式化的、全面广泛关联的语义表示体系,也用于构建具有推理和漫游能力的知识服务体系。但是,很多人说到本体的时候,其实说的是实体知识库。其实,实体知识库是本体的实例化,又是本体局限于实体类对象的产物。如今,除实体之外,事件也已进入本体的视野,成为本体的顺理成章的组成部分。事件既有自身的上下位结构,又通过格角色和角色名(范畴词)等途径与实体发生千丝万缕的联系。所以e世博官网再次把“四象限模型”拿出来说事儿:本体与实例是纵向二分,实体与事件是横向二分。严格意义上的本体并不包含实体,但本体天然包含事件。所以重要的事情说三遍:本体在第一、二象限,实体知识库在第三象限,它不是本体,不是本体,不是本体!