南师芳华 | 像鲎一样的爱情

加关注

微信号:比特人文


计划对100万词条人工标注


你有没有发现,我们平时说的很多比方,其实字典里根本查不到这层释义。比如,用“像猪一样笨”来形容某人愚蠢,现有字典中对于“猪”的解释只是:哺乳动物。头大,鼻和嘴长,眼小耳大,脚短,身体肥。肉可供食用,皮可制革等等。

“属于事物的认知属性范畴的词,一般是不见于字典或词典中的。”这样的认知空缺,在外国人学习汉语时、计算机对语言的自动识别上容易存在偏差。为此,南京师范大学语言学及应用语言学专业的6名同学组成了一个名为“汉语知识库建设”的科技创新实践小分队,展开了对100万词条的认知属性标注。他们的目标是建立一个“认知属性语料库”,并且实现可视化查询与呈现。

“项目立项后,我们先对1000个词条进行适应性训练,熟悉分类标准。”该实践小分队的徐亚芳同学介绍说,在暑假开始前,小组内部已经讨论和制定了一套标注规范,把词条认知关系定为九类,分别为正常属性、特指属性、相悖属性、附属属性、比喻属性、类别属性、比较属性、其他属性和错误。

  

以正常属性为例,如果词条是刀—锋利,锋利是刀自身带有的属性,所以标为正常属性。据悉,小分队进行标注的100万词条全部来自网络用语,主要通过“像A一样B”这个结构获取,希望通过标注A与B之间的认知关系,来理清特定词语的凸显特征。词语的认知属性是特定语言使用者文化、思维方式的结晶。

  

整个暑假,小分队的6位同学都沉浸在对词条的人工标注工作中。为何会进行这样的实践活动?该小组同学解释说,词语的认知属性知识库的建立有利于外国人学习汉语词语,对对外汉语教学具有积极意义,此外,对于计算机理解语言的真实含义,隐喻、反讽等修辞手法的自动识别等都有可利用的价值。


像鲎一样的爱情


“以‘刀子’这一词条为例,标注中有从刀子的动作角度进行描述的,比较典型的像刺、割、划、插、刻、切、剜等;也有从刀子的特性角度进行定义的,比较频繁的有锋利、锐利、凌厉、尖利等;还有从刀子给人带来的感受进行刻画的,主要以疼、痛以及含有这两个词特征的其他词语为主。”


参与标注的吉志薇同学介绍说,像这类标注很有实用价值,比如指导学生的作文,丰富他们的语言表达等。同时,她也认为通过这次标注,还能够发现人们对特定事物或现象的观点、态度等。


像蚂蚁一样小、像桌子一样大……除了这些常规的比方外,还有些词条很新颖,比如“像鲎(hou,四声)一样的爱情”。“第一次看到这个词条时很新奇。”邢翠鹃同学介绍说,搜索后才知道,鲎是一种壳似坚甲尾似剑的古老的海洋动物,成年后总是一雌一雄而且上雄下雌地结伴而行。


“它们朝夕相伴,形影相随,在海中,当你遇到结伴的成年鲎时,只要你抓住雌鲎的尾巴轻轻一提,伏在雌鲎背上的雄鲎也自然会跟着被提起来,因为它不会独自溜走,而是临危不惧,如痴如醉地紧紧抱在雌鲎的身上,这好像是在决计为雌鲎殉情似的。”


经过一个暑期的努力,标注项目的一期工作也已经接近尾声。据了解,近年来,语言学已经进入到科学与技术的互补时代,语言资源的建设为机器翻译、自然语言处理提供了大量的语言材料,为最终实现人机交互提供了可能性。



界世的你当不

只作你的肩膀

 无畏的太阳 

小编|I X|   |原文|新华网

原文刊载时间2013-09-03。目前认知属性库的建设已经完成,可访问cognitivebase.com