知识图谱(3)-实体提取
date
Sep 15, 2022
slug
KG-Entity-Extraction
status
Published
tags
KG
实体提取
summary
type
Post
第三章 实体抽取
参考:知识图谱发展报告(2022)下载链接 (访问密码: 2096)
一、任务定义、目标与研究意义
实体是构成世界的基本单元,而在文本中,实体则是承载信息的核心。一段文本所蕴含的信息,通常可由其包含的实体及实体间的相互联系来表述。知识图谱本质上是一个以实体为节点的巨大知识网络,因此,文本中的实体及其关联信息是构建知识图谱的最重要知识来源。
实体抽取(Entity Extraction)的主要目标是从非结构化文本当中识别出实体提及(Entity Mention),并将其划分到预先指定的类别体系中,例如人名、地名、机构名、日期等。以句子“美国白宫首席副新闻秘书卡琳·让·皮埃尔新冠检测结果呈阳性”为例,实体抽取任务需要识别出“卡琳·让·皮埃尔”为人名,“美国”为地名。
作为海量文本分析和知识图谱构建的核心技术,实体抽取是文本语义理解的基石,为解决信息过载问题提供了有效手段。它通过将文本结构化为以实体为中心的语义表示,为舆情监控、网络搜索、智能问答等下游应用提供了关键的基础支撑,是实现大数据资源化、知识化和普适化的核心技术之一。
二、研究内容与挑战
实体抽取的核心研究对象是如何从文本中识别指定类别的实体,通常包含实体边界识别(判断一个字符串是否构成完整实体)和实体分类(将识别出的实体划分到指定类别)两个子任务。在人名、地名、机构名等通用特定领域,中英文实体抽取的F1值已能达到90%以上。
然而,当前该领域的核心挑战在于如何将限定领域的优良表现迁移至开放领域,这面临以下几个核心挑战:
- 类别开放:限定领域通常只关注少数实体类别,而开放领域则需要处理数量庞大、粒度不一的各种实体类别。例如,实体类别从早期的几十个(如BBN数据集的64类、OntoNotes的87类)已扩展到数万个(如利用WordNet构建的10331类)。同时,不同领域(如计算机科学的SciREX、生物领域的BC5CDR)的类别体系各不相同,类别间还存在上下位、共现等复杂关系,使得孤立考虑每个类别的方法低效且不切实际。
- 实体结构复杂:传统实体抽取主要关注“扁平化”实体(Flat NER),不考虑实体间的嵌套、重叠及不连续情况。但在开放领域中,复杂结构十分常见。例如,“中华人民共和国教育部”中同时包含了“中华人民共和国”和“教育部”两个嵌套实体;“心、肺功能异常”中包含了“心功能异常”和“肺功能异常”两个重叠实体。以CRF为代表的传统模型难以建模此类复杂结构。
- 标注资源缺乏:由于类别开放和结构复杂,为所有待抽取类别构建充足、高质量的标注资源极其困难。现有的大量实体类别仅有极少量标注数据。尽管存在一些外部或半标注资源,但它们通常质量较差、噪声大,且与目标任务存在知识不匹配的问题。如何利用极少量标注数据训练出有效的抽取模型,是开放领域实体抽取的另一大挑战。
三、研究现状与发展趋势
深度神经网络方法已成为实体抽取的主流。近年来,预训练语言模型的兴起更是为实体抽取领域带来了深刻变革,为解决上述三大挑战提供了重要的技术基础。下面将从模型架构、学习算法和模态融合三个层面介绍其研究现状。
1. 模型架构:从序列标注到生成模型
传统方法通常将实体抽取建模为序列标注问题,其中条件随机场(CRF)模型最为常用。但CRF的语义表达能力有限,难以处理嵌套、重叠等复杂结构。
为解决此问题,研究界设计了多种面向复杂结构的特定抽取结构:
- 针对嵌套与重叠实体,提出了基于依存树节点、超图结构、以及基于转移系统(Transition-based)的模型。此外,锚点-指针网络(Anchor-pointer Network)将任务转化为识别不同锚点对应的实体边界。
- 针对非连续实体,主要工作聚焦于扩展传统的BIO标注体系,并引入超图、团(clique)等特殊结构。
这些方法虽然在特定任务上有效,但其标记结构适用范围窄,且设计复杂以避免歧义。近年来,研究趋势转向更灵活、通用的任务范式,如**区块抽取(Span Extraction)和生成式(Generative)**模型。前者将任务转化为类似阅读理解的区块抽取,后者则直接生成目标实体的位置或区块。这类模型对数据依赖度低,可复用性与迁移性好,能有效利用其他任务的资源,是未来迈向实际应用的重要方向。
2. 学习算法:从粗粒度有监督到细粒度小样本学习
传统实体抽取研究多依赖大规模标注语料进行有监督学习。但在开放领域,这一前提难以满足。因此,近年来的工作重点转向两大挑战:开放类别的细粒度实体抽取与资源缺乏的小样本实体抽取。
- 对于开放类别抽取,主要有两条技术路线:
- 数据层面:利用远距离监督或数据增强等弱监督方式,为模型提供额外数据。这类方法不需改动模型,但面临数据质量差、噪声大和覆盖度不足的挑战。
- 模型层面:利用标签间的关联信息辅助抽取。通过预设的标签结构或自动学习标签间的隐式关系,提升在稀疏资源类别上的抽取性能。
- 对于小样本实体抽取,通常包括预学习、微调和预测三个阶段。现有方法可归为三类:
- 基于原型学习(Prototype-based Learning):利用少量样本为新类别构建原型,并据此进行抽取。
- 基于弱监督学习:利用少量样本从大规模无标签语料中扩充训练数据。
- 基于自学习(Self-learning):通过模型与数据间的相互迭代,让模型在少量标注数据和大规模无标注数据上自我学习和提升。
3. 模态融合:从单语单模到多语多模
深度学习与预训练模型打通了不同语言与模态间的信息壁垒,使得多语言、多模态实体抽取成为研究热点。
- 多语言实体抽取:核心思路是“单语标注,多语使用”。通过利用富标注语言的资源,提升低资源语言的抽取性能。技术手段包括数据对齐(如利用Wikipedia的多语链接)、表示对齐(利用多语言模型将不同语言映射到统一语义空间)和知识蒸馏。
- 多模态实体抽取:通过引入图像、语音等额外模态信息,辅助完成文本实体抽取,尤其是在短文本或不规范文本等存在歧义的场景中。主要技术包括表示层融合与跨模态多任务学习。
四、产业发展现状
实体抽取作为自然语言处理的基础技术,已在产业界广泛应用。国内外人工智能厂商(如百度、阿里、华为、腾讯)均在其开放平台中提供了实体抽取服务,并针对法律、金融、医疗等垂直领域提供定制化服务。
同时,学术界和工业界也涌现了众多优秀的开源工具,如LTP、FudanNLP、CoreNLP、Stanza、THULAC、HanNLP和spaCy等。这些工具通常内置了基础的命名实体识别模型,但对于开放领域的复杂抽取支撑仍显不足。
实体抽取的应用场景十分广泛:
- 新闻媒体:辅助新闻采编,提高工作效率。
- 法律服务:识别法律文书中的关键信息,构建知识图谱,实现类案推荐与法条关联。
- 电商领域:从快递单据中提取姓名、电话、地址等结构化信息,提升处理效率。
- 医疗领域:识别电子病历中的医学实体,辅助病历质控、优化诊疗流程。
- 行业知识图谱构建:在汽车、政务、油气勘探、客服等领域,通过实体抽取整合信息,构建知识图谱,支撑智能导购、高效问答和多轮对话系统。
五、总结与展望
实体抽取正从限定领域迈向开放领域,面临着类别开放、结构复杂和标注缺乏三大挑战。深度学习和预训练语言模型的兴起为解决这些挑战带来了范式级的变革。
然而,开放领域的实体抽取仍面临诸多难题。未来,如何设计更通用、高效、高速的模型架构,如何更充分地利用现有资源以实现模型的快速跨类别泛化,以及如何更好地实现多模态多语言的深度融合,将是实体抽取领域在大模型时代所面临的重要挑战和研究方向。