知识图谱(4)-关系实体提取
date
Sep 16, 2022
slug
KG-Relation-entity-extraction
status
Published
tags
KG
关系实体提取
summary
type
Post
第四章 实体关系抽取
参考:知识图谱发展报告(2022)下载链接 (访问密码: 2096)
一、任务定义与研究意义
实体关系抽取(Entity Relation Extraction)旨在从非结构化文本中检测并识别出实体之间存在的特定语义关系,并以结构化的三元组(如
<实体1, 关系, 实体2>)形式存储。例如,对于文本“华扬联众数字技术股份有限公司于2017年8月2日在上海证券交易所上市。”,关系抽取系统应输出 <华扬联众数字技术股份有限公司, 上市时间, 2017年8月2日> 和 <华扬联众数字技术股份有限公司, 上市地点, 上海证券交易所上市> 等三元组。作为信息抽取的关键环节,实体关系抽取不仅是构建大规模知识图谱的核心技术,也是实现从文本语法分析到语义分析的关键步骤。它为智能信息检索、智能问答、人机交互等应用提供关键支撑,对自然语言处理、机器学习、逻辑推理等多个学科的理论完善与发展具有重要的推动作用。
二、研究内容与核心挑战
实体关系抽取的研究内容主要围绕语义关系表征、抽取数据处理和复杂关系建模三个方面展开。然而,该任务面临着源于自然语言内在特性的三大核心挑战:
- 自然语言表达的多样性:同一语义关系可以通过多种不同的文本模式进行表达。例如,“总部位置”关系可以表述为“X的总部位于Y”、“X总部坐落于Y”或“作为X的总部所在地,Y”等,这种表达的多样性对模型的泛化能力提出了极高要求。
- 关系表达的隐含性:文本中有时并不包含明确的关系标识词,需要通过上下文进行推理。例如,从“蒂姆·库克...透露了他将带领苹果公司进一步开拓中国市场的讯号”中,虽然没有直接陈述,但可以推断出蒂姆·库克与苹果公司之间存在“CEO”关系。
- 实体关系的复杂性:真实世界中,一对实体间可能同时存在多种关系(如北京和中国的“首都”、“政治中心”等多重关系),并且某些关系具有时效性(如“夫妻关系”可能因离婚而变为“前夫/前妻关系”)。这种关系的共存性和时空依赖性为精确抽取带来了巨大挑战。
三、技术方法与研究现状
实体关系抽取的技术已从早期的基于“特征工程”的机器学习方法,发展到利用远程监督自动标注语料,再到当前由深度学习,特别是预训练语言模型(如BERT、GPT)主导的新范式。以下将从语义关系表征、数据处理和复杂关系建模三个维度介绍其技术现状。
1. 语义关系表征
当前,基于神经网络自动学习关系特征已成为主流。早期工作多采用“流水线(Pipeline)”方法,即先进行实体识别,再进行关系分类。这种方式存在错误传播问题,且忽略了两任务间的内在关联。
为解决此问题,**联合抽取(Joint Extraction)**模型应运而生,并已成为研究热点。其核心思想是利用实体识别任务来辅助学习更优的关系特征。目前主要有三类联合抽取范式:
- 序列标注(Sequence Labeling):该方法通常在预训练语言模型之上,构建一个统一的标注体系来同时完成实体和关系的抽取。例如,通过设计特定的标签(Tagging Scheme)将关系信息融入到实体标签中。后续研究通过引入分层强化学习、多任务学习或构建层级标注框架来增强实体与关系的交互,并更好地处理关系重叠问题。
- 表填充(Table Filling):此范式将句子中的词对视为一个二维表格或矩阵,实体识别任务对应于填充对角线,而关系分类则对应于填充上三角或下三角区域的元素。这种结构天然适合处理实体嵌套和关系重叠问题。后续工作通过引入多头选择机制(Multi-head Selection)、单阶段解码等方式,进一步解决了三元组重叠和暴露偏置(Exposure Bias)问题。
- 序列生成(Sequence Generation):该方法将关系抽取任务重新定义为一个序列到序列的生成问题,直接生成包含实体和关系的结构化文本。早期的工作采用带拷贝机制的CopyNet来生成三元组。为了解决长实体生成困难和自回归解码带来的暴露偏置问题,后续研究提出了树状解码、非自回归解码等更优的生成策略,显著提升了模型的性能。
2. 抽取数据处理
神经网络是典型的数据驱动模型,高质量的标注数据至关重要。针对人工标注成本高、一致性差的问题,研究界探索了多种数据处理技术。
- 远程监督(Distant Supervision)与噪声处理:该技术通过将知识库与非结构化文本对齐,自动生成大量训练数据。其核心挑战在于由对齐假设带来的错误标签噪声。为缓解此问题,研究者提出了基于多示例学习(Multi-instance Learning)的方法,通过引入句子级别的注意力机制或对包内所有句子进行最大池化操作来选择或聚合信息。此外,负样本学习和示例对比学习也被用于直接过滤或抑制噪声样本。
- 小样本关系抽取(Few-shot Relation Extraction):为解决真实场景中大量关系类型缺乏标注数据(长尾问题)的挑战,小样本学习被引入关系抽取。通过构建如FewRel等基准数据集,研究者基于原型网络、多级匹配策略和预训练语言模型等技术,探索模型在极少标注样本下的快速泛化能力。
- 从预训练模型中抽取知识:近年来,研究发现预训练语言模型(PLM)自身记忆了大量的世界知识。通过设计“完形填空”式的查询(如LAMA任务),可以直接从PLM中“探查”出事实性知识。这为将PLM作为一个现成的、开放的知识库进行关系抽取开辟了新的研究方向。
- 联邦学习(Federated Learning):针对金融、医疗等领域的隐私保护需求,联邦远程监督关系抽取被提出。它通过跨平台的协作学习和基于集成蒸馏的训练框架,在保护数据隐私的同时,缓解数据噪声问题并降低通信开销。
3. 复杂关系建模
传统关系抽取多处理单个句子内的二元简单关系。为适应更复杂的真实场景,研究已向更复杂的单位和关系类型扩展。
- 文档级关系抽取(Document-level RE):当实体对的关系需要整合文档中跨越多个句子的信息才能判断时,就需要进行文档级关系抽取。为此,研究者构建了如DocRED等大规模数据集,并提出利用图神经网络(GNN)来建模实体间的复杂交互和推理路径。
- 多元、跨文档与开放关系抽取:研究进一步扩展到多元关系(N-ary Relation,涉及两个以上实体)、跨文档关系(Cross-document RE,需从多篇文档中聚合信息)和开放关系抽取(Open RE,旨在发现预定义类别之外的新型关系)。这些研究通过引入基于图LSTM的网络、持续学习(Continual Learning)和原型表示等方法,来解决更具挑战性的抽取任务。
- 多模态关系抽取:随着多媒体内容的普及,研究开始探索融合文本、图像等多种模态信息进行关系抽取。例如,利用面部图像信息来辅助判断文本中人物的社会关系。
四、发展趋势
实体关系抽取技术正朝着更智能、更稳健、更融合的方向发展,主要趋势包括:
- 新类别/开放类别上的小样本学习能力:真实场景要求模型能快速学习新知识。利用预训练-提示(Prompt)学习范式,摆脱对大规模微调数据的依赖,实现高效的开放类别小样本关系抽取将是关键方向。
- 数据隐私保护下的关系可信抽取:在金融、医疗等敏感领域,如何在保护数据隐私的前提下,自动生成大规模可信数据,并训练出鲁棒、高效的关系抽取模型,是技术落地面临的核心挑战。
- 多模态关系抽取:未来的信息抽取将面向包含丰富布局和多媒体信息的富文本文档。设计能够融合文本、视觉、听觉等多模态信息的预训练模型和抽取框架,是提升抽取能力的重要途径。
- 数据驱动与知识驱动的融合:单纯的数据驱动方法在达到一定瓶颈后难以提升。模拟人类决策过程,将专家知识(如逻辑规则)与数据驱动的神经网络模型进行深度融合,构建神经符号(Neuro-symbolic)学习框架,是突破当前性能瓶颈的关键挑战。