知识图谱构建学习记录
现有国重项目对于知识图谱进行了解学习
知识图谱构建学习记录
- 主要学习《阿里云天池大赛赛题解析-深度学习篇》,赛题一——瑞金医院 MMC 人工智能辅助构建知识图谱
赛题解读
- 人工辅助糖尿病知识图谱构建,通过与糖尿病相关的指南与共识、研究论文等进行糖尿病文献挖掘,并构建糖尿病知识图谱
- 初赛——实体识别(15 类)
- 复赛——关系构建(10 类)
- 知识图谱核心就是构建描述的 SPO 三元组(subject、predicate、object),主要任务如下
- 识别主体与客体的实体识别(解决 S 与 O 的识别问题)
- 抽取实体对关系的预测(解决 P 的识别问题)
- 对多个知识图谱的实体进行对齐的知识融合(解决不同知识图谱的三元组队去)
- 理解句子中实体背后语义关系的指代消解(解决 S 与 O 的语义关系问题)
数据处理
- 常用的词向量表示:词向量(稀疏编码不能反映语义信息,占用空间大)与分布表示(稠密向量需要语言模型进行学习)
- 传统语言模型:词带模型(原句子顺序无关,只与字词出现的频率有关,TF-IDF 模型),n-gram 模型(极大似然估计,马尔可夫假设,词带是1-gram)。传统语言模型是通过计算句子序列的联合概率,不需要词向量。
- 神经语言模型,通常称为词嵌入模型。自编码器、无监督方式,隐层特征就是我们希望得到的词向量
- .txt 文件由无分段的多行文本组成,主要难点在于句子的划分方式
实体识别
- BIOES 标注(Begin、Intermedia、Other、End、Single)方法
- 有向图(贝叶斯网络)
- 无向图(马尔可夫随机场)、无向图模型的联合概率分布定义为归一化的最大团团势能之积,最大难点在于归一化函数的计算
- 隐马尔可夫模型(HMM)生成式有向图模型,常用于分词任务,表达能力有限
- 最大熵马尔可夫模型,判别式有向图模型,存在标注偏置的问题,每次状态转移倾向于选择更少转移的状态
- 条件随机场模型,判别式无向图模型
- 双向循环神经网络(BiRNN,包括BiLSTM、BiGRU),存在会出现 B——B 的形式,因为模型预测前后两个标注是独立的
- BiLSTM 与 CRF 结合可以有效解决相关问题