知识图谱构建学习记录

现有国重项目对于知识图谱进行了解学习

知识图谱构建学习记录

  • 主要学习《阿里云天池大赛赛题解析-深度学习篇》,赛题一——瑞金医院 MMC 人工智能辅助构建知识图谱

赛题解读

  • 人工辅助糖尿病知识图谱构建,通过与糖尿病相关的指南与共识、研究论文等进行糖尿病文献挖掘,并构建糖尿病知识图谱
  • 初赛——实体识别(15 类)
  • 复赛——关系构建(10 类)
  • 知识图谱核心就是构建描述的 SPO 三元组(subject、predicate、object),主要任务如下
    1. 识别主体与客体的实体识别(解决 S 与 O 的识别问题)
    2. 抽取实体对关系的预测(解决 P 的识别问题)
    3. 对多个知识图谱的实体进行对齐的知识融合(解决不同知识图谱的三元组队去)
    4. 理解句子中实体背后语义关系的指代消解(解决 S 与 O 的语义关系问题)

数据处理

  • 常用的词向量表示:词向量(稀疏编码不能反映语义信息,占用空间大)与分布表示(稠密向量需要语言模型进行学习)
  • 传统语言模型:词带模型(原句子顺序无关,只与字词出现的频率有关,TF-IDF 模型),n-gram 模型(极大似然估计,马尔可夫假设,词带是1-gram)。传统语言模型是通过计算句子序列的联合概率,不需要词向量。
  • 神经语言模型,通常称为词嵌入模型。自编码器、无监督方式,隐层特征就是我们希望得到的词向量
  • .txt 文件由无分段的多行文本组成,主要难点在于句子的划分方式

实体识别

  • BIOES 标注(Begin、Intermedia、Other、End、Single)方法
  • 有向图(贝叶斯网络)
  • 无向图(马尔可夫随机场)、无向图模型的联合概率分布定义为归一化的最大团团势能之积,最大难点在于归一化函数的计算
  • 隐马尔可夫模型(HMM)生成式有向图模型,常用于分词任务,表达能力有限
  • 最大熵马尔可夫模型,判别式有向图模型,存在标注偏置的问题,每次状态转移倾向于选择更少转移的状态
  • 条件随机场模型,判别式无向图模型
  • 双向循环神经网络(BiRNN,包括BiLSTM、BiGRU),存在会出现 B——B 的形式,因为模型预测前后两个标注是独立的
  • BiLSTM 与 CRF 结合可以有效解决相关问题

总结

作者

Lookup

发布于

2023-05-04

更新于

2023-09-14

许可协议