写点什么

基于 50W 携程出行攻略构建事件图谱(含码源):交通工具子图谱、订酒店吃饭事件图谱等

  • 2023-07-20
    浙江
  • 本文字数:1083 字

    阅读完需:约 4 分钟

基于50W携程出行攻略构建事件图谱(含码源):交通工具子图谱、订酒店吃饭事件图谱等

基于 50W 携程出行攻略构建事件图谱(含码源):交通工具子图谱、订酒店吃饭事件图谱等

  • 项目构成

  • 本项目由两个部分的组成,具体包括语料的获取以及基于语料的事件挖掘两个部分,具体项目目录包括:

  • news_spider:基于 scrapy 的游记采集脚本

  • event_graph:基于依存句法与顺承模式的顺承事件抽取脚

  • image:游记顺承事件图谱效果图

1.出行领域语料的获取

  1. 语料来源:携程出行攻略

  2. 时间范围:2018 年 7 月 14 日之前

  3. 采集方式:使用 scrapy 编写爬虫脚本进行抓取

  4. 采集规模:共采集 505767 篇,量级 50W

  5. 采集脚本目录:news_spider/travelspider

  6. 语料举例:

2.基于出行语料的顺承事件图谱构建

2.1, 顺承事件的抽取

  • event_extract.py, 思想步骤如下:

  • 输入游记文本

  • 对游记进行长句切分

  • 基于构造的顺承关系模板,进行顺承前后部分提取, 转入 4)

  • 对 3)得到的部分进行短句处理,转入 5)

  • 对 4)得到的短句进行谓词性短语提取

  • 对 5)得到的谓词性短语向上汇聚,得到一个长句的谓词性短语有序集合

  • 对 6)步骤得到的谓词性短语集合,以滑窗方式构造顺承关系事件对

  • 对步骤 7)得到的顺承事件对进行汇总,最终得到顺承事件库

  • 对 8)进行事件进行整合,去除过低频次的事件,构造标准顺承关系库

2.2, 顺承事件图谱的展示

10)使用 VIS 插件进行顺承关系图谱构建与展示, event_graph.py


11)由于 VIS 作为一个封装的 JS 库,因此生成的顺承图谱在项目中暂时设置到 500,见 travel_event_graph.html

3.顺承关系图谱效果

3.1 总体图谱样式

以 500 个顺承事件, 进行顺承事件图谱展示,结果是一张事件网络,这是一个大的顺承关系图谱,由众多小子图谱构成


3.2 去丽江子图谱

该子图谱围绕"去丽江旅游"这一出行事件为核心形成的事件群:


3.3 飞机路线子图谱

该子图谱显示了选择飞机进行出行形成的事件序列


3.4 火车路线子图谱

该子图谱显示了选择火车进行出行形成的事件序列


3.5 订酒店事件图谱

该子图谱描述了一个"预定酒店不愉快事件",从预定到失望到总结,在这条顺承事件链表现出来


3.6 做饭事件图谱

该子图谱表示了一个"做饭"场景下的顺承事件,感觉也很有意思


4.总结

  1. 该项目只是一个基于 50W 文章领域语料,运用简单提取方式形成的顺承关系图谱 demo,还有很多不足

  2. 该项目目前是形成了事件节点为 326781 个, 顺承事件对为 543580 条,分别为 30W 和 50W 的图谱规模

  3. 对于谓词性短语进行事件表示是事件表示的一种方式,本方法只采用 VOB 关系进行提取,这种方式还有待改进

  4. 以 3)得到的结果中,还存在大量噪声,这一方面准确率受依存句法的准确性限制,另一方面该依存关系可能还相对单一,不够准确

  5. 在构造顺承事件序列的方法,本项目采用的是长句为单位下的滑窗方式进行构造,这个方式还有待改进

  6. 基于目前形成的顺承关系图谱还有待于进一步挖掘,可以在此基础上完成更多有价值的信息挖掘

项目码源链接

链接跳转



发布于: 刚刚阅读数: 5
用户头像

本博客将不定期更新关于NLP等领域相关知识 2022-01-06 加入

本博客将不定期更新关于机器学习、强化学习、数据挖掘以及NLP等领域相关知识,以及分享自己学习到的知识技能,感谢大家关注!

评论

发布
暂无评论
基于50W携程出行攻略构建事件图谱(含码源):交通工具子图谱、订酒店吃饭事件图谱等_人工智能_汀丶人工智能_InfoQ写作社区