从零开始构建一个电影知识图谱，实现 KBQA 智能问答 [下篇]：Apache jena SPARQL endpoint 及推理、KBQA 问答 Demo 超详细教学

作者：汀丶人工智能

2023-07-11
浙江
本文字数：10317 字
阅读完需：约 34 分钟

从零开始构建一个电影知识图谱，实现 KBQA 智能问答[下篇]：Apache jena SPARQL endpoint 及推理、KBQA 问答 Demo 超详细教学

效果展示：

1.Apache jena SPARQL endpoint 及推理

在上一篇我们学习了如何利用 D2RQ 来开启 endpoint 服务，但它有两个缺点：

不支持直接将 RDF 数据通过 endpoint 发布到网络上。
不支持推理。

这次我们介绍的 Apache Jena 能够解决上面两个问题。

1.1.Apache Jena 简介

Apache Jena（后文简称 Jena），是一个开源的 Java 语义网框架（open source Semantic Web Framework for Java），用于构建语义网和链接数据应用。下面是 Jena 的架构图：

本次实践我们会用到的组件有：TDB、rule reasoner 和 Fuseki。

TDB 是 Jena 用于存储 RDF 的组件，是属于存储层面的技术。在单机情况下，它能够提供非常高的 RDF 存储性能。目前 TDB 的最新版本是 TDB2，且与 TDB1 不兼容。
Jena 提供了 RDFS、OWL 和通用规则推理机。其实 Jena 的 RDFS 和 OWL 推理机也是通过 Jena 自身的通用规则推理机实现的。
Fuseki 是 Jena 提供的 SPARQL 服务器，也就是 SPARQL endpoint。其提供了四种运行模式：单机运行、作为系统的一个服务运行、作为 web 应用运行或者作为一个嵌入式服务器运行。

Jena 目前是使用最广泛、文档最全、社区最活跃的一个开源语义网框架。更多的细节，读者可以参考官方文档。

1.2.Fuseki 与 OWL 推理实战

我们先下载 Jena 的最新版本（fuseki 和其他的功能模块不在同一个文件中，需要分别下载 apache-jena 和 apache-jena-fuseki）。后续操作以 Windows 为例，Linux 类似，只是脚本位置不同。

创建一个目录（我这里命名为 “tdb”）用于存放 tdb 数据。进入“apache-jena-X.X.X” 文件夹的 bat 目录，可以看到很多批处理文件，我们使用 “tdbloader.bat” 将之前我们的 RDF 数据以 TDB 的方式存储。命令如下：

.\tdbloader.bat --loc="D:\apache jena\tdb" "D:\d2rq\kg_demo_movie.nt"

复制代码

“--loc” 指定 tdb 存储的位置，即刚才我们创建的文件夹；第二个参数是由 Mysql 数据转换得到的 RDF 数据。

进入入 “apache-jena-fuseki-X.X.X” 文件夹，运行 “fuseki-server.bat”，然后退出。程序会为我们在当前目录自动创建“run” 文件夹。将我们的本体文件 “ontology.owl” 移动到 “run” 文件夹下的 “databases” 文件夹中，并将 “owl” 后缀名改为 “ttl”。在“run” 文件夹下的 “configuration” 中，我们创建名为 “fuseki_conf.ttl” 的文本文件（取名没有要求），加入如下内容：

@prefix :      <http://base/#> .@prefix tdb:   <http://jena.hpl.hp.com/2008/tdb#> .@prefix rdf:   <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .@prefix ja:    <http://jena.hpl.hp.com/2005/11/Assembler#> .@prefix rdfs:  <http://www.w3.org/2000/01/rdf-schema#> .@prefix fuseki: <http://jena.apache.org/fuseki#> .

:service1        a                fuseki:Service ;fuseki:dataset                    <#dataset> ;fuseki:name                       "kg_demo_movie" ;fuseki:serviceQuery               "query" , "sparql" ;fuseki:serviceReadGraphStore      "get" ;fuseki:serviceReadWriteGraphStore "data" ;fuseki:serviceUpdate              "update" ;fuseki:serviceUpload              "upload" .

<#dataset> rdf:type ja:RDFDataset ;    ja:defaultGraph <#model_inf> ;    .
<#model_inf> a ja:InfModel ;    ja:baseModel <#tdbGraph> ;
    #本体文件的路径    ja:content [ja:externalContent <file:///D:/apache%20jena/apache-jena-fuseki-3.5.0/run/databases/ontology.ttl> ] ;        #启用OWL推理机    ja:reasoner [ja:reasonerURL <http://jena.hpl.hp.com/2003/OWLFBRuleReasoner>] .
<#tdbGraph> rdf:type tdb:GraphTDB ;    tdb:dataset <#tdbDataset> ;    .
<#tdbDataset> rdf:type tdb:DatasetTDB ;    tdb:location "D:/apache jena/tdb" ;    .

复制代码

再次运行 “fuseki-server.bat”，如果出现如下界面表示运行成功：

Fuseki 默认的端口是 3030，浏览器访问 “http://localhost:3030/”，和之前介绍的 D2RQ web 界面类似，我们可以进行 SPARQL 查询等操作。在 Python 中用 SPARQLWrapper 向 Fuseki server 发送查询请求:

PREFIX : <http://www.kgdemo.com#>PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
SELECT * WHERE {?x :movieTitle '功夫'.?x ?p ?o.}

复制代码

即查询电影《功夫》的所有属性。返回的结果：

                            x                                            p                                  o      file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasGenre   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#genre/14  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasGenre   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#genre/28  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasGenre   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#genre/35  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasGenre   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#genre/80  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.w3.org/1999/02/22-rdf-syntax-ns#type   http://www.kgdemo.com#Movie  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#movieRating   7.2E0  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#movieIntroduction   1940年代的上海，自小受尽欺辱的街头混混阿星（周星驰）为了能出人头地，可谓窥见机会的缝隙就往里钻，今次他盯上行动日益猖獗的黑道势力“斧头帮”，想借之大名成就大业。　　阿星假冒“斧头帮”成员试图在一个叫“猪笼城寨”的地方对居民敲诈，不想引来真的“斧头帮”与“猪笼城寨”居民的恩怨。“猪笼城寨”原是藏龙卧虎之处，居民中有许多身怀绝技者（元华、梁小龙等），他们隐藏于此本是为远离江湖恩怨，不想麻烦自动上身，躲都躲不及。而在观战正邪两派的斗争中，阿星逐渐领悟功夫的真谛。  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#movieTitle   功夫  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#movieReleaseDate   2004-02-10  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.w3.org/1999/02/22-rdf-syntax-ns#type   http://www.w3.org/2002/07/owl#Thing  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/25251  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/57609  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/118745  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/57607  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/65975  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/78878  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/83635  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/119426  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/545277  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/576408  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/1136808  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/1173200  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/1173216  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/1173223  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/1173224  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/1287732  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.kgdemo.com#hasActor   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/1676386  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.w3.org/1999/02/22-rdf-syntax-ns#type   http://www.w3.org/2000/01/rdf-schema#Resource  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470   http://www.w3.org/2002/07/owl#sameAs   file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#movie/9470

复制代码

电影的 “hasActor” 属性是通过 OWL 推理机得到的，即我们原本的 RDF 数据里面是没有的。可以在 D2RQ 的 endpoint 中进行同样的查询，得到如下结果：

                   x                                        p                                  o   http://localhost:2020/resource/movie/9470   http://www.kgdemo.com#movieRating   7.2E0  http://localhost:2020/resource/movie/9470   http://www.kgdemo.com#movieIntroduction   1940年代的上海，自小受尽欺辱的街头混混阿星（周星驰）为了能出人头地，可谓窥见机会的缝隙就往里钻，今次他盯上行动日益猖獗的黑道势力“斧头帮”，想借之大名成就大业。　　阿星假冒“斧头帮”成员试图在一个叫“猪笼城寨”的地方对居民敲诈，不想引来真的“斧头帮”与“猪笼城寨”居民的恩怨。“猪笼城寨”原是藏龙卧虎之处，居民中有许多身怀绝技者（元华、梁小龙等），他们隐藏于此本是为远离江湖恩怨，不想麻烦自动上身，躲都躲不及。而在观战正邪两派的斗争中，阿星逐渐领悟功夫的真谛。  http://localhost:2020/resource/movie/9470   http://www.kgdemo.com#hasGenre   http://localhost:2020/resource/genre/14  http://localhost:2020/resource/movie/9470   http://www.kgdemo.com#hasGenre   http://localhost:2020/resource/genre/28  http://localhost:2020/resource/movie/9470   http://www.kgdemo.com#hasGenre   http://localhost:2020/resource/genre/35  http://localhost:2020/resource/movie/9470   http://www.kgdemo.com#hasGenre   http://localhost:2020/resource/genre/80  http://localhost:2020/resource/movie/9470   http://www.kgdemo.com#movieReleaseDate   2004-02-10  http://localhost:2020/resource/movie/9470   http://www.kgdemo.com#movieTitle   功夫  http://localhost:2020/resource/movie/9470   http://www.w3.org/1999/02/22-rdf-syntax-ns#type   http://www.kgdemo.com#Movie

复制代码

这些是真实存在于 “kg_demo_movie.nt” 的数据。

1.3.规则推理实战

在 “databases” 文件夹下新建一个文本文件“rules.ttl”，填入如下内容：

@prefix : <http://www.kgdemo.com#> .@prefix owl: <http://www.w3.org/2002/07/owl#> .@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .@prefix xsd: <XML Schema> .@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
[ruleComedian: (?p :hasActedIn ?m) (?m :hasGenre ?g) (?g :genreName '喜剧') -> (?p rdf:type :Comedian)][ruleInverse: (?p :hasActedIn ?m) -> (?m :hasActor ?p)]

复制代码

我们定义了一个名为 “ruleComedian” 的规则，它的意思是：如果有一个演员，出演了一部喜剧电影，那么他就是一位喜剧演员。修改配置文件“fuseki_conf.ttl”：

@prefix :      <http://base/#> .@prefix tdb:   <http://jena.hpl.hp.com/2008/tdb#> .@prefix rdf:   <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .@prefix ja:    <http://jena.hpl.hp.com/2005/11/Assembler#> .@prefix rdfs:  <http://www.w3.org/2000/01/rdf-schema#> .@prefix fuseki: <http://jena.apache.org/fuseki#> .

:service1        a                fuseki:Service ;fuseki:dataset                    <#dataset> ;fuseki:name                       "kg_demo_movie" ;fuseki:serviceQuery               "query" , "sparql" ;fuseki:serviceReadGraphStore      "get" ;fuseki:serviceReadWriteGraphStore "data" ;fuseki:serviceUpdate              "update" ;fuseki:serviceUpload              "upload" .

<#dataset> rdf:type ja:RDFDataset ;    ja:defaultGraph <#model_inf> ;    .
<#model_inf> a ja:InfModel ;    ja:baseModel <#tdbGraph> ;
    #本体文件的路径    ja:content [ja:externalContent <file:///D:/apache%20jena/apache-jena-fuseki-3.5.0/run/databases/ontology.ttl> ] ;        #关闭OWL推理机    #ja:reasoner [ja:reasonerURL <http://jena.hpl.hp.com/2003/OWLFBRuleReasoner>] .
    #开启规则推理机，并指定规则文件路径    ja:reasoner [        ja:reasonerURL <http://jena.hpl.hp.com/2003/GenericRuleReasoner> ;         ja:rulesFrom <file:///D:/apache%20jena/apache-jena-fuseki-3.5.0/run/databases/rules.ttl> ; ]    .
<#tdbGraph> rdf:type tdb:GraphTDB ;    tdb:dataset <#tdbDataset> ;    .
<#tdbDataset> rdf:type tdb:DatasetTDB ;    tdb:location "D:/apache jena/tdb_for_demo" ;    .

复制代码

我们只能启用一种推理机。前面也提到，OWL 的推理功能也可以在规则推理机里面实现，因此我们定义了 “ruleInverse” 来表示 “hasActedIn” 和“hasActor”的相反关系。更多细节读者可以参考文档。

我们执行如下 SPARQL 查询，喜剧演员有哪些：

PREFIX : <http://www.kgdemo.com#>PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
SELECT * WHERE {?x rdf:type :Comedian.?x :personName ?n.}limit 10

复制代码

查询结果：

                            x                                 n      file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/111298   郑丹瑞  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/70591   陈欣健  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/116351   沈殿霞  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/116052   鲍汉琳  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/1002925   张同祖  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/62423   林正英  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/1614091   林琪欣  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/224929   陈法蓉  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/1135398   叶世荣  file:///D:/d2rq/d2rq-0.8.1/kg_demo_movie.nt#person/119426   元秋

复制代码

1.4.小结

本次实践介绍了如何使用 Jena 来开启 endpoint 服务，提供高效的查询；并介绍了如何加入推理引擎。我们是用 Jena 提供的命令行工具来完成上述操作。实际上，jena 提供了所有工具的 API 接口，读者可以用 Java 编写程序，进行开发。

2.KBQA Demo

下面将介绍如何用 Python 完成一个简易的问答程序。下图是 demo 的展示效果：

查询结果为空，回答 “I don't know.”；不能理解问句，回答 “I can't understand.”。本实现参考了王昊奋老师发布在 OpenKG 上的 demo“基于 REfO 的 KBQA 实现及示例”，读者也可以参考此示例，来完成本 demo。下面谈谈本 demo 的流程。

2.1 基本流程

此 demo 是利用正则表达式来做语义解析。我们需要第三方库来完成初步的自然语言处理（分词、实体识别），然后利用支持词级别正则匹配的库来完成后续的语义匹配。

分词和实体识别（人名和电影名）我们用 jieba 来完成。jieba 是一个轻量级的中文分词工具，有多种语言的实现版本。对于分词，在实验环境中，jieba 还是勉强能用。在我们这个 demo 当中，有些经常会被使用的词语并不能被正确切分。比如：“喜剧电影”、“恐怖电影”、“科幻电影”、“喜剧演员”、“出生日期”等，在分词的时候，jieba 把它们当作一个词来处理，我们需要手动调整词语的频率使得 “喜剧电影” 能被切分为 “喜剧” 和“电影”。至于实体识别，jieba 对于人名的识别精度尚可接受，但是电影名称的识别精度太低以至于完全不可用。因此，我们直接把数据库中的人名和电影名导出，作为外部词典；使用 jieba 的时候加载外部词典，这样就能解决实体识别的问题。

将自然语言转为以词为基础的基本单位后，我们使用 REfO(Regular Expressions for Objects) 来完成语义匹配。具体实现请参考 OpenKG 的 demo 或者本 demo 的代码。

匹配成功后，得到其对应的我们预先编写的 SPARQL 模板，再向 Fuseki 服务器发送查询，最后将结果打印出来。

2.2 代码文件说明

kg_demo_movie/    crawler/        movie_crawler.py        __init__.py        tradition2simple/            langconv.py            traditional2simple.py            zh_wiki.py            __init__.py    KB_query/        jena_sparql_endpoint.py        query_main.py        question2sparql.py        question_temp.py        word_tagging.py        external_dict/            csv2txt.py            movie_title.csv            movie_title.txt            person_name.csv            person_name.txt            __init__.py

复制代码

"crawler" 文件夹包含的是我们从 "The Movie DB" 获取数据的脚本。
"KB_query" 文件夹包含的是完成整个问答 demo 流程所需要的脚本。
"external_dict" 包含的是人名和电影名两个外部词典。csv 文件是从 mysql-workbench 导出的，按照 jieba 外部词典的格式，我们将 csv 转为对应的 txt。
"word_tagging"，定义 Word 类的结构（即我们在 REfO 中使用的对象）；定义 "Tagger" 类来初始化词典，并实现自然语言到 Word 对象的方法。
"jena_sparql_endpoint"，用于完成与 Fuseki 的交互。
"question2sparql"，将自然语言转为对应的 SPARQL 查询。
"question_temp"，定义 SPARQL 模板和匹配规则。
"query_main"，main 函数。

在运行 "query_main" 之前，读者需要启动 Fuseki 服务，具体方法请参考上一篇文章。

2.3 小结

我们通过使用正则表达式的方式来解析自然语言，并将解析的结果和我们预定义的模板进行匹配，最后实现一个简易的 KBQA。方法没有大家想象的那么 “高大上”，没有统计方法、没有机器学习也没有深度学习。正则的好处是，易学，从事相关行业的人基本都了解这个东西；其次，可控性强或者说可解释性强，如果某个问题解析错误，我们只要找到对应的匹配规则进行调试即可；最后，正则冷启动比较容易，在没有数据或者数据极少的情况下，我们可以利用正则规则马上上线一个类似上述 demo 的初级的问答系统。在现实情况中，由于上述优点，工业界也比较青睐用正则来做语义解析。正则方法的缺陷也是显而易见的，它并不能理解语义信息，而是基于符号的匹配。换个角度说，用正则的方法，就需要规则的设计者能够尽可能考虑到所有情况，然而这是不可能的。暂且不考虑同义词、句子结构等问题，光是罗列所有可能的问题就需要花费很大的功夫。尽管如此，在某些垂直领域，比如 “音乐”，“电影”，由于问题集合的规模在一定程度上是可控的（我们基本能将用户的问题划定在某个范围内），正则表达式还是有很大的用武之地的。在冷启动一段时间，获得了一定用户使用数据之后，我们可以考虑引入其他的方法来改善系统的性能，然后逐渐减少正则规则在整个系统中的比重。如果读者想深入研究 KBQA，可以参考专栏 “揭开知识库问答 KB-QA 的面纱”，该专栏的作者详细介绍了做 KBQA 的方法和相关研究。

3.项目实操

3.1 环境配置

Python 版本为 3.6
安装依赖pip install -r requirements.txt。
jena 版本为 3.5.0，已经上传在该 repo 中（如果不用 Docker 运行 demo，需要自己修改配置文件中的路径）。
d2rq 使用的 0.8.1

3.2 运行方式

这里提供两种运行 demo 的方式：

直接构建 docker 镜像，部署容器服务。推荐这种方式，已经把各种环境配置好了。只需要安装 docker，构建镜像。
直接在本地运行。需要自行修改配置文件（jena/apache-jena-fuseki-3.5.0/run/configuration/fuseki_conf.ttl 配置文件中的路径）

3.3 构建 docker 镜像

进入项目根目录

docker build -t kbqa:V0.1 .docker run -p 80:80

复制代码

打开浏览器，输入 localhost，即能看到 demo 界面。

3.4 本地运行

其实就是把 Dockerfile 里面的命令直接在本地环境运行（记得修改 configuration/fuseki_conf.ttl 中的文件路径）。

第一步：安装依赖库

pip3.6 install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/

复制代码

第二步：将 nt 格式的三元组数据以 tdb 进行存储（怎么得到 kg_demo_movie.nt 文件请参考上篇内容）。

/kbqa/jena/apache-jena-3.5.0/bin/tdbloader --loc="path_of_tdb" "path_of_kg_demo_movie.nt" # 自行指定tdb的路径，记得和configuration/fuseki_conf.ttl中一致

复制代码

window 环境是使用/kbqa/jena/apache-jena-3.5.0/bat/tdbloader.bat

第三步：设置环境变量（windows 如何设置请自行查询；也可以不设置 streamlit 端口，使用默认端口，第五步启动后会提示服务的端口）

export LANG=C.UTF-8 LC_ALL=C.UTF-8 STREAMLIT_SERVER_PORT=80 FUSEKI_HOME=/kbqa/jena/apache-jena-fuseki-3.5.0

复制代码

第四步：运行 fuseki（进入 apache-jena-fuseki-3.5.0 子目录，windows 运行 fuseki-server.bat）

./fuseki-server

复制代码

第五步：运行 web 服务。

streamlit run streamlit_app.py --server.enableCORS=true

复制代码

打开浏览器，输入指定的地址即可。

3.5 问题集锦

fuseki-server 服务启动后，关闭重启会报错。这是 jena 的一个 bug，把 tdb 中的文件删了，重新用 tdbloader 命令生成一次即可。

目录结构
Data 文件夹
包含 ER 图模型文件和创建数据库、表，插入所有数据的 sql 文件。用户可以直接使用 sql 文件导入数据到 mysql 中。
kg_demo_movie 文件夹
crawler 中的 movie_crawler 用于从 The Movie DB 下载数据，用户需要自己去网站注册账号，申请 API KEY。在脚本中填入自己的 API KEY，填写 mysql 相关参数即可运行。用户需要额外下载的包:requests 和 pymysql。tradition2simple 用于将繁体字转为简体字（声明一下，我找不到该文件的出处了，我是从网上找到的解决方案，如果有用户知道该作者，麻烦告知，我会备注）。
KB_query 文件夹包含的是完成整个问答 demo 流程所需要的脚本。
"external_dict"包含的是人名和电影名两个外部词典。csv 文件是从 mysql-workbench 导出的，按照 jieba 外部词典的格式，我们将 csv 转为对应的 txt。
"word_tagging"，定义 Word 类的结构（即我们在 REfO 中使用的对象）；定义"Tagger"类来初始化词典，并实现自然语言到 Word 对象的方法。
"jena_sparql_endpoint"，用于完成与 Fuseki 的交互。
"question2sparql"，将自然语言转为对应的 SPARQL 查询。
"question_temp"，定义 SPARQL 模板和匹配规则。
"query_main"，main 函数。在运行"query_main"之前，读者需要启动 Fuseki 服务。
ontology.owl 通过 protege 构建的本体，用户可以直接用 protege 打开，查看或修改。
kg_demo_movie_mapping.ttl 根据 d2rq mapping language 编辑的映射文件，将数据库中的数据映射到我们构建的本体上。
kg_demo_movie.nt 利用 d2rq，根据 mapping 文件，由 Mysql 数据库转换得到的 RDF 数据。
fuseki_conf.ttl fuseki server 配置文件，指定推理引擎，本体文件路径，规则文件路径，TDB 路径等
rules.ttl 规则文件，用于基于规则的推理。
streamlit_app.py web demo 文件，基于 streamlit 库。

项目码源见文末跳转

跳转链接

欢迎关注公众号：汀丶人工智能，公众号也会提供一些相关的资源和优质文章。

发布于: 刚刚阅读数: 4

原文链接:【http://xie.infoq.cn/article/2820282bac3cb343ccf44297e】。

汀丶人工智能

关注

本博客将不定期更新关于NLP等领域相关知识 2022-01-06 加入

本博客将不定期更新关于机器学习、强化学习、数据挖掘以及NLP等领域相关知识，以及分享自己学习到的知识技能，感谢大家关注！

发布

暂无评论

创作场景

从零开始构建一个电影知识图谱，实现 KBQA 智能问答 [下篇]：Apache jena SPARQL endpoint 及推理、KBQA 问答 Demo 超详细教学

从零开始构建一个电影知识图谱，实现 KBQA 智能问答[下篇]：Apache jena SPARQL endpoint 及推理、KBQA 问答 Demo 超详细教学

1.Apache jena SPARQL endpoint 及推理

1.1.Apache Jena 简介

1.2.Fuseki 与 OWL 推理实战

1.3.规则推理实战

1.4.小结

2.KBQA Demo

2.1 基本流程

2.2 代码文件说明

2.3 小结

3.项目实操

3.1 环境配置

3.2 运行方式

3.3 构建 docker 镜像

3.4 本地运行

3.5 问题集锦

项目码源见文末跳转

汀丶人工智能

评论