日本多层互操作通用词汇架构及其应用

丁麒麟, 戴剑伟, 张海粟, 王龙, 张庆

PDF(3059 KB)
中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
指挥控制与仿真 ›› 2021, Vol. 43 ›› Issue (4) : 134-140. DOI: 10.3969/j.issn.1673-3819.2021.04.024
外军发展

日本多层互操作通用词汇架构及其应用

作者信息 +

Japanese Infrastructure for Multi-Layer Interoperability Common Vocabulary Framework and Its Application

Author information +
History +

摘要

多层互操作架构(Infrastructure for Multi-Layer Interoperability,IMI)是日本建设数字政府,推动政府开放数据而建立的基于标准术语词汇信息共享和利用的支撑环境。IMI通用词汇架构是IMI的重要组成部分,旨在建立一种统一共享术语含义和术语之间关系的机制。它由核心词汇、领域词汇和应用词汇组成,采用面向对象的建模方法,使用XML Schema、RDF Schema和JSON Schema等通用描述语言和IMI专用词汇描述方法。数据交换描述(DMD)是共享信息使用的信息交换模型,主要由数据模型、映射文件和说明文书等组成。IMI工具是实现信息交换的手段,包括词汇创建、DMD创建和验证、代码/代码列表创建、数据格式转换和数据验证等功能。信息交换的主要流程包括数据准备、应用词汇创建、DMD创建、数据输入、数据格式转换和数据使用等。

Abstract

The Infrastructure for Multi-Layer Interoperability (IMI) which is built by the Japanese government for digital government and open government data, can provide a supportive environment for digital government to realize information sharing and utilization based on standard terminology. IMI Common Vocabulary Framework, as an important part of IMI, establishes a unified mechanism for sharing the meaning of terms and the relationship among them. IMI Common Vocabulary Framework is composed of core vocabulary, domain vocabulary and application vocabulary. It uses the object-oriented modeling method, XML Schema, RDF Schema and JSON Schema common description language and IMI specialized vocabulary description method. Data Model Description (DMD) is the information exchange model for sharing information, consisting of a data model, a mapping file and a document. IMI tool is a means to exchange information, including vocabulary creation, DMD creation and validation, code/code list creating, data format conversion and data validation. The procedure of information exchange mainly includes data preparation, application vocabulary creation, DMD creation, data input, data format conversion and data usage.

关键词

多层互操作架构(IMI) 信息交换 通用词汇 核心词汇 数据模型描述(DMD)

Key words

Infrastructure for Multi-Layer Interoperability(IMI); information exchange; common Vocabulary; core vocabulary; data Model Description(DMD)

引用本文

导出引用
丁麒麟, 戴剑伟, 张海粟, 王龙, 张庆. 日本多层互操作通用词汇架构及其应用[J]. 指挥控制与仿真. 2021, 43(4): 134-140 https://doi.org/10.3969/j.issn.1673-3819.2021.04.024
DING Qi-lin, DAI Jian-wei, ZHANG Hai-su, WANG Long, ZHANG Qing. Japanese Infrastructure for Multi-Layer Interoperability Common Vocabulary Framework and Its Application[J]. Command Control and Simulation. 2021, 43(4): 134-140 https://doi.org/10.3969/j.issn.1673-3819.2021.04.024
为应对海量数据资源带来的挑战,2017年5月,日本政府发布创建新IT国家战略的实施计划——《推动公共和私营部门数据利用的先进信息技术国家基本计划》,从创建数字政府、推动开放数据、制定数据使用标准、整合数据联合使用平台和人才建设等方面做了具体规划,目的是促进数据在全社会各领域之间的高效流通和有效利用,推动基于数据的服务创新、产业变革和行政改革。
由于政府、企业等信息系统的分立建设,以及互联网信息的随意发布,数据资源的共享和利用受到多方面制约:一是个体和组织长期将数据作为私有化资源的认识观念尚未得到完全转变;二是各业务领域的应用系统之间数据模式不兼容;三是自然语言的丰富性、差异性导致的语义异构;四是互联网上信息发布的形式多样,内容准确性参差不齐。
基于开放共享数据资源理念,日本经济产业省和信息振兴厅发布了多层互操作架构(Infrastructure for Multilayer Interoperability,IMI),为数字政府和政府开放数据实现基于标准术语词汇的信息共享提供支撑环境。IMI通用词汇(IMI Common Vocabulary)是IMI的重要组成部分,旨在提供一种统一的客观世界对象、概念及其关系的描述方法,以提高政府开放数据、电子政务数据和私有数据的互操作性。

1 IMI通用词汇组成及描述方法

1.1 通用词汇组成

IMI通用词汇包括三个层次[1]。第一层是核心词汇,它是各领域都会使用的词汇,是其他词汇的基础,如人员、姓名、地址、组织机构等。第二层是领域词汇,它以核心词汇为基础,在一个或多个领域使用的词汇,按照应用范围,分为领域通用词汇和领域专有词汇。第三层是应用词汇,它是核心词汇和领域词汇中都尚未涵盖的词汇,需要在应用时以核心词汇为基础定义使用。

1.2 通用词汇建模与描述方法

1.2.1 通用词汇建模方法

1)类和属性
IMI通用词汇采用面向对象的建模方法,包括类和属性。类是表示事物概念的术语,可以有一个或多个属性;属性是表示事物的性质或与事物之间关系的术语,既可以是数值,也可以与其他类相关联。
IMI核心词汇作为通用词汇的基础,包含60个类概念和250个属性概念,提供了每个类的含义、继承关系、包含的属性和结构关系,以及每个属性的含义、识别符和所属类。类由它的属性及属性的组合术语来定义,属性由数据类型、属性的使用次数和属性的说明来定义。
图1表示了IMI核心词汇中“人员”类与属性的关系。“人员”类包含性别和地址属性,性别属性的值类型是字符串,值为“女”;地址属性的值类型是类,它具有多个属性,包括国家属性和邮政编号属性。IMI核心词汇还规定了每个属性值的个数,如“人员”类中性别属性使用的次数为0或1,地址属性使用次数为0到n,即该属性值的个数不限。
图1 IMI核心词汇“人员”类与属性的关系

Full size|PPT slide

2)类的层次结构
IMI通用词汇中的类采用面向对象方法中的继承机制,即一个新的类通过继承已有的类来定义。继承有两种情况[4]:一是“扩展”,即新的类从其基类继承属性以及添加更多属性,而不删除从基类继承的属性;二是“限制”,即新的类从其基类继承部分属性或对属性作部分修改。定义IMI核心词汇中的类就是使用这种“扩展”继承机制来定义的。在创建词汇表时,必须通过继承核心词汇的类来定义新的类,或者其基类必须从核心词汇继承而来,以保持类的互操作性。
图2所示核心词汇中的“人员”类及其相关类的层次结构关系,其中,箭头表示继承关系。“概念类”是核心词汇中所有类的基类,是IMI通用词汇的基类。
图2 IMI通用词汇类的继承关系

Full size|PPT slide

1.2.2 通用词汇描述方法

IMI通用词汇采用XML Schema、RDF Schema 和JSON Schema等三种通用描述语言和IMI专用词汇描述方法描述词汇[1]
1)XML Schema描述方法
XML 是W3C规定的标准数据格式,具有严格的格式规定和可扩展性,通常用于信息系统之间的数据交换。IMI通用词汇表示与XML Schema语言表示的对应关系[4]表1所示。
表1 IMI通用词汇表示与XML Schema语言描述对应关系
IMI通用词汇 XML Schema的描述
xsd:complexType
属性 xsd:element
属性的数据类型 xsd:element type
继承 xsd:extension
类概念使用某个
属性的次数
定义类概念时,在xsd:sequence元素中的xsd:
element元素里使用minOccurs和maxOccurs
分别表示使用属性的最小和最大次数。
图3是核心词汇中人员类使用XML Schema语言定义的示例,其中,包含“人员”类的定义、类的描述、继承关系等内容。
图3 “人员”类XML Schema描述示例

Full size|PPT slide

2)RDF Schema描述方法
RDF是用于描述开放数据的标准,结合 Web本体描述语言(Web Ontology Language,OWL)用于表达词汇的语义。IMI通用词汇描述与RDF/OWL表示的对应关系[4]表2所示。
表2 IMI通用词汇描述与RDF/OWL表示对应关系
IMI通用词汇 RDF/OWL表示
owl:Class或rdfs:Class
属性 owl:ObjectProperty、owl:DatatypeProperty
或rdf:Property
属性的数据类型 rdfs:range
继承 rdfs:subClassOf或rdfs:subPropertyOf
属性所属类 在属性的定义中,用schema:domainIncludes
或rdfs:domain表示属性所属的类。
图4是核心词汇中“姓”属性使用RDF定义的示例,其中,包含“姓”属性的定义、属性的日语、英语名称和描述、属性所属的类以及数据类型等内容。
图4 “姓”属性RDF描述示例

Full size|PPT slide

3)JSON Schema描述方法
IMI提供了用于核心词汇的JSON-LD格式文档,便于使用JSON格式的数据扩展词汇。图5是使用JSON Schema描述核心词汇表的类和属性的示例,包含描述核心词汇表词汇、语言和数据类型的命名空间、人员类的定义和识别符,姓名属性的定义、识别符和数据类型等内容。
图5 “人员”类数据类型的JSON Schema 描述方法

Full size|PPT slide

4)IMI专用词汇描述方法
IMI专用词汇描述方法是IMI创建的定义术语概念及其结构的方法。基本结构是一组键值对。图6是核心词汇表名称类的示例,包含名称类的日语、英语名称和说明,声明名称类继承于事物类,使用层次结构描述方法表示名称类具有姓名属性,属性数据类型为字符串,地址属性的使用次数可以为0或1。
图6 IMI专用词汇描述方法示例

Full size|PPT slide

层次结构描述方法是IMI通用词汇用于描述概念结构的方法,通过一组字符串来表示词汇概念的层次结构。该方法不仅可以表示概念之间的层次结构,而且有利于计算机自动提取概念,便于实现数据的自动转换。该描述方法可用于定义IMI通用词汇和数据模型描述。
层次结构描述方法的基本结构是以一个类概念作为起始节点,而后用“>”连接任意数量的属性概念,例如类概念>属性概念>属性概念>…,其中,具有属性的概念的值类型为“类”,它与前一个概念是继承的关系。
图7是使用层次结构描述方法的一个示例,第一个字符串表示以“人型”类作为起始节点,具有“住所”属性,“住所”属性具有“国”属性;而第二个字符串表示“住所”属性还具有“郵便番号”属性。
图7 “人员”类层次结构描述方法示例

Full size|PPT slide

2 基于IMI通用词汇的信息交换方法

2.1 信息交换模型组成

数据模型描述(Data Model Description,DMD),类似于美国NIEM中的信息交换包文档(Information Exchange Package Documentation,IEPD)[5],是针对具体交换需求,以IMI通用词汇为基础,描述数据提供者和数据使用者之间进行信息共享的信息交换模型,主要对共享数据的内容和结构进行描述,包括各数据元素的值的类型、范围和格式等进行说明。如图8所示为DMD的组成及功能示意图[6]。目前IMI建立了12个参考DMD,包括避难场所、法人活动信息、法人基本信息、设施、设备、避难设施、医疗机构、名称、活动、地址、组织、地物等[7]
图8 DMD的组成及功能示意图

Full size|PPT slide

DMD包括头文件、数据模型文件、映射文件、数据元素列表文件、样例、说明文件等[8]
图9为医疗机构信息DMD功能示意图。医疗机构包括医院、诊所、药房等。一般来说,各个医疗机构的相关信息相对独立,涵盖的数据内容各不相同,使用的数据类型也不相同。医疗机构信息DMD通过建立不同用户创建的医疗机构数据元素与核心词汇表词汇的对应关系,将原本数据结构不同、词汇表达含义不同的数据转换为具有相同数据结构、相同词汇含义的可以直接交换共享的数据。下面以医疗机构信息DMD为例说明DMD的组成[9]
图9 医疗机构信息DMD功能示意图

Full size|PPT slide

1)DMD头文件
DMD头文件包括DMD自身的元数据,诸如DMD的创建者、授权、版本以及DMD中文件的列表,可用于描述DMD自身和用于检索的信息。图10是医疗机构信息DMD的头文件内容[9],主要包含DMD的命名空间、名称、创建日期、修改日期、相关说明以及创建者。“<Component>…</Component>”描述DMD的文件基本信息,包括头文件(header.xml)、数据模型文件(shapes.ttl、schema.xsd)、映射文件(metadata.json)、数据元素列表文件(item.json)、样例(sample.xml、sample.ttl)、说明文件(document.pdf)。
图10 医疗机构信息DMD的头文件

Full size|PPT slide

2)数据模型文件
数据模型文件主要用于定义发布或交换数据的数据结构。
① XML Schema描述文件
XML Schema描述文件是使用XML Schema数据格式定义数据模型,包括数据模型定义和词汇定义。图11是医疗机构信息DMD的XML Schema描述文件的内容[9],主要包含描述XML数据类型、核心词汇、扩展词汇的命名空间,定义属性“医疗机构列表”,指定数据类型为医疗机构列表类,定义医疗机构列表类,描述其含义,指定其基类是事物类,具有医疗机构属性,并且该属性的使用次数不限。
图11 医疗机构信息DMD的XML描述文件

Full size|PPT slide

② RDF描述文件
RDF描述文件是使用RDF数据格式定义数据模型,包括数据模型定义和词汇定义。图12是医疗机构信息DMD的RDF数据模型文件内容[9],包含引用描述语言的命名空间、医疗机构类的继承关系,定义设施出入口、诊疗科目等属性以及属性数据类型。
图12 医疗机构信息DMD的RDF数据模型文件

Full size|PPT slide

3)映射文件
映射文件用于将DMD中数据模型的数据元素名称与核心词汇中的词汇概念一对一地进行关联。图13是医疗机构信息DMD映射文件内容[9],包含描述模型使用的词汇命名空间,指定源数据表格文件,定义第一个数据元素名称为ID,用于标识医疗机构,每一个ID对应于医疗机构类的一个实例,第二个数据元素名称为名称,指向表格数据中“name”项,对应于核心词汇中的“表記”,第三个数据元素名称为通称,对应于核心词汇表中的“通称”。
图13 医疗机构信息DMD映射文件

Full size|PPT slide

4)数据元素列表文件
数据元素列表文件是DMD对数据源数据元素的命名规则。如图14是医疗机构信息数据元素列表文件部分内容,不仅包括数据元素名称,而且包括数据元素所使用的字符集规定,如“名称”元素使用的字符集包括285、371,即日语基础词汇和扩展词汇。
图14 医疗机构信息DMD数据元素列表文件

Full size|PPT slide

5)说明文件
说明文件是对DMD的目的、设想的使用场景、数据元素的构造规则以及注意事项等进行简洁的说明。医疗机构信息DMD的说明文书文件内容包括DMD的目的、数据元素名称和描述、使用的流程、代码标识等。
6)样例数据
样例数据是根据DMD定义的数据模型而生成的数据范例,帮助数据创建者理解并参照使用。图15是医疗机构信息DMD的样例数据内容[9],包含医疗机构的名称、地址、地理坐标等属性描述。
图15 医疗机构信息DMD的样例数据

Full size|PPT slide

2.2 信息交换实现工具

IMI开发了用于支持用户创建和使用通用词汇和DMD的工具,即IMI工具,主要包括词汇创建、DMD创建、DMD验证、代码/代码列表创建、数据格式转换和数据验证等6个功能[10]。功能关系如图16所示。
图16 IMI工具功能关系图

Full size|PPT slide

1)词汇创建
IMI工具支持使用IMI专用的层次结构描述方法创建核心词汇以外的应用词汇。创建词汇时,首先需要编辑创建的应用词汇表元数据,包括词汇表名称、说明、命名空间、发行人、版本等;然后使用层次结构描述方法定义新词汇,也可以增加和删除词汇;最后将应用词汇表保存为IMI定义文件或表格文件。
2)DMD创建
IMI工具创建DMD的方式有3种:一是从头创建DMD;二是上传包含数据元素的Excel、CSV等表格数据创建DMD;三是基于已有的DMD来创建。IMI工具支持继承核心词汇表或应用词汇表的一个类来创建数据模型,通过增加、删除、修改类的属性,编辑属性出现的次数、属性的限制条件和属性的名称等要素,建立与数据元素的对应关系。
3)DMD验证
IMI工具支持对创建的DMD的内容是否符合通用词汇和DMD规范进行验证。输入需要验证的DMD文件包,查看DMD是否符合通用词汇和DMD规范的结果。
4)代码/代码列表创建
IMI工具支持创建代码和代码列表,用于结构化数据的创建。代码是以有效地进行信息服务和事务处理为目的,用于指代术语使信息表达简易化而加上的记号(如字母、数字等),主要用于识别、分类和排列。代码列表是代码与其术语对应关系的表。IMI工具支持输入代码表格格式文件,而后编辑代码列表的元数据,包括名称、URI、发行人、版本、命名空间,然后通过增加、编辑和删除代码创建代码列表,并可查看代码及代码之间的层级关系、关联关系和代码之间的关系图。
5)数据格式转换
IMI工具支持通过DMD中的数据映射关系将Excel、CSV等格式数据根据DMD转换为XML、JSON-LD、RDF和Turtle等结构化数据。
6)数据验证
IMI工具支持输入XML、JSON-LD、RDF等结构化数据,通过匹配数据元素和DMD数据模型之间的关系,验证数据是否与某个DMD匹配。

2.3 信息交换框架

图17所示为基于IMI通用词汇的信息交换框架,它以IMI通用词汇为基础,通过信息交换模型建立交换数据与通用词汇的映射,形成跨领域交换数据标准。
图17 基于IMI通用词汇的信息交换框架

Full size|PPT slide

IMI实现信息交换的流程如下:
1)准备数据。信息提供者对需要公开的数据进行充分分析,明确数据元素和项目名称、项目值的类型和值的范围等,完成数据定义文档制作。
2)创建应用词汇。将数据元素与核心词汇作比较,若存在部分数据元素不包含在核心词汇中,则使用IMI工具创建为应用词汇。创建的应用词汇表可以提交至IMI数据库供更多人使用。
3)选择或创建DMD。通过IMI工具,首先验证数据是否具有常用的DMD可以使用。如果数据与已有的DMD中的数据模型匹配,则可直接使用;如果不匹配,则可采取自建或修改第三方DMD包的方式创建DMD。创建的DMD提交至IMI数据库作为其他创建者的参考DMD。
4)输入数据。信息提供者根据数据元素值的类型、格式和取值范围在规定的表格中输入数据。
5)数据格式转换。根据创建的DMD,将EXCEL、CSV表格数据转换为通用交换数据格式,如XML、RDF、JSON-LD等。
6)数据使用。数据使用者利用通用交换数据格式进行数据分析,开发应用程序等。

3 结束语

日本多层互操作通用词汇架构对客观世界中常用的事物、概念及其关系进行抽象,形成了统一语义和格式的数据模型标准,为数据发布和数据交换提供了统一的格式规范,主要包括核心词汇、领域词汇和应用词汇,采用XML Schema、RDF Schema、JSON Schema和IMI专用描述方法进行形式化表示。信息交换模型DMD对待发布数据或者交换数据的格式进行了描述,将来自不同数据源不同数据格式的数据转换为统一的数据格式,以满足各类应用程序使用。IMI提供了信息交换实现工具,为用户提供了通用词汇管理、信息交换模型设计、数据转换、数据验证的一站式解决方案。
日本多层互操作通用词汇架构为我国构建跨领域信息交换体系提供了参考。首先,IMI采用统一的规范和架构,建立政府开放数据和实现数据共享的技术标准,为不同应用系统之间的信息交换提供一致的数据格式和语义信息,同时促进了公私数据的广泛利用,实现数据潜在价值的挖掘;其次,IMI采用了面向对象的继承和扩展方法构建词汇表,对于保持核心词汇的稳定性和权威性,实现不同领域和不同使用场景的可扩展性和使用灵活性发挥重要作用;最后,信息交换考虑了人和机器的可读性,通过描述类和类、类和属性的层次关系,以及类、属性的语义关系使得交换的内容可以被人和机器所理解。

参考文献

[1]
Kato F, Takeda H, Tashiro S, et al. IMI: A Common Vocabulary Framework for Open Government Data[J]. Lecture Notes in Computer Science, 2018, 11341:336-351.
[2]
情報処理推進機構. 共通語彙基盤概要[EB/OL].(2018-07)[2020-06-30]. https://imi.go.jp/contents/2018/07/IMI-Overview-v3-201611152107-IPA.pdf.
[3]
情報処理推進機構. 共通語彙基盤コア語彙2.4.2[EB/OL].(2019-02-15)[2020-06-30]. https://imi.go.jp/ns/core/Core242.html?lang=en.
[4]
情報処理推進機構. 語彙について[EB/OL]. (2016-11-18)[2020-06-30]. https://imi.go.jp/goi/goi-about/.
[5]
戴剑伟. 跨领域信息交换方法与技术[M]. 北京: 电子工业出版社, 2014:150-153.
[6]
情報処理推進機構. DMD(Data Model Description)について[EB/OL]. (2016-11-18)[2020-06-30]. https://imi.go.jp/goi/datamodel-about/.
[7]
情報処理推進機構. DMD(Data Model Description: データモデル記述)一覧[EB/OL]. [2020-06-30]. https://imi.go.jp/dmd/.
[8]
情報処理推進機構. IMI技術仕様書DMD仕様.[EB/OL].(2019-02-28)[2020-06-30]. https://imi.go.jp/contents/2019/02/DMDSpecification-V301-20190228.pdf.
[9]
情報処理推進機構. 医療機関DMD[EB/OL].(2018-09-05)[2020-06-30]. https://imi.go.jp/dmd/0000006/.
[10]
情報処理推進機構. IMIツール[EB/OL]. [2020-06-30]. https://imi.go.jp/goi/dmd-editor/.
[11]
情報処理推進機構. IMI共通語彙基盤導入の手引き[EB/OL]. (2017-03-31)[2020-06-30]. https://imi.go.jp/contents/2018/07/IMIOverviewBook-v2.pdf.
PDF(3059 KB)

2684

Accesses

0

Citation

Detail

段落导航
相关文章

/