ウェブ上のデータベストプラクティス

要約

本ドキュメントは、自立的なエコシステムを支援するために設計された、ウェブ上でのデータ公開および利用に関するベストプラクティスを提供します。データは人間および機械の双方によって発見され、理解できるものであるべきです。データが何らかの方法で利用された場合、それがデータ提供者自身であっても外部者であっても、その利用も発見可能であり、データ提供者の努力が認識されるべきです。要するに、これらのベストプラクティスに従うことで、提供者と利用者の間の相互作用が円滑になります。

本書で使用される名前空間
プレフィックス	名前空間IRI	説明
dcat	http://www.w3.org/ns/dcat#	データカタログ語彙（DCAT）
dct	http://purl.org/dc/terms/	ダブリンコアメタデータ用語（DCMI）
dqv	http://www.w3.org/ns/dqv#	DWBP データ品質語彙（DQV）
duv	http://www.w3.org/ns/duv#	DWBP データセット利用語彙（DUV）
foaf	http://xmlns.com/foaf/0.1/	Friend of a Friend (FOAF) 語彙
oa	http://www.w3.org/ns/oa#	ウェブアノテーションオントロジー
owl	http://www.w3.org/2002/07/owl#	Webオントロジー言語（OWL）
pav	http://pav-ontology.github.io/pav/	証跡・著者・バージョン管理（PAV）
prov	http://www.w3.org/ns/prov#	証跡オントロジー（PROV）
rdf	http://www.w3.org/1999/02/22-rdf-syntax-ns#	リソース記述フレームワーク（RDF）
rdfs	http://www.w3.org/2000/01/rdf-schema#	RDFスキーマ語彙（RDFS）
skos	http://www.w3.org/2004/02/skos/core#	シンプル知識組織システム（SKOS）

8. ベストプラクティス

このセクションでは、データ発行者がウェブ上でデータを公開・利用する際に直面するさまざまな課題を克服するために役立つベストプラクティスをまとめています。各課題ごとに一つ以上のベストプラクティスが提案されており、それらはウェブ上のデータ課題の章で説明されています。

各ベストプラクティスは、その策定の指針となった「ウェブ上のデータベストプラクティスユースケース & 要件」文書 [DWBP-UCR] の一つ以上の要件と結びついています。各ベストプラクティスは、その妥当性を示す少なくとも1つの要件を根拠としています。

8.1 実例

AdrianはMyCityの交通局に勤務しており、公共交通に関するデータの公開を担当しています。Adrianは、このデータをアプリケーションの作成に関心がある開発者やソフトウェアエージェントなど、さまざまな種類のデータ利用者のために公開したいと考えています。データは、人間にもソフトウェアエージェントにも理解しやすく処理しやすいことが重要であり、常に最新の状態が保たれ、ウェブ上ですぐに発見できるようにする必要があります。

いくつかのベストプラクティスの適用例として、Turtle [Turtle] または JSON-LD [JSON-LD] を用いたRDFの例が示されています。

8.2 メタデータ

ウェブはオープンな情報空間であり、企業の内部情報システムのような特定の文脈がないため、メタデータの提供は基本要件となります。十分なメタデータが提供されていなければ、発行者以外はデータを発見したり再利用したりすることができません。メタデータは、データの意味や構造を利用者がより良く理解できるようにし、権利やライセンス条件、データを生成した組織、データ品質、データアクセスの方法、データセットの更新スケジュールといった他の事項も明確にします。発行者は、多言語で人間が読める情報の提供に努めるとともに、できる限り利用者が理解できる言語で情報を提供することが推奨されます。

メタデータは、データセットの発見や再利用といったタスクを助けるために利用でき、リソースの1つの属性からデータセット全体、または特定組織のすべてのデータセットまで様々な粒度で割り当てられます。また、メタデータにはさまざまな種類があり、それらは分類方法によって分けられます。たとえば、記述的、構造的、管理的という3つの特徴による分類もあれば、発見や再利用といった用途ごとに分類する方式もあります。

ベストプラクティス 1: メタデータを提供する

人間の利用者とコンピュータアプリケーションの両方のためにメタデータを提供します。

なぜ

ウェブ上でデータを公開する際、発行者と利用者が互いに未知であることが多いため、メタデータの提供は基本的な要件です。データについて、人間にもコンピュータにも理解できる情報や、データセットや配布物を説明する他の重要な側面を提供することが不可欠です。

目指す成果

人間はメタデータを理解でき、特にユーザーエージェントなどのコンピュータアプリケーションは、それを処理できるようになります。

実装の参考例

人間可読なメタデータ を提供するための方法例：

HTMLウェブページの一部としてメタデータを提供する
メタデータを別のテキストファイルとして提供する

機械可読なメタデータ を提供するための方法例：

機械可読なメタデータは、TurtleやJSONなどのシリアライズ形式で提供することも、HTMLページに [HTML-RDFA] や [JSON-LD] として埋め込むこともできます。複数のフォーマットを別々に公開する場合、コンテンツネゴシエーションを用いて同じURLから提供し、ファイル名拡張子によるURI区別も可能です。複数フォーマットの保守は、単一のメタデータソースから各形式を動的生成するのが最善です。
機械可読なメタデータを定義する際は、既存の標準用語や実績ある語彙の再利用が強く推奨されます。たとえばDublin Core Metadata (DCMI) 用語 [ DCTERMS] や Data Catalog Vocabulary [VOCAB-DCAT] で記述メタデータを提供できます。こうした語彙は柔軟性が高いため、欧州委員会のDCAT-AP のような具体的な プロファイル を使用するのも有効です。

テスト方法

人間可読なメタデータが利用可能か確認します。

有効な機械可読フォーマットで、構文エラーのないメタデータが利用可能か確認します。

根拠

利点

再利用
理解向上
発見性
処理容易性

ベストプラクティス 2: 記述的メタデータを提供する

データセットおよび配布物の全体的な特徴を記述するメタデータを提供します。

なぜ

データセットの記述情報を明示的に提供することで、ユーザーエージェントがウェブ上のデータセットを自動的に発見できるようになり、人間もデータセットやその配布物の性質を理解できるようになります。

目指す成果

人間はデータセットとその配布物の性質を解釈でき、ソフトウェアエージェントはデータセットや配布物を自動的に発見できるようになります。

実装の参考例

記述的メタデータは、データセットの以下のような全体的特徴を含めることができます：

データセットのタイトルおよび説明
データセットを説明するキーワード
データセットの公開日
作成・公開責任主体（発行者）
データセットの連絡先
データセットの地理的カバレッジ
データセットがカバーする時間的範囲
データセットの最終更新日
データセットが扱う主題・カテゴリ

記述的メタデータは配布物の以下のような特徴も含めることができます：

配布物のタイトルおよび説明
配布物の公開日
配布物のメディアタイプ

記述的メタデータの機械可読版は、W3Cがデータセットの説明推奨語彙とするData Catalog Vocabulary [ VOCAB-DCAT] で提供できます。これによって、データセットを抽象的なエンティティとして記述できます。

例 2

機械可読

以下の例は、[VOCAB-DCAT] を用いて、バス停データセット (stops-2015-05-05) の機械可読な発見用メタデータを提供する方法です。このデータセットにはCSV配布物 (stops-2015-05-05.csv) が1つあり、それについても [VOCAB-DCAT] で記述しています。データセットは mobility という相対URIで示されるドメインで分類されています。このドメインは themes URIで識別されるドメイン集合の一つとして定義されています。両方の概念（データ内容の概念とスキーマ概念）を説明するために、Adrianは SKOS を使用しました。更新頻度の表現には、Content-Oriented Guidelinesのインスタンスを利用しています。例のデータセットの地理的・時間的カバレッジは、それぞれ Geonames および Time Intervals dataset のURIを使って説明しています。

  :stops-2015-05-05
      a dcat:Dataset ;
      dct:title "Bus stops of MyCity" ;
      dcat:keyword "transport","mobility","bus" ;
      dct:issued "2015-05-05"^^xsd:date ;
      dcat:contactPoint <http://data.mycity.example.com/transport/contact> ;
      dct:temporal <http://reference.data.gov.uk/id/year/2015> ;
      dct:spatial <http://sws.geonames.org/3399415> ;
      dct:language <http://id.loc.gov/vocabulary/iso639-1/en> ;
      dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-A> ;
      dcat:theme :mobility ;
      dcat:distribution :stops-2015-05-05.csv
      .

  :mobility
      a skos:Concept ;
      skos:inScheme :themes ;
      skos:prefLabel "Mobility"@en ;
      skos:prefLabel "Mobilidade"@pt
      .

  :themes
      a skos:ConceptScheme ;
      skos:prefLabel "A set of domains to classify documents"
      .

  :stops-2015-05-05.csv
      a dcat:Distribution ;
      dct:title "CSV distribution of stops-2015-05-05 dataset" ;
      dct:description "CSV distribution of the bus stops dataset of MyCity" ;
      dcat:mediaType "text/csv;charset=UTF-8"
      .

人間可読

データセットの人間可読な説明付き例ページがあります。

テスト方法

データセット自体のメタデータが人間可読な形式で全体的な特徴を含んでいるか確認します。

記述的メタデータが有効な機械可読形式で提供されているか確認します。

根拠

利点

再利用
理解向上
発見性

ベストプラクティス 3: 構造的メタデータを提供する

配布物のスキーマや内部構造を説明するメタデータを提供します。

なぜ

配布物の内部構造の情報は、そのデータセットを探索したり照会したい人にとって不可欠です。また、データの意味を理解する助けにもなります。

目指す成果

人間はデータセットのスキーマを解釈でき、ソフトウェアエージェントは配布物を自動的に処理できるようになります。

実装の参考例

人間可読の構造的メタデータは、通常、データセットスキーマのプロパティやカラム情報を提供します。

機械可読の構造的メタデータは、特定配布形式に応じた形式で入手可能で、別ドキュメントや埋め込みの形で提供されます。詳細は以下のリンクを参照してください。

表形式データ： Web上の表データとメタデータモデル
JSON-LD： JSON-LD 1.0
XML： XML Schema
多次元データ：データキューブ

例 3

機械可読

Adrianは、バス停データセット（stops-2015-05-05.csv）のCSV配布に「Web上の表データとメタデータモデル」を使用しました。以下にこの配布物の構造的メタデータを示します。

{
  "@context": ["https://www.w3.org/ns/csvw", {
    "@language": "en"
  }],
  "url": "http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05.csv",
  "dct:title": "CSV distribution of stops-2015-05-05 dataset",
  "dcat:keyword": ["bus", "stop", "mobility"],
  "dct:publisher": {
    "schema:name": "Transport Agency of MyCity",
    "schema:url": {
      "@id": "http://example.org"
    }
  },
  "dct:license": {
    "@id": "http://opendefinition.org/licenses/cc-by/"
  },
  "dct:issued": {
    "@value": "2015-05-05",
    "@type": "xsd:date"
  },
  "tableSchema": {
    "columns": [{
      "name": "stop_id",
      "titles": "Identifier",
      "dct:description": "An identifier for the bus stop.",
      "datatype": "string",
      "required": true
    }, {
      "name": "stop_name",
      "titles": "Name",
      "dct:description": "The name of the bus stop.",
      "datatype": "string"
    }, {
      "name": "stop_desc",
      "titles": "Description",
      "dct:description": "A description for the bus stop.",
      "datatype": "string"
    }, {
      "name": "stop_lat",
      "titles": "Latitude",
      "dct:description": "The latitude of the bus stop.",
      "datatype": "number"
    }, {
      "name": "stop_long",
      "titles": "Longitude",
      "dct:description": "The longitude of the bus stop.",
      "datatype": "number"
    }, {
      "name": "zone_id",
      "titles": "ZONE",
      "dct:description": "An identifier for the zone where the bus stop is located.",
      "datatype": "string"
    }, {
      "name": "stop_url",
      "titles": "URL",
      "dct:description": "URL that identifies the bus stop.",
      "datatype": "anyURI"
    }],
    "primaryKey": "stop_id"
  }
}

人間可読

人間可読な構造的メタデータ付き例ページがあります。

テスト方法

構造的メタデータが人間可読な形式で提供されているか確認します。

配布物のメタデータに、構文エラーのない機械可読なデータセット構造情報が含まれているか確認します。

根拠

利点

再利用
理解向上
処理容易性

8.3 データライセンス

ライセンスは、ウェブ上のデータに添付されるべき非常に有用な情報です。発行者が採用するライセンスの種類によって、データの共有や再利用に関する制限が多い場合もあれば少ない場合もあります。ウェブ上のデータにおいては、データセットのライセンスはメタデータ内で指定することもできますし、リンクされた別文書として記述することもできます。

ベストプラクティス 4: データライセンス情報を提供する

データ利用を管理するライセンス契約書へのリンク、またはその写しを提供します。

なぜ

ライセンス情報の有無は、データ利用者がそのデータの利用可能性を判断するために不可欠です。ユーザーエージェントは、ライセンス情報の有無によって、消費者候補へのデータの提示対象に含めるかどうかを判定することができます。

目指す成果

人間は特定の配布物の利用に課せられた制限についてデータライセンス情報を理解でき、ソフトウェアエージェントは配布物のデータライセンスを自動的に検出できるようになります。

実装の参考例

データライセンス情報は、人間が読めるライセンス契約書へのリンクや、埋め込まれた写しとして提供できます。また、機械可読なライセンス契約書へのリンクや、その埋め込みによっても提供可能です。

ライセンスとのリンク用プロパティがある語彙の一例は以下の通りです。

Dublin Core [DCTERMS] (dct:license)
Creative Commons [CCREL] (cc:license)
schema.org [SCHEMA-ORG] (schema:license)
XHTML [XHTML-VOCAB] (xhtml:license)

また、以下のような機械可読な権利言語も使われています。

Creative Commons Rights Expression Language [CCREL]
Open Digital Rights Language [ODRL-model]
Open Data Rights Statement Vocabulary [ODRS]

例 4

機械可読

バス停データセット (stops-2015-05-05.csv) のCSV配布物は、クリエイティブ・コモンズ表示-継承3.0 非移植ライセンスの下で公開されます。dct:licenseプロパティが、この情報を配布メタデータの一部として含めるために使用されています。この場合、ライセンスは機械可読な言語で書かれていませんが、dct:licenseプロパティを使うことで、ソフトウェアエージェントが配布物のデータライセンスを自動検出できます。

  :stops-2015-05-05.csv
      a dcat:Distribution ;
      dct:title "CSV distribution of stops-2015-05-05 dataset" ;
      dct:description "CSV distribution of the bus stops dataset of MyCity" ;
      dcat:mediaType "text/csv;charset=UTF-8" ;
      dct:license <http://creativecommons.org/licenses/by-sa/3.0/>
      .

人間可読

配布物の人間可読なデータライセンス情報付き例ページ

テスト方法

データセット自体のメタデータに人間可読な形式でデータライセンス情報が含まれているか確認します。

ユーザーエージェントがデータセットのデータライセンスを自動的に検出・発見できるか確認します。

根拠

関連ユースケース: R-LicenseAvailable, R-MetadataMachineRead, R-LicenseLiability

利点

再利用
信頼

8.4 データ証跡（プロヴナンス）

ウェブは、ビジネス、エンジニアリング、科学のコミュニティを結びつけ、これまで想像しえなかった共同の機会を生み出しています。ウェブ上でデータを公開する際の課題は、その由来について適切な詳細情報を提供することです。データ生産者が必ずしもデータ発行者と同一とは限らず、それに対応したメタデータの集約・伝達は特に重要となります。証跡（プロヴナンス）がなければ、利用者は共有されるデータの整合性や信頼性を確信できません。一方データ発行者は、どこまで詳細な証跡を提供すべきか、利用者コミュニティのニーズを認識する必要があります。

ベストプラクティス 5: データ証跡情報を提供する

データの由来や加えた変更について完全な情報を提供します。

なぜ

証跡（プロヴナンス）は、利用者がデータセットの品質を判断する手段のひとつです。データの由来や履歴を知ることで、そのデータの信頼性を評価し、解釈に重要な文脈を得ることができます。

目指す成果

人間はデータセットの由来・履歴を理解し、ソフトウェアエージェントは証跡情報を自動処理できるようになります。

実装の参考例

機械可読な証跡情報は、証跡記述用オントロジー（たとえばW3CのProvenance Ontology [PROV-O]）を用いて提供できます。

例 5

機械可読

以下は、証跡（プロヴナンス）メタデータを含むバス停データセットの機械可読メタデータ例です。dct:creator、dct:publisher、dct:issuedプロパティで由来を記述しています。prov:actedOnBehalfOfプロパティは、AdrianがMyCity交通局の代理で行動したことを示します。

  :stops-2015-05-05
      a dcat:Dataset, prov:Entity ;
      dct:title "Bus stops of MyCity" ;
      dcat:keyword "transport", "mobility", "bus" ;
      dct:issued "2015-05-05"^^xsd:date ; 
      dcat:contactPoint <http://data.mycity.example.com/transport/contact> ;
      dct:temporal <http://reference.data.gov.uk/id/year/2015> ;
      dct:spatial <http://sws.geonames.org/3399415> ;
      dct:publisher :transport-agency-mycity ; 
      dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-A> ;
      dct:language <http://id.loc.gov/vocabulary/iso639-1/en> ;
      dct:creator :adrian 
      .

  :adrian
      a foaf:Person, prov:Agent ;
      foaf:givenName "Adrian" ;
      foaf:mbox <mailto:adrian@mycitytransport.org> ;
      prov:actedOnBehalfOf :transport-agency-mycity 
      .
  :transport-agency-mycity
      a foaf:Organization, prov:Agent ;
      foaf:name "Transport Agency of Mycity"
      .

人間可読

バス停データセットの人間可読な証跡情報例ページ

テスト方法

データセット自体のメタデータに、人間可読な形式でデータセットの証跡情報が含まれているか確認します。

コンピュータアプリケーションが証跡情報を自動的に処理できるか確認します。

根拠

関連要件: R-ProvAvailable, R-MetadataAvailable

利点

再利用
理解向上
信頼

8.5 データ品質

データセットの品質は、それを利用するアプリケーションの品質に大きな影響を与えます。そのため、データ品質情報をデータ公開と利用のパイプラインに組み込むことが重要です。通常、品質評価には、発行者や利用者にとって重要な特徴群を表す複数の品質次元が関与します。Data Quality Vocabularyでは、各品質次元を評価するための指標やメトリックといった概念を定義しています [VOCAB-DQV]。特定の評価状況に合わせて設計されたヒューリスティクスもあり、品質指標（具体的なデータ内容、メタ情報、人による評価など）を用いて、利用目的への適合性を示します。

ベストプラクティス 6: データ品質情報を提供する

データ品質や特定用途への適合性に関する情報を提供します。

なぜ

データ品質は、元々の用途とは異なる多様なアプリケーションでのデータの適合性にも大きく影響します。データ品質を記録することで、データセット選定を大幅に容易化し、再利用の機会を高めます。分野固有の事情に関係なく、データ品質は文書化されるべきであり、既知の品質上の問題はメタデータで明示される必要があります。

目指す成果

人間・ソフトウェアエージェントの両者が、アプリケーションの目的に対するデータセットの品質や適合性を評価できるようになります。

実装の参考例

データセットの品質メタデータ（機械可読）は、DWBPワーキンググループで策定されたData Quality Vocabulary [VOCAB-DQV]を使って提供できます。

例 6

機械可読

以下は、データ品質メタデータを含むバス停データセットCSV配布物のメタデータ例です。メタデータはData Quality Vocabularyで定義されています。さらなる例はData Quality Vocabulary文書 [VOCAB-DQV] に掲載されています。

  :stops-2015-05-05.csv
      a dcat:Distribution ;
      dcat:downloadURL <http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05.csv> ;
      dct:title "CSV distribution of stops-2015-05-05 dataset" ;
      dct:description "CSV distribution of the bus stops dataset of MyCity" ;
      dcat:mediaType "text/csv;charset=UTF-8" ;
      dct:license <http://creativecommons.org/licenses/by-sa/3.0/> ;
      dqv:hasQualityMeasurement :measure1, :measure2  
      .
  :measure1
      a dqv:QualityMeasurement ;
      dqv:computedOn :stops-2015-05-05.csv ;
      dqv:isMeasurementOf :downloadURLAvailabilityMetric ;
      dqv:value "true"^^xsd:boolean 
      .
  :measure2
      a dqv:QualityMeasurement ;
      dqv:computedOn :stops-2015-05-05.csv ;
      dqv:isMeasurementOf :csvCompletenessMetric ;
      dqv:value "0.5"^^xsd:double 
      .

#definition of dimensions and metrics
  :availability
      a dqv:Dimension ;
      skos:prefLabel "Availability"@en ;
      skos:definition "Availability of a dataset is the extent to which data (or some portion of it) is present, obtainable and ready for use."@en ;
      dqv:inCategory :accessibility 
      .
  :completeness
      a dqv:Dimension ;
      skos:prefLabel "Completeness"@en ;
      skos:definition "Completeness refers to the degree to which all required information is present in a particular dataset."@en ;
      dqv:inCategory :intrinsicDimensions	
      .
  :downloadURLAvailabilityMetric
      a dqv:Metric ;
      skos:definition "It checks if dcat:downloadURL is available and if its value is dereferenceable."@en ;
      dqv:inDimension :availability
      .
  :csvCompletenessMetric
      a dqv:Metric ;
      skos:definition "Ratio between the number of objects represented in the cvs and the number of objects expected to be represented according to the declared dataset scope."@en ;
      dqv:inDimension :completeness
      .

人間可読

データ品質情報の人間可読例ページ

テスト方法

データセット自体のメタデータに品質情報が含まれているか確認します。

コンピュータアプリケーションがデータセットの品質情報を自動的に処理できるか確認します。

根拠

利点

再利用
信頼

8.6 データバージョン管理

ウェブ上で公開されているデータセットは、時間の経過とともに変更される場合があります。定期的に更新されるデータセットもあれば、収集手法の改善などによってアップデートが必要となったときだけ変更されるデータセットもあります。こうした変更に対応するため、新しいバージョンのデータセットが作成されることがあります。残念ながら、どのような変更があったときに「全く別のデータセット」になるのか、あるいは「既存データセットの新バージョン」になるのかについては明確な合意がありません。以下に、多くの発行者が「既存データセットの新バージョン」とみなすであろうケースを示します。

シナリオ1：新しいバス停が作られ、それをデータセットに追加する必要がある場合
シナリオ2：既存のバス停が削除され、それをデータセットから削除する必要がある場合
シナリオ3：データセットに記録された既存のバス停の一つに誤りが見つかり、その誤りを修正する必要がある場合

一般に、時系列や地域ごとの系列（たとえば地域ごと／年ごとの同種データをまとめたもの）は、単一データセットの複数バージョンとはみなされません。この場合、それぞれのデータセットは異なる観測対象を持つ新しいデータセットとして扱われます。例えば、毎週の気象予報データセットを収集する場合、その週ごとに新しいデータセットを作成し記録することになります。

シナリオ1や2はメジャーバージョンの更新、シナリオ3はマイナーバージョンの更新に該当する場合が多いでしょう。ただし、バージョンの区分方法よりも、バージョン識別子のないまま変更を加えないことの方が重要です。小さな変更であっても、異なるバージョンを管理することが公開データの信頼性を支える鍵です。発行者は、公開したデータセットが複数の利用者によって使われている可能性があることを念頭におき、新バージョンのリリース時には利用者に通知する配慮をしましょう。リアルタイムデータの場合、タイムスタンプがバージョン識別子として利用できます。各データセット単位で、利用者がデータの変化を理解し活用できるよう、首尾一貫して説明的なバージョン管理を行うことが大切です。

ベストプラクティス 7: バージョン識別子を付与する

各データセットにバージョン番号または日付を割り当てて明示します。

なぜ

バージョン情報によって、ある改訂版のデータセットを一意に識別できます。一意性があることで利用者は、時間経過によるデータの変化や、自分が扱っているバージョンがどれであるかを把握できます。適切なバージョン管理により、新しいバージョンの有無を利用者が知ることができ、研究の再現性や比較・混乱防止にも役立ちます。標準的な手法に従った一意なバージョン番号付与は、バージョン間の差分や意味に対する利用者の期待値を明確にできます。

期待される成果

人間・ソフトウェアエージェントともに、現在扱っているデータセットのバージョンを容易に特定できます。

実装の参考例

バージョン情報の提供方法は状況により様々ですが、指針としては次の通りです：

メタデータでデータセットごとに一意なバージョン番号または日付を含める
SchemaVerなどのような仕組みに従い、一貫性ある（桁意味のわかる）番号体系を使う [SchemaVer]
API経由でデータを提供する場合、最新バージョン取得用のURIは常に同じにしつつ、特定バージョンを指定取得できるようにする
データセットの時系列管理・参照にはMemento [RFC7089]などを使い、特定の時点のデータバージョンへアクセス可能とする。Mementoプロトコルの方法はW3C仕様のバージョン管理URI付与に近いです。

Web Ontology Language [OWL2-QUICK-REFERENCE] や Provenance, Authoring and versioning Ontology [PAV] にはバージョン情報付与用のアノテーションプロパティがあります。

例 7

機械可読

バス停データセットのメタデータにバージョン情報を追加した例です。owl:versionInfoとpav:versionプロパティがバージョンを示します。

  :stops-2015-05-05
      a dcat:Dataset ;
      dct:title "Bus stops of MyCity" ;
      dcat:keyword "transport","mobility","bus" ;
      dct:issued "2015-05-05"^^xsd:date ;
      dcat:contactPoint <http://data.mycity.example.com/transport/contact> ;
      dct:temporal <http://reference.data.gov.uk/id/year/2015> ;
      dct:spatial <http://sws.geonames.org/3399415> ;
      dct:publisher :transport-agency-mycity ;
      dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-A> ;
      dct:language <http://id.loc.gov/vocabulary/iso639-1/en> ;
      dct:creator :adrian ;
      owl:versionInfo "1.0" ; 
      pav:version "1.0" 
      .

Mementoの利用例

想定：

http://data.mycity.example.com/transport/dataset/bus/stops は常に最新版を提供する「汎用URI」
http://data.mycity.example.com/transport/dataset/bus/stops-2015-12-17 は最新版データセットのバージョンURI
http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05 は以前のバージョンのデータセットURI

Mementoプロトコルでは、バージョン付きURIがHTTPレスポンスヘッダでそのバージョンの日時や汎用URIとの関係を示します：

curl -I http://data.mycity.example.com/transport/dataset/bus/stops-2015-12-17

HTTP/1.1 200 OK
Memento-Datetime: Thu, 17 Dec 2015 00:00:00 GMT
Link:<http://data.mycity.example.com/transport/dataset/bus/stops>;
rel=“original”

汎用URIはTimeGateのリンクを提供し、指定日時に稼働していたバージョンへの時刻ネゴシエーションに使われます。汎用URI自体はバージョンを含まないため、ヘッダにバージョン日時情報は含まれません。

curl -i -H http://data.mycity.example.com/transport/dataset/bus/stops

HTTP/1.1 200 OK
Link: <http://data.mycity.example.com/transport/dataset/bus/timegate/stops>;
rel=“timegate”

バージョン付きURIもTimeGateへのリンクを与えられます：

curl -I http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05

HTTP/1.1 200 OK
Memento-Datetime: Tue, 05 May 2015 00:00:00 GMT
Link: <http://data.mycity.example.com/transport/dataset/bus/stops>;
rel=“original”,
 <http://data.mycity.example.com/transport/dataset/bus/timegate/stops>;
rel=“timegate”

これは、クライアントが特定の日時（例：2015年6月20日）時点でどのバージョンが有効だったかを判定する例です：

curl -I -H "Accept-Datetime: Sat, 20 Jun 2015  12:00:00 GMT" http://data.mycity.example.com/transport/dataset/bus/timegate/stops

HTTP/1.1 302 Found
Vary: accept-datetime
Location: http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05
Link: <http://data.mycity.example.com/transport/dataset/bus/stops>
rel="original"

人間可読

人間可読なデータバージョン管理情報付き例ページ

テスト方法

データセットや配布物のメタデータに、一意なバージョン番号や日付が人間可読な形式で提供されているか確認します。

コンピュータアプリケーションが、データセットや配布物の一意なバージョン番号や日付を自動検出・取得・処理できるか確認します。

根拠

利点

再利用
信頼

ベストプラクティス 8: バージョン履歴の提供

各バージョンで行った変更内容を説明する完全なバージョン履歴を提供します。

なぜ

データを利用するアプリケーションを開発する際、そのデータが時間とともにどのように変動するのかを把握できると有益です。バージョンごとの変動を理解できることで、データの解釈もしやすくなります。各バージョン間の違いを把握するためのサマリーがなければ、違いの確認は非常に手間がかかります。

期待される成果

人間・ソフトウェアエージェントが、データセットのバージョンごとの変化傾向や、任意の2バージョン間の主な差異を理解できるようになります。

実装の参考例

公開済みバージョンの一覧と、それぞれ前バージョンから何が変わったかの説明（チェンジログ）を提供します。APIなら履歴全体の最新版を1つの専用URLで取得できる仕組みも考えられます。

例 8

機械可読

たとえば新規バス停が追加されたとき、データセットstops-2015-12-17が公開され、これは以前のstops-2015-05-05の新バージョンです。新データセットのメタデータにバージョン履歴情報を追加した例です。

  :stops-2015-12-17
      a dcat:Dataset ;
      dct:title "Bus stops of MyCity" ;
      dcat:keyword "transport","mobility","bus" ;
      dct:issued "2015-12-17"^^xsd:date ;
      dcat:contactPoint <http://data.mycity.example.com/transport/contact> ;
      dct:temporal <http://reference.data.gov.uk/id/year/2015> ;
      dct:spatial <http://sws.geonames.org/3399415> ;
      dct:publisher :transport-agency-mycity ;
      dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-A> ;
      dct:language <http://id.loc.gov/vocabulary/iso639-1/en> ;
      dct:creator :adrian ;
       ...
      dct:isVersionOf :stops-2015-05-05 ;
      pav:previousVersion :stops-2015-05-05 ;
      rdfs:comment "The bus stops dataset was updated to reflect the creation of a new bus stop at 1115 Pearl Street." ;
      owl:versionInfo "1.1" ;
      pav:version "1.1" 
      .

Mementoの利用例：

想定：

http://data.mycity.example.com/transport/dataset/bus/stops は常に最新のバージョンに解決される「汎用URI」
http://data.mycity.example.com/transport/dataset/bus/stops-2015-12-17 が最新版URI
http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05 は前バージョン
http://example.org/stops-2015-01-01 は最初のバージョンURI

バージョン付きURI、汎用URI、TimeGateが「TimeMap」へのリンクを提供し、全バージョンの概要を取得できます：

curl -I http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05

HTTP/1.1 200 OK
Memento-Datetime: Tue, 05 May 2015 00:00:00 GMT
Link: <http://data.mycity.example.com/transport/dataset/bus/stops>;
rel=“original”,
 <http://data.mycity.example.com/transport/dataset/bus/timemap/stops>;
rel=“timemap”;
 type="application/link-format"

TimeMapの取得例：

curl -I http://data.mycity.example.com/transport/dataset/bus/timemap/stops

HTTP/1.1 200 OK
Content-Type: application/link-format

<http://data.mycity.example.com/transport/dataset/bus/stops>;rel="original”,
<http://data.mycity.example.com/transport/dataset/bus/timegate/stops>;rel="timegate”,
<http://data.mycity.example.com/transport/dataset/bus/timemap/stops>;rel="timemap”;
 type="application/link-format",
<http://data.mycity.example.com/transport/dataset/bus/stops-2015-01-01>;
rel=“first memento"; datetime="Thu, 01 Jan 2015 00:00:00 GMT",
<http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05>;
rel=“memento"; datetime=“Tue, 05 May 2015 00:00:00 GMT"
<http://data.mycity.example.com/transport/dataset/bus/stops-2015-12-07>;
rel=“last memento"; datetime="Thu, 17 Dec 2015 00:00:00 GMT"

バージョン付きURIでは、他のバージョンとの関係も示せます：

curl -I http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05

HTTP/1.1 200 OK
Memento-Datetime: Tue, 05 May 2015 00:00:00 GMT
Link: <http://data.mycity.example.com/transport/dataset/bus/stops>;
rel=“original”,
 <http://data.mycity.example.com/transport/dataset/bus/stops-2015-01-01>;
rel=“prev first memento";
 datetime="Thu, 01 Jan 2015 00:00:00 GMT",
 <http://data.mycity.example.com/transport/dataset/bus/stops-2015-12-17>;
rel=“next last memento";
 datetime="Thu, 17 Dec 2015 00:00:00 GMT"

人間可読

人間可読なデータバージョン履歴付き例ページ

テスト方法

公開済みバージョンの一覧と、各バージョンの変更内容を正確に記述したチェンジログが提供されているか確認します。

根拠

利点

再利用
信頼

8.7 データ識別子

識別子にはさまざまな形態があり、あらゆる情報システムで広く使われています。ウェブ上でのデータ検索・利用・引用は基本的にHTTP（またはHTTPS）URIの利用に依存しています。これらはインターネット経由で参照解決可能な、グローバルに一意な識別子です [RFC3986]。ここでURIに関して強調しておきたいポイントをまとめます。

URIは「意味を持たない単なる文字列」であり、役割はリソースの識別のみです。
とは言え、例えば http://example.com/dataset.csv のURIがCSVファイル以外を返すのは不自然なので、人間にわかりやすいURI設計も有用です。
URI解決時、同じリソースを複数フォーマット（CSV, JSON, XML等）で提供し、コンテンツネゴシエーションで最適なものを返せます。
1つのURIから別のURIへリダイレクトされる場合もあります。
URIの参照によりサーバ側でプログラム処理が実行されますが（単純な静的ファイル返却や複雑な加工等）、URI文字列とサーバ処理内容自体は独立です。

ベストプラクティス 9: データセット識別子に永続的なURIを利用する

各データセットを慎重に設計された永続的URIで識別します。

なぜ

識別体系を統一することによって、あらゆる関係者が信頼性のある方法で基本的なデータ識別や比較を行えます。これは適切なデータ管理と再利用の前提条件でもあります。

開発者はしばしばURIをコードに埋め込みます。そのためこれらのURIは持続的でなければならず、長期間に渡り同じリソースへ解決できる必要があります。

期待される成果

データセットまたはその情報が、データの状態・可用性・フォーマットにかかわらず、時間を超えて発見・引用が可能となります。

実装の参考例

永続性を保つにはURI設計そのものが重要です。詳しくは欧州委員会のPersistent URI調査 [PURI]（および関連資料）も参照してください。

発行者自身で永続管理が難しい場合、Permanent Identifiers for the Web や purl.org などのリダイレクトサービスを使う手もあります。これらは必要に応じてリダイレクト先を変えられる永続URIを提供します。また、これらのサービスをローカルで運用可能なソフトウェアも無料で提供されています。

DOI（Digital Object Identifier）も同様の手段です。これはWeb技術とは独立に定義されていますが、URIスタブと組み合わせて利用できます。DOIは研究データや図書館のデジタル基盤の重要な一角を担っています。

例 9

http://data.mycity.example.com/transport/dataset/bus/stopsのURIは、永続性を高める次の特徴を持っています。

ドメイン名などは時の変化に左右されますが、「MyCityという都市が存続し自治体が続く」と仮定して都市名ベースのドメインを選ぶのは合理的です。（国名やTLDすら変化しうる例もあるが、都市名サブドメインは十分永続的）
data.mycity.example.com サブドメイン上にデータを置けば、特定部局に依存しない独立運用ができます。
部局名（例：交通局）は組織再編で無くなることもあるためURIからは除外し、「業務単位」（ここでは公共交通）をURIに含めるのが理想的です。
/dataset パスは、このURIがデータセット自体の識別子であること（特定バス路線等ではない）を示します。
同様に、/busを付与することで、担当範囲のデータセットへ階層的に誘導できます。
最後の/stopsでMyCityのバス停のデータセットと特定されます。
DCATでいえばこのURIがデータセットの識別子で、個別配布物はファイル拡張子（.csv, .json, .ttl等）追加で識別できます。

テスト方法

各データセットが永続性重視で設計されたURIで識別されているか確認します。理想的には設計方針や永続運用の約束（発行者不能時は別組織が引継ぐ等）もWebサイトで示されていること。

根拠

関連要件: R-UniqueIdentifier, R-Citable

利点

再利用
リンク性
発見性
相互運用性

ベストプラクティス 10: データセット内の識別子にも永続的URIを利用する

可能な場合は他者が発行したURIをデータセット内の識別子として再利用します。

なぜ

ウェブの力は「ネットワーク効果」にあります。最初の電話は2台目ができて初めて価値を持ち、3台目でその価値はさらに増します。同じもの・場所・概念・人・出来事等について、他者のデータにも参照リンクできれば、データはますます有用になります。そのためには複数データセットで同じ識別子（URIなど）を共有し、自分の識別子も他のデータセットから参照可能にすべきです。HTTP URIなら、参照してさらに情報を得ることも可能です。

これは「リンクトデータの5つ星」やハイパーメディアの根幹であり、データポイントが相互にリンクし、データやサービスへ発展的につながることを目指します。

これがウェブ・オブ・データの本質です。

期待される成果

データ項目同士がウェブをまたいでつながり、人間・機械の双方に開かれたグローバル情報空間が創出されます。

実装の参考例

この主題自体が1つの分野であり、ここでは表層的な説明となります。

開発者は、自分の課題の多くが他の人によりすでに解決されていることをよく知っています。同様に、国、通貨、主題、生物種、都市、商品、ノーベル賞受賞者などについて識別子が必要な場合は、多くの場合すでに標準の識別子が発行されています。既存語彙の探索 [LD-BP]の手順が応用できます。

利用するURI集合が信頼できる団体・組織により発行されていることを確認
URI集合そのものが永続的なものであることも確認

要件に合った既存の識別子集合が見つからない場合は、自ら永続性指針に沿って設計し、他者がリンク付けしやすいようにしましょう。

例 10

前のベストプラクティスで例示したURI (http://data.mycity.example.com/transport/dataset/bus/stops )はデータセットの識別子です。このURI構造はバス停や路線、バス車両型式等にも再利用できます。たとえば「空港－ブルフロッグ」路線用の永続URIは次のようになります：

http://data.mycity.example.com/transport/route/bus/id/AB

データセットと同じ構造ですが、/datasetの代わりに/routeを入れ、識別対象がバス路線であることを明示しています。/idはネット上で取得できない実体識別子であることを示し、/ABがローカルIDとなります。GS1のSmartSearch Implementation Guideline [GS1]も、標準ID（例GTIN）使用時は種別名（/gtin/…等）を入れることを推奨しています。非情報リソース用URIへのアクセスはHTTP 303で情報リソース（/doc付き等）へリダイレクトするのが通例です。この話題はJeni Tennison等の資料 [URLs-in-data]で詳しく扱われています。

なおURIは長くなりがちなので、中規模以上のデータでは毎回完全なURIを各要素に保存せず、各要素にはローカルな短縮識別子（例：AB等）を付け、全要素をグローバル一意なURIへ変換できる情報も同時提供すれば効率的です。Tabular Metadata Vocabulary [Tabular-Metadata] にはCSV等表形式データでこれを実現する URIテンプレートや aboutUrl プロパティ等の仕組みがあります。

テスト方法

データセット内で、国・地域・組織・人など変化しにくい対象の参照にURIまたはURIスタブに短縮IDを付与し、できればそれらが解決可能か（不可でもグローバル変数として有効）確認します。

根拠

利点

再利用
リンク性
発見性
相互運用性

ベストプラクティス 11: データセットの各バージョン・系列にもURIを割り当てる

データセットの各バージョンだけでなく、全体系列にもURIを割り当てます。

なぜ

文書と同じく、多くのデータセットは自然な系列やグループを構成します。例：

時間とともに変化するMyCityのバス停一覧
MyCityの選出公務員リスト
ドラフトから完成までのドキュメントの進化バージョン

状況によっては「現在の状態」（バス停全体、現職メンバー等）の参照が望ましい場合もあれば、過去のある時点の状況に参照したい場合もあります。

期待される成果

人間・ソフトウェアエージェント双方が、特定バージョンや「データセット系列」「最新版」などの概念を参照できるようになります。

実装の参考例

W3Cの仕様管理が好例です。この文書の（永続的）URIは https://www.w3.org/TR/2016/PR-dwbp-20161215/であり、これは公開日時点の不変スナップショットを指します。「最新版」URIは https://www.w3.org/TR/dwbp/ で、これは時間とともに変化する密接な系列を指します。公開時点では2つのURIは同じ文書に解決されますが、新バージョン公開時は最新版URIが切り替わり、日付付きURIは変わりません。

例 11

新バス停追加の際、stops-2015-05-05 の内容を更新したデータセット stops-2015-12-17 を作るとします。 stops-2015-12-17 には stops-2015-05-05 の内容と新規分が含まれます。両バージョンは次のURIで識別されます：

http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05 …初版のバージョンURI

http://data.mycity.example.com/transport/dataset/bus/stops-2015-12-17 …更新後バージョン

http://data.mycity.example.com/transport/dataset/bus/stops は常に最新版に解決され、2015年12月17日以前は stops-2015-05-05 に、その後 stops-2015-12-17 へ切り替えられました。

テスト方法

全てのデータセットバージョンにURIが付与され、「最新版」URIもあるか確認します。

根拠

関連要件: R-UniqueIdentifier, R-Citable

利点

再利用
発見性
信頼

8.8 データ形式

データが消費者にどの形式で提供されるかは、そのデータの利用性を高める上で重要な側面です。世界中で最良かつ柔軟なアクセス手段があっても、利用・再利用を可能とする形式でデータが提供されなければ意味がありません。以下では、データのファイルや個々のフィールドレベルでの形式選定に関するベストプラクティスを詳しく述べます。W3Cは、できるだけ多くの人が利用でき、コンピュータシステムで容易に処理できる形式の利用を推奨しています。データベースダンプやスプレッドシートのような最終公開形式を生成するためのソース形式は対象外です。本ドキュメントは実際に公開されるものを対象としており、内部生成システムについては対象としません。

ベストプラクティス12: 機械可読な標準化データ形式の利用

データが想定される用途や将来の用途に適した、機械可読かつ標準化されたデータ形式で公開しましょう。

なぜ

データが普及し、データセットがより大規模・複雑になる中、コンピュータによる処理がますます重要になっています。機械可読ではない形式でデータを公開すると、そのデータの継続的な有用性には大きな制約がかかります。データは加工・変換されて情報となることで初めて有用となります。人間がパソコン上で読んだり編集できる形式と、機械可読な形式は区別する必要があります。後者はデータがコンピュータで簡単に抽出・変換・処理できることを意味します。

非標準データ形式の利用はコストや効率面で不利であり、変換時に意味が損なわれる可能性もあります。逆に、標準化されたデータ形式の利用は相互運用性や将来的な用途の拡大（リミックスや可視化など）を可能にし、これらは公開時点では想定できないことも多いです。また、多くの機械可読な標準形式はロケール非依存であることも重要です。

期待される成果

ウェブ上で公開されたデータは機械で容易に読み取り・処理でき、かつ人間も関連分野で一般的な計算ツールでデータを活用できるようになります。

実装の参考例

CSV, XML, HDF5, JSON、RDFシリアライズ構文（RDF/XML, JSON-LD, Turtle等）など、簡単にパースできる機械可読な標準データ形式で公開してください。

例12

Adrianは、表形式データがウェブ上でよく使われていることを理解し、バス停データセットの配布物のひとつでCSV形式を採用します。データ処理を容易にするため、Web上の表データとメタデータモデルを用いてstops-2015-05-05.csvを公開します。下記は例4で定義した構造メタデータに準拠するCSV配布物の抜粋です。

Identifier,Name,Description,Latitude,Longitude,ZONE,URL 
345,Castle Avenue,Sunset Drive,-3.731862,-38.526670,x20,http://data.mycity.example.com/transport/road/bus/stop/id/345
483,Main Street,Lily Park,-3.731541,-38.535157,x20,http://data.mycity.example.com/transport/road/bus/stop/id/483

テスト方法

データ形式が既知の機械可読なデータ形式仕様に準拠しているか確認してください。

根拠

利点

再利用
処理容易性

ベストプラクティス13: ロケール非依存なデータ表現を使う

ロケール非依存のデータ構造や値を使うか、それが不可能な場合はデータ値で用いたロケールに関するメタデータを付与してください。

なぜ

機械可読で特定言語や文化に依存しないデータ値は、それぞれの文化表現を使う値よりも長期的利用が可能で誤解も少なくなります。日付・通貨・数値などは見た目が似ていてもロケールによって意味が異なります。例えば「4/7」は作成国によって4月7日または7月4日を意味します。同様に「€2,000」は2,000ユーロなのか2ユーロなのか曖昧です。ロケール非依存形式を使えば、利用者の言語・地域によって異なる交換ルールが不要となります。ロケール固有の形式しか提供できない場合もロケールパラメータを付し、利用者に理解・翻訳の補助情報を与えることで機械変換を容易にします。

期待される成果

人間やソフトウェアエージェントが、日付・時刻・通貨・数値等の文字列の意味を正確に解釈できます。

実装の参考例

多くのデータシリアライズ形式はロケール非依存です。たとえばXML Schema型のxsd:integerやxsd:dateは、ロケール非依存データ交換を意図しています。ロケール非依存で値を表現すれば、複雑なパースや誤解なく正確に処理でき、利用者のロケールに合った形で提示することも容易です。例えば「€2000,00」のような文字列ではなく、次のようなデータ構造で交換するのが強く推奨されます。

…
"price" {
    "value": 2000.00,
    "currency": "EUR"
}
…

一部のデータセットでは、ロケール非依存にできない値（特に自然言語テキスト等）も含まれます。これらのデータフィールドには値がどの言語・ロケールかを示す言語タグを付与しましょう。ロケール情報はパースや適切な表示・処理に役立ちます。BCP47 [BCP47]は言語・ロケール識別の標準、CLDR [CLDR]は特定のローカライズ形式やデータ値を表現・参照するための情報源です。

例13

機械可読

下記はロケールパラメータメタデータを含むバス停データセット(stops-2015-05-05)の機械可読メタデータ例です。dct:languageは利用言語の指定に、複数言語なら値を複数指定。dct:conformsToは日付や時刻形式の標準を示します。

  :stops-2015-05-05
      a dcat:Dataset ;
      dct:title "Bus stops of MyCity" ;
      dcat:keyword "transport","mobility","bus" ;
      dct:issued "2015-05-05"^^xsd:date ;
      dcat:contactPoint <http://data.mycity.example.com/transport/contact> ;
      dct:temporal <http://reference.data.gov.uk/id/year/2015> ;
      dct:spatial <http://sws.geonames.org/3399415> ;
      dct:publisher :transport-agency-mycity ;
      dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-A> ;
      dcat:theme :mobility ;
      dcat:distribution :stops-2015-05-05.csv ;
      dct:language <http://id.loc.gov/vocabulary/iso639-1/en> ,
                   <http://id.loc.gov/vocabulary/iso639-1/pt> ;
      dct:conformsTo <http://www.iso.org/iso/home/standards/iso8601.htm>
      .

また、バス運賃データのロケール非依存表現例：

  fare_id,price,currency_type,payment_method,transfers,transfer_duration
  p,1.25,USD,0,0,0
  a,5.25,USD,0,0,0

人間可読

データセットの人間可読な説明例ページ

テスト方法

ロケール依存のデータ値がロケール非依存形式で表現されているか、または不可能な場合は該当ロケールのメタデータが付与されているか確認してください。

根拠

利点

再利用
理解促進

ベストプラクティス14: 複数形式でデータ提供

用途により複数の形式が適している場合、複数形式でデータを提供しましょう。

なぜ

複数形式での提供は、変換時のコストやエラー導入リスクを低減できます。多くの利用者が特定形式への変換を必要とする場合、最初からその形式でも提供すれば時間もお金も節約になり、エラーも防げます。さらに多様なツールやアプリでデータ活用できるようになります。

期待される成果

可能な限り多くの利用者が、自分の望む形式への変換なしにデータを利用できます。

実装の参考例

もっとも利用されそうなデータ形式や将来的な用途を踏まえて検討しましょう。多形式での提供コストと効果を勘案しつつ、1つでも選択肢を増やすだけで利用性が大きく向上します。複数形式提供には、コンテンツネゴシエーションによる複数形式対応が有効です。

なお、データセット内のローカル識別子は各形式で一貫している必要があります（URIの#フラグメント等）。

例14

Adrianはさらに多くの利用者へリーチするため、バス停データセットのJSON配布物も提供します。下記例でdcat:distributionはデータセットstops-2015-05-05の2つの配布物、stops-2015-05-05.csvとstops-2015-05-05.jsonを関連付けています。

  :stops-2015-05-05
      a dcat:Dataset ;
      dcat:distribution :stops-2015-05-05.csv ;
      dcat:distribution :stops-2015-05-05.json
      .
  :stops-2015-05-05.csv
      a dcat:Distribution ;
      dcat:downloadURL <http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05.csv> ;
      dct:title "CSV distribution of stops-2015-05-05 dataset" ;
      dct:description "CSV distribution of the bus stops dataset of MyCity" ;
      dcat:mediaType "text/csv;charset=UTF-8" ;
      dct:license <http://creativecommons.org/licenses/by-sa/3.0/>
      .
  :stops-2015-05-05.json
      a dcat:Distribution ;
      dcat:downloadURL <http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05.json> ;
      dct:title "JSON distribution of stops-2015-05-05 dataset" ;
      dct:description "JSON distribution of the bus stops dataset of MyCity" ;
      dcat:mediaType "application/json" ;
      dct:license <http://creativecommons.org/licenses/by-sa/3.0/>
      .

テスト方法

データセット全体が複数データ形式で利用できるか確認してください。

根拠

利点

再利用
処理容易性

8.9 データ語彙

語彙は、対象領域の概念・関係（「用語」「属性」とも呼ばれる）を定義するものです。各アプリケーションで使える用語の分類、関係の特徴づけ、用語利用に対する制約定義などに活用されます。語彙のほぼ同義語としてontology, controlled vocabulary, thesaurus, taxonomy, code list, semantic networkなど多くの用語が提案されています。

これらの語彙を指す用語は厳密に区別されるわけではありません。「オントロジー」は(リンクト)データセット内のリソース記述を構造化するクラスやプロパティの語彙を指すことが多いです。リレーショナルDBで言えばテーブル・カラム名、XMLならXML Schemaで定義される要素に相当します。オントロジーはセマンティックウェブで推論を行う際の基盤です。W3Cがオントロジー記述のため最初に提供したのがRDF Schema [RDF-SCHEMA] 言語であり、さらにWeb Ontology Language [ OWL2-OVERVIEW]のようなより表現力豊かな言語も利用できます。

一方、「コントロールドボキャブラリ」「コンセプトスキーム」「知識組織システム」は上記のようなリソース記述語彙で使われる資源の列挙・定義を行います。例えば「thesaurus（シソーラス）」の中の「建築」というコンセプトは、本の主題フィールド（主題語がオントロジーで定義される）で用いられます。こういった語彙の用語定義には複雑な形式は不要なため、ISO25964データモデル [ISO-25964] や W3CのSKOS [SKOS-PRIMER]のようなよりシンプルな仕組みが提案されています。

ベストプラクティス15: （できれば標準化された）語彙を再利用する

データやメタデータの符号化には、共有語彙（できれば標準化された語彙）の用語を利用しましょう。

なぜ

他者がすでに使っている語彙を利用することで、そのコミュニティにおける合意内容を反映・促進します。相互運用性向上や冗長性排除につながり、データの再利用も進みます。特にメタデータ（構造・証跡・品質・バージョン管理等）での共有語彙利用は、データおよびメタデータの比較・自動処理を助けます。標準由来のコードや用語に言及することで、類似要素や値同士での曖昧さや衝突も防げます。

期待される成果

データ発行者・利用者間で相互運用性と合意が促進されます。

実装の参考例

W3C「リンクドデータ公開のベストプラクティス」[LD-BP]のVocabulariesセクションは既存語彙の発見・評価・選定についてのガイダンスを提供しています。

Open Geospatial Consortium (OGC)、ISO、W3C、WMO、図書館や研究データサービスなど、多くの組織がコード、用語集、リンクドデータ語彙を公開しています。重要なのは、（人間・機械）双方が標準値の意味を取得できるよう十分なコンテキストをデータセットや文書で提供することです。ウェブ上ではURIによる語彙リソースの明確な指定が有効で、多言語ラベル付与による越境相互運用も可能です。EUの多言語シソーラスEurovocはその好例です。

例15

DCAT語彙は、既存語彙（Dublin Core, FOAF, SKOS, vCard等）を再利用しつつデータセットメタデータを表現します。例えばdct:title等を利用することで、DCATベースのメタデータをDublin Coreに対応した任意アプリで読み込めます。
デジタル文化分野のEuropeanaデータモデル（EDM）は、Dublin CoreやFOAF, SKOS等の共有語彙を広く利用しています。このため、プロバイダの採用が進み、同分野の他事例でもEDMベースのベストプラクティスとなっています。Digital Public Library of America の MAP もEDMを再利用し、その語彙が派生的に広がります。
米議会図書館はISO 639言語一覧をリンクドデータ（[ISO639-1-LOC]）として公開しています。
```
:stops
    dct:language <http://id.loc.gov/vocabulary/iso639-1/en> .
```
オーストラリアSolid Earth and Environment Gridは、国際層序委員会の地質時代URIを公開しています（例： http://resource.geosciml.org/classifier/ics/ischart/Paleozoic）。
```
:dataset-005 a dcat:Dataset ;
    dct:temporal <http://resource.geosciml.org/classifier/ics/ischart/Paleozoic> .
```
GoogleのGTFSは公共交通データ用の仕様で、route_short_name, route_type等のフィールド・値が定義され解釈の合意形成を促します。例：
```
0 - Tram, Streetcar, Light rail. Any light rail or street level system within a metropolitan area.
1 - Subway, Metro. Any underground rail system within a metropolitan area.
2 - Rail. Used for intercity or long-distance travel.
```
ただし、これはリンクドデータ的ではなく各項目や値にはURIも機械可読な意味もなく、利用者は個々に解釈を実装する必要があります。

テスト方法

Linked Open Vocabulariesや技術別ベストプラクティスのリンク集、RDFa・JSON-LD初期コンテキスト等で、クラス・プロパティや用語・要素・属性が他データセットで定義済の語彙の複製でないことをチェックしましょう。

利用語彙やコードが標準化団体（IETF, OGC, W3C等）や公的機関で定義・公開されているかを確認しましょう。

根拠

利点

再利用
処理容易性
理解促進
信頼
相互運用性

ベストプラクティス16: 適切な形式化レベルを選ぶ

データや最も可能性の高いアプリケーションに適したレベルの形式的意味を選択しましょう。

なぜ

アインシュタインの言葉として有名な「すべてはできるかぎり単純であるべき、だが過度な単純化はダメ」も示唆しています。

形式的意味論は詳細な意味を明確化し、複雑な語彙（オントロジー）は自動推論などの基盤となります。しかし高度な語彙は作成・理解にコストが高いため、再利用・比較や異なるデータセットとのリンク性が下がるリスクもあります。

データが高度な研究（A,B,Cが真でDは偽ならE成立…等）に耐えるほどならOWL Profile等 [OWL2-PROFILES]が適しているでしょう。

しかし、バス停リスト程度に複雑さは必要ありません。

あまりに単純な語彙は使い勝手が良い反面、例えば地理位置情報など、再利用時に欠かせない情報まで省略してしまうリスクもあります。単に「データを共有」する以上に「他者に再利用してもらう」ことが目標である点を忘れずバランスよく設計しましょう。

期待される成果

想定される主な利用ケースが、必要最小限の複雑さでサポートされます。

実装の参考例

まずは同業者の事例を参照しましょう。多くの場合、自分の要求に「ほぼ合致する」既存語彙が使われているでしょう。それを採用するのがベストです。

使いたい語彙にドメイン範囲制約等があり利用しにくい場合は、語彙の発行者に相談してみる価値があります。制約を緩和できたり利用事例が得られる場合もあります。W3Cはpublic-vocabs@w3.org [アーカイブ]を運営しているので、語彙の運用や開発に関する議論も可能です。

自作語彙の場合、制約は最小限にしておくことで他者の再利用可能性が高くなります。たとえばSKOSの設計者も、あらゆるクラス・プロパティの形式公理の導入を再利用性重視で最小限にしています。例えばskos:broaderプロパティは多くのシソーラス用階層リンク用途で適すが、他の応用で形式的不整合となるため推移的プロパティとしては定義しませんでした [SKOS-DESIGN]。こうした「広く使われる設計」の有無を基準に語彙を選ぶのも有効です。

schema.orgにも同様の例が見られます。schema.orgは、型の期待値（例：author→Organization or Person）が「期待値」として示されるのみで、厳密な制約にはなっていません。この設計思想のおかげで短期間で普及しました。共有目的の語彙選択時にはこのような柔軟な設計が有利です。

テスト方法

ほとんど主観的判断ですが、一般的ガイドラインとして:

Dublin Coreやschema.org等の一般語彙を利用しているか
単純事実が簡潔に記述・取得できているか
知識表現言語の場合、推論機をかけたときにアプリケーションにとって不要な記述が過剰生成されていないか

根拠

関連要件: R-VocabReference, R-QualityComparable

利点

再利用
理解促進
相互運用性

8.10 データアクセス

ウェブ上でデータへ簡単にアクセスできるようにすることで、人間と機械のどちらもウェブインフラによるデータ共有の利点を活用できます。基本的にウェブはHTTPメソッドを通じてデータアクセスを提供します。これによりデータへアトミックなトランザクションレベルでアクセスできます。ファイルの一括ダウンロードのような単純な手段、またはデータが複数ファイルに分散していたり、より高度な取得方法が必要な場合にはAPIを利用することがあります。この2つの基本的手段（一括ダウンロードとAPI）は、排他的ではありません。

バルクダウンロード方式では、サーバ側でデータが事前に処理され、複数ファイルやディレクトリツリーがひとつのダウンロードファイルとして提供されることが一般的です。非ファイルシステムのソリューションからバルクデータを取得する場合でも、利用者コミュニティに応じて、データ発行者はひとつのトランザクションとしての連続取得操作をサポートするAPIを提供できます。

リアルタイムや準リアルタイム生成されるデータについては、発行者は自動化された仕組みを使い即時に時々刻々変わるデータ（例：緊急情報・気象データ・システムモニタ指標）へアクセスできるようにすべきです。一般的に、第三者が自動的にこうしたデータを検索・取得できるようAPIの提供が望まれます。

リアルタイムデータパイプラインの自動化支援だけでなく、APIはウェブ上のあらゆる種類のデータに適しています。APIは一般的にダウンロード可能なファイルを置くより手間がかかりますが、より多くの発行者が、標準化された安定したAPIをきちんとドキュメント化して提供する価値があると判断する例が増えています。

データ発行者によっては、「誰がダウンロードし、どのように利用したか」が重要な場合もあります。これを把握するには2つのアプローチがあります。ひとつは、発行者が利用者に自主的な情報提供を呼びかける方法で、利用者側もデータの継続公開や自身の活動アピールに役立つと考える場合が多いです。もうひとつは、アクセス前の登録を要求する方法ですが、これは利用者にとってはやや不便です。いずれの場合もDataset Usage Vocabulary [VOCAB-DUV]でこうした情報を表現できます。利用者から（明示・暗黙問わず）何らかの情報を収集する場合、発行者はその理由や利用目的をきちんと説明すべきです。方針が明確でないと、利用者は個人情報提供をためらいデータセットの価値が下がることがあります。

ベストプラクティス17: 一括ダウンロードを提供する

消費者が1回のリクエストでデータセット全体を取得できるようにしましょう。

なぜ

ウェブデータが多くのURIに分散していても、論理的にはひとつのコンテナとして管理したい場合、一括アクセスが有用です。一括取得は、データをまとめて1つのデータセットとして扱うため一貫性のある手法を提供します。個別取得を繰り返して全体を再構成すると手間がかかり、不整合にもつながりやすいです。

期待される成果

ユーザーが妥当と感じる時間を超える大きなファイル転送でも、専用のファイル転送プロトコルにより可能となります。

実装の参考例

データの性質や消費者ニーズに応じて、以下の方法があります：

もともと複数ファイルから成るデータセットは、データを1ファイルにまとめて、ひとつのURIからダウンロードできるよう前処理する（大規模データは圧縮も可）
APIにもダイナミッククエリに加えバルクダウンロード機能を合わせて持たせる（動的データのスナップショット取得に有効）
非常に大規模なデータでは、http以外の手段（bbcpやGridFTPなど）でバルク転送を有効化する

一括ダウンロードにはデータセット記述用のメタデータも必ず含めること。発見用メタデータ [VOCAB-DCAT] は一括ダウンロードの外でも利用可能にしてください。

テスト方法

データセット全体が1回のリクエストで取得できるか確認してください。

根拠

利点

再利用
アクセス

ベストプラクティス18: 大規模データセット向けサブセット提供

データセットが大規模な場合、ユーザーやアプリケーションが必要なサブセットだけを簡単に扱えるようにしましょう。

なぜ

大規模なデータセットは移動・保存・解析の負担が大きくなります。利用者が必要なサブセットだけ使えれば、全体DLが不要です。また、ウェブアプリが大規模データにアクセスする場合も「遅延読み込み（lazy loading）」で必要な分だけ取得すれば性能が上がります。サブセット対応はオフライン処理の効率化にも役立ち、リアルタイム系では新規データの反映も高速化できます。

期待される成果

人間もアプリも、最大多数の利用者が不要なデータを減らしつつサブセットにのみアクセスできるようになります。分野的に静的な大規模データセットは小さな単位でDL可能になります。API経由でも分野ニーズやウェブアプリ性能要件に応じた粒度でサブセット取得が可能となります。

実装の参考例

主な想定ユースケースを検討し、有用なサブセットの種類を決めましょう。APIを使うことで、送信対象を絞ったサブセット提供が最も柔軟になります。これなら各利用シーンで必要なデータが的確に届けられ、不要なデータも最小限に抑えられます。ウェブアプリ用には1秒以内にレスポンスできる粒度が良いでしょう。（10秒超だとユーザーは失敗と感じがち。）

単純な分割でも各単位ごと個別DL/閲覧できるようにすることが1つの方法です。

データセットをマークアップして個別セクションや更に小さい単位へのアクセスも考えられます。RDF Data Cube Vocabularyの「スライス」定義などが参考になります。

テスト方法

複数リクエストで小単位ずつ取得すれば、データセット全体が復元できるか確認してください。

根拠

利点

再利用
リンク性
アクセス
処理容易性

ベストプラクティス19: 複数形式データへのコンテンツネゴシエーション利用

複数形式で提供されるデータには、ファイル拡張子に加えてコンテンツネゴシエーションも利用しましょう。

なぜ

データはRDFaのようにHTMLページ上に人間可読と機械可読を混在させて公開することも可能です。しかしWebアーキテクチャ [WEBARCH] やDCAT [VOCAB-DCAT] が示すように、1つのリソースには様々な表現があります。同じデータがJSON, XML, RDF, CSV, HTML等複数形式で提供され得ます。これら複数表現はAPIでも提供可能ですが、「同じ」URLでコンテンツネゴシエーションにより最適表現（DCATで言うdistribution）を返すべきです。個別表現向けに直接取得用のURIを設けることもできます。

期待される成果

コンテンツネゴシエーションにより、クライアントのリクエストに応じて異なるリソースや同一リソースの異なる表現を提供できます。

実装の参考例

ウェブサーバでリソースのコンテンツネゴシエーション処理を設定しましょう。リソース表現の特定形式は、URIまたはHTTPリクエストのContent-typeで指定できます。

例19

バス停データセットはHTTPリクエストのContent-type指定に応じて異なる表現を返せます。
CSVとJSON-LD形式での http://data.mycity.example.com/transport/dataset/bus/stops の取得例（cURL利用）：

curl -L -H "Accept: text/csv" http://data.mycity.example.com/transport/dataset/bus/stops

curl -L -H "Accept: application/ld+json" http://data.mycity.example.com/transport/dataset/bus/stops

テスト方法

利用可能なリソース表現を確認し、HTTPリクエストのAcceptヘッダで取得できるか確認してください。

根拠

関連要件: R-FormatMachineRead, R-FormatMultiple

利点

再利用
アクセス

ベストプラクティス20: リアルタイムアクセスを提供する

データがリアルタイム生成されている場合、それをウェブ上でもリアルタイムまたは準リアルタイムで提供しましょう。

なぜ

ウェブ上でリアルタイムデータが提供されることで、重要な時系列データに即時アクセスでき、リアルタイムWebアプリの開発も促進されます。リアルタイムなアクセスは、データ生産者から発行者へのリアルタイム提供体制が前提となります。アプリごとに必要性は異なり、更新頻度・遅延・インフラ可用性・消費者ニーズ等を勘案して実装が決まります。公開に加え、データの欠損・誤り・異常値や遅延情報も提供できればなお良いです。

期待される成果

アプリケーションはミリ秒～数秒レベルのリアルタイムまたは準リアルタイムで重要時系列データにアクセスできるようになります。

実装の参考例

発行者はWebサービスを構成して、リアルタイムデータ受信後すぐにWebサービスで利用者がポーリングやストリーミングで取得できるようにしましょう。

消費者がたまにしかデータをチェックしない場合は、API経由で最新値をオンデマンド取得できる仕組みとします。発行者が読み取り専用APIを用意してサポートします。

頻繁な取得の場合はストリーミングAPI（データプッシュ型）が望ましく、Server-sent Events、WebSocket、EventSourceAPI等の標準技術でサーバ側から自動更新を配信できます（詳細は本BPの範囲外）。

例20

MyCity交通局は全バスのGPSデータを常時収集しており、REST APIで消費者にリアルタイム情報を提供しています。APIで選択できる代表的機能：

バスの現在位置
停留所到着予想到着時刻
バス運行状況（返却値例："on-schedule", "delay", "out-of-service"）

API説明

説明	API	パラメータ
バス現在位置	`{root}/bus/position/current`	bus_id
特定停留所への到着時刻	`{root}/bus/arrival_time`	bus_id, stop_id
バス運行状況（返却例："on-schedule", "delay", "out-of-service"）	`{root}/bus/status`	bus_id

テスト方法

リアルタイムデータアクセスの十分な検証には、データ収集時刻から公開・取得までを追跡確認しましょう。[PROV-O]でこれらのアクティビティも記述できます。複数コンピュータが関わるシステムのウォールクロック時刻依存のテストは、実際にはデータ公開の遅延でなくシステム間の時刻不一致となる場合もあるので注意してください。

根拠

利点

再利用
アクセス

ベストプラクティス21: 最新データ提供・更新頻度の明示

データを最新に保ち、更新頻度を明示しましょう。

なぜ

ウェブにおけるデータ公開は、なるべくデータの収集時刻や生成時刻に近い形で提供されるべきです。公開頻度と実データ更新頻度をしっかり同期することで、利用者の信頼性・再利用度向上につながります。

期待される成果

ウェブ上のデータが迅速に更新され、オンラインで参照できる最新データが他チャネルの公開分とタイムリーに対応し、新データはできるだけ速やかにウェブ上でも公開されるようになります。

実装の参考例

データセットの新バージョンを定期スケジュールに従ってウェブへ投稿（バージョン管理のベストプラクティス参照）。公開作業をリリースプロセスの一部とし、担当者を割り当てることで公開遅れを防止できます。今後の更新頻度の利用者への期待設定には、人間可読な説明文および機械可読なメタデータでその頻度も明記しましょう。

例21

バス停データセットの更新頻度が年1回の場合、その頻度記述にはdct:accrualPeriodicityが使えます。データ更新にあわせて新バージョン（例stops-2016-05-05）を作成します。スケジュール外の追加バージョンも可能ですが、通常版と同様に速やかにウェブ公開すべきです。

   :stops-2016-05-05
      a dcat:Dataset ;
      dct:title "Bus stops of MyCity" ;
      dcat:keyword "transport","mobility","bus" ;
      dct:issued "2016-05-05"^^xsd:date ;
      ...
      dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-A> ;
      ...
      dct:isVersionOf :stops-2015-05-05 ;
      pav:previousVersion stops-2015-12-17 ;
      rdfs:comment "The bus stops dataset was updated to reflect the creation of new bus stops since the last update and to follow the update frequency" ;
      owl:versionInfo "1.2" ;
      pav:version "1.2"
      .

テスト方法

更新頻度の記載があり、ウェブ上で最新の公開版が明示された更新頻度より古くなっていないことを確認してください。

根拠

利点

再利用
アクセス

ベストプラクティス22: 利用できないデータには説明を付与

利用できないデータには、アクセス方法やアクセス可能者に関する説明を記載しましょう。

なぜ

利用できないデータについてオンラインで説明文書を公開しておくことで、発行者は知識ギャップを明示できます。これにより利用者は現状入手可能なデータの背景や制限を理解でき、そのデータ活用も促進できます。

期待される成果

データセットから参照されているデータのうち、一部が現状利用できないまたは条件付きでのみ利用可能であることを利用者が把握できます。

実装の参考例

人間・機械向けのコンテキストに応じて様々な表示方法が考えられます。HTML文書で人間可読説明を公開したり、機械インタフェースの場合は適切なHTTPステータス・コード（メッセージ付き）で伝えます。例：303（他参照）、410（恒久削除）、503（サービス未提供中）など。

テスト方法

データセット参照先のうち利用不可なもの・制限付きのものについて、欠落内容や入手方法案内があるか（404/503等のHTTP正当レスポンスも含む）を確認してください。

根拠

利点

再利用
信頼

8.10.1 データアクセスAPI

ベストプラクティス23: API を通じたデータ提供

リソースがある場合は、データ提供用の API を提供しましょう。

なぜ

API はデータ利用者に最大限の柔軟性と処理容易性を提供します。リアルタイムデータ利用やリクエストごとのフィルタリング、アトミックレベルでのデータ操作が可能です。データセットが大規模、頻繁に更新、高度に複雑であれば、API 提供は最良の選択肢でしょう。

目指す成果

開発者は自身のアプリケーションでデータをプログラムから利用でき、消費者側の手間なくデータが自動更新されます。ウェブアプリケーションもプログラムインターフェースを通じて必要なデータを取得できるようになります。

実装の参考例

API の作成は、単にダウンロード用データを公開するよりも工数がかかりますが、Webアプリの構築知識があれば可能です。ゼロから自作しなくても、CKANのようなデータ管理プラットフォームで既存 API の有効化もできます。多くのWeb開発フレームワークにAPI対応機能があり、API構築専用フレームワークも存在します。

例: Rails（Ruby）、Django（Python）、Express（NodeJS）はAPI構築をサポートするWeb開発フレームワークです。Swagger、Apigility、Restify、Restlet などAPI構築専用のフレームワークもあります。

テスト方法

テストクライアントでAPIコールをシミュレーションし、API が想定通り応答するか確認します。

根拠

関連要件: R-AccessRealTime, R-AccessUpToDate

利点

再利用
処理容易性
相互運用性
アクセス

ベストプラクティス24: API設計にウェブ標準を基盤とする

API設計時は、ウェブ本来の技術群を基盤としたアーキテクチャスタイルを採用しましょう。

なぜ

ウェブ標準を基盤としたAPIはウェブの強みを活かせます。例えば、HTTP動詞をメソッドとして、URIが個別リソースと直接対応するように設計すれば、リクエストとレスポンスの密結合を避けやすく、メンテナンス性が高く、多くの開発者に直感的に理解・利用されやすいAPIになります。ウェブのステートレス性もスケーリングに利点を持ち、ハイパーメディア利用により豊かなAPIインタラクションも実現できます。

目指す成果

REST等のウェブ標準API経験のある開発者なら初期段階でAPI利用の見通しが立ちやすく、APIの保守も容易となります。

実装の参考例

REST（REpresentational State Transfer）は、Web APIに取り入れることでウェブアーキテクチャそのものの恩恵を受けられるスタイルです。RESTful API構築自体の詳細は本書範囲外ですが、たくさんの情報やコミュニティリソースがあります。REST API構築フレームワークにも多様な選択肢があるので、既存のWeb開発フレームワークがRESTに対応していればぜひ活用しましょう。

加えて、ハイパーメディアAPI（応答にデータだけでなくリンクも含めるAPI）も検討できます。リンクはWebの要であり、データAPIでも応答にリンクを入れることで、より使いやすく自己説明的なサービスになります。REST準拠でなくても、レスポンスにリンクを含めることで豊富なナビゲーションや追加情報の提示ができます。

例24

あるバス路線情報APIにおけるハイパーメディアAPIのレスポンス例：

 {
 	"code": "200",
 	"text": "OK",
 	"data": {
 		"update_time": "2013-01-01T03:00:02Z",
 		"route_id": "52",
 		"route_name": "Lexington South",
 		"route_description": "Lexington corridor south of Market",
 		"route_type": "3"
 	},
 	"links": [{
    "href": "http://data.mycity.example.com/transport/api/v2/routes/52",
 		"rel": "self",
 		"type": "application/json",
 		"method": "GET"
 	}, {
  "href": "http://data.mycity.example.com/transport/api/v2/routes",
 		"rel": "collection",
 		"type": "application/json",
 		"method": "GET"
 	}, {
    "href": "http://data.mycity.example.com/transport/api/v2/schedules/52",
 		"rel": "describedby",
 		"type": "application/json",
 		"method": "GET"
 	}, {
    "href": "http://data.mycity.example.com/transport/api/v2/maps/52",
 		"rel": "describedby",
 		"type": "application/json",
 		"method": "GET"
 	}]
 }

テスト方法

httpをカスタムメソッド呼び出しのトンネリング手段として用いないことと、URIにメソッド名を含めていないことを確認します。

根拠

関連要件: R-APIDocumented, R-UniqueIdentifier

利点

再利用
リンク性
相互運用性
発見性
アクセス
処理容易性

ベストプラクティス25: API の完全なドキュメントを提供する

API についての完全な情報をウェブで提供しましょう。機能追加や変更時もドキュメントを更新してください。

なぜ

開発者は API の主要な利用者であり、ドキュメントはその品質・有用性を測る最初の手がかりです。分かりやすく完全なドキュメントがあれば、開発者はAPIの継続利用に前向きになりやすいです。まとまったドキュメントがあることで効率的なコーディングができ、変更点の明示により新機能への迅速な対応も可能となります。

目指す成果

開発者が API の各コールに関するパラメータや期待される応答など詳細な情報を把握でき、APIのあらゆる利用情報・変更通知・連絡先などもウェブで容易に参照可能となります。また機械によるAPIドキュメント取得も支援し、クライアントソフト作成も支援します。

実装の参考例

典型的なAPIリファレンスは、APIで利用可能なコールの一覧・目的・パラメータ詳細・返却例などを網羅しています。近年は、開発者が実際に試せるテストフォーム付きドキュメントも増えました。Swagger、io-docs、OpenApis などドキュメント生成支援ツールも普及しています。API自体も自己記述的であること（エラーや利用方法等の補助応答）、ユーザーが開発者に問合せできる連絡・バグ報告窓口があることも重要です。

ドキュメント品質向上には開発者からの利用・フィードバックも重要です。ユーザーと定期的に連携をとりましょう。

テスト方法

APIで利用可能なすべてのコールがドキュメント内で記載され、必須/任意パラメータや返却内容も明記されているか確認しましょう。

最初のAPI呼び出しが数分以内に成功できるか（Time To First Successful Call）が高いと開発者がAPIを継続利用しやすくなります。

根拠

利点

再利用
信頼

ベストプラクティス26: API の破壊的変更を避ける

クライアントコードが動作しなくなるような API の変更は避け、進化の際は開発者と適切にコミュニケーションしましょう。

なぜ

開発者はAPIクライアント実装時、スキーマや応答フォーマット等、APIの特定仕様に依存している場合があります。破壊的変更を避けることでクライアントコードの破損を最小化できます。変更が必要な場合でも適切に告知すれば、開発者は新機能を利用でき、破壊的変更時も対応期間を確保できます。

目指す成果

開発者のコードは今後も動き続け、API改良も適切に伝わり、うまく活用されます。APIの破壊的変更は稀になり、もし行われる場合も事前周知・情報提供により対応可能となります。APIの変更はドキュメントサイト等で告知されます。

実装の参考例

API改善時は、既存の呼び出し方法はそのままに、新しい呼び出しやオプション追加を優先しましょう。既存クライアントは変更を無視でき、継続稼働できます。

完全なRESTスタイルの場合、リソースURIを不変にし、利用者が直接参照しない部分だけ変更すれば、利用者に影響せず改良できます。設計上変更不能な仕様変更が必要なら、新しいREST APIとしてURIごと独立リリースするのが最善です。

URIsでのバージョニング、レスポンスヘッダでのバージョン指定（Content Negotiation）、新旧バージョンの並行提供も有効です。十分配慮しましょう。

例26

破壊的API変更の例：

コールの削除
呼び出し方法の変更
リソースURIの変更
コールの必須パラメータ追加
パラメータ型の変更
キー名の変更
XML応答構造の変更
応答値型の変更（例：文字列→配列）

例えばMyCity交通局APIで、あるバスの停留所到着時刻問い合わせが http://data.mycity.example.com/transport/api/arrivals/buses/53/stop/12 で取得できていたが、今後はまとめて範囲指定取得が必要になった場合、http://data.mycity.example.com/transport/api/arrivals/buses/53/stop/12-12 のように既存リクエストを変更するのではなく、従来コールを残しつつ http://data.mycity.example.com/transport/api/arrivals/buses/53/stops/1-12 という新コールを追加するのが好ましい例です。

変更案内には、メーリングリスト等で直接利用者と連絡できる仕組みを設けましょう。これによって直接通知・支援・ユーザー間の助け合いも実現できます。

テスト方法

API変更はまずテスト環境で提供し、本番適用前に開発者にテスト・フィードバックを求めましょう。

根拠

利点

信頼
相互運用性

8.11 データ保存

ワーキンググループは、ウェブ上のすべてのデータが無期限に、いつでもオンデマンドで利用できると想定するのは非現実的であると認識しています。さまざまな理由により、データ発行者はライブウェブからデータを削除したい、あるいは削除せざるを得なくなる場合があり、その時点で発行者の手を離れ、アーカイブ（保存）担当の領域になります。しかし、ここで範囲となるのは「何が残されるか」、つまりデータが削除・アーカイブされた場合に発行者が取るべき表示や告知方法です。単にリソースをウェブから削除するのは悪い習慣です。その場合、URIを参照してもHTTPレスポンスコード404（見つからない）となり、ユーザーは「見つからない」以外の情報が得られません。以下のベストプラクティスは、より生産的なアプローチを提案します。

ベストプラクティス 27: 識別子を保持する

ウェブからデータを削除する際は、識別子（URI）を維持し、アーカイブ済みリソースに関する情報を提供しましょう。

なぜ

ウェブにおける主なデータインタフェースはURI参照（デリファレンス）です。もしURI参照が「404 Not Found」になれば、そのデータが恒久的に失われたのか、一時的なのか、計画的・偶発的なものなのか、ユーザーには分かりません。データが発行者や第三者によってアーカイブされている場合でも、元のURIが機能しないと発見可能性は大きく下がります。

目指す成果

リソースのURIは、常にリソース自体か、それに関する情報へと解決され続けます。

実装の参考例

以下の2つのシナリオが考えられます：

リソースが完全に削除され、いかなる形でも入手できなくなっている場合
リソースはアーカイブされており、アーカイブへの申請のみで利用可能な場合

1つ目の場合は、サーバを設定してHTTPレスポンスコード410（Gone）を返すべきです。仕様には以下の文言があります：

410レスポンスは主にウェブ保守を助ける目的で用意されており、対象リソースが意図的に利用不可であること、管理者はそのリソースへの外部リンク削除を望んでいることを通知します。

2つ目のケースでは、データがアーカイブ済みである場合、リクエストをアーカイブ詳細や利用申請方法などを案内するウェブページにリダイレクトする方が適切です。

どちらの場合も、元のURIは識別子として維持され、直接データが得られなくても有用な情報につながります。

例 27

Adrianは、より新しいバージョンによって置き換えられたバス停データを、1年以上の間はアーカイブとして保存することにしました（例：2012-03-30版）。サーバでは2012年3月データセットへのリクエストはHTTPコード303で下記通知を含むWebページにリダイレクトされます。

アーカイブ済み

ご指定のデータはアーカイブされています。これはMyCityの運用方針（12ヶ月以上前の旧バージョンはアーカイブ）によるものです。ただし、お問合せページからいつでもコピーを請求できます。

テスト方法

利用不可データセットのURI参照時、410または303レスポンスコードにより現状や入手方法に関する情報が返されることを確認します。

根拠

利点

再利用
信頼

ベストプラクティス 28: データセットのカバレッジ評価

データ保存の前に、データセットのカバレッジ状況を評価しましょう。

なぜ

ウェブデータの断片は、定義上、世界グラフ全体との関係性に依存しています。このグローバル文脈がデータセット内リソース記述の意味へ影響を及ぼします。理想的には、あるデータセットを保存する場合、その全文脈も同時に保存することが望ましいですが、それは事実上「Web of Data」全体の保存となります。

アーカイブ時には、データセットダンプが既に保存済みリソースや語彙にどれだけリンクしているかを評価する必要があります。利用語彙や参照リソースのほとんどが保存済みでない場合、そのデータセットは「リスクあり」としてマークしておくべきです。

目指す成果

将来にわたって、利用者がアーカイブデータを活用できる状態が保たれます。

実装の参考例

使用しているリソースすべてが既にどこかで保存されているか、または対象データセットと共に保存されるべきかを必ずチェックしましょう。

例 28

保存対象となるRDFデータセットは、下記のようなトリプルから構成されています：

  <http://data.mycity.example.com/transport/route/bus/ABtimetable>
      a gtfs:Route ;
      gtfs:color "ff0000" ;
      gtfs:shortname "10" ;
      gtfs:longName "Airport - Bullfrog" ;
      gtfs:agency <http://data.mycity.example.com/transport-agency/DTA> ;
      gtfs:routeType ex:three ;
      ex:usualVehicleType dbpedia:Routemaster ;
      foaf:isPrimaryTopicOf ex:Airport_Bullfrog
      .

  <http://data.mycity.example.com/ransport/route/bus/BFC>
      a gtfs:Route ;
      gtfs:color "ffff00" ;
      gtfs:shortname "20" ;
      gtfs:longName "Bullfrog - Furnace Creek Resort" ;
      gtfs:agency <http://data.mycity.example.com/transport-agency/DTA> ;
      gtfs:routeType ex:three ;
      ex:usualVehicleType dbpedia:Articulated_bus ;
      foaf:isPrimaryTopicOf ex:Bullfrog_Furnace_Creek_Resort
      .
  …

このトリプルでは"gtfs"語彙、およびテスト用ドメイン名"ex"のカスタム語彙が使われています。他に"foaf"、"dbpedia"、"ex"のエンティティも利用されています。FOAFやGTFS [GTFS] は公式標準ではないものの、多数のウェブ箇所（例：LOVリポジトリ）でアーカイブされている語彙です。DBpediaのエンティティもMementoゲートウェイやデータセットダンプで保存されています。従って外部リソースを使ったトリプル保存のリスクは小さいですが、"ex"のようなデータセット外で存在しない名前空間のリソース使用はより問題となります。"ex:usualVehicleType"、"ex:Airport_Bullfrog"、"ex:Bullfrog_Furnace_Creek_Resort"の記述データがトリプルと一緒に保存されない場合、それらの意味が失われてしまいます。特に"ex:usualVehicleType"が欠落すると、その路線とdbpediaリソースとの関係が機械には判別できなくなります（人間には分かる場合もありますが）。

こうした評価を踏まえ、"ex:usualVehicleType"定義を含む改訂版データセットを保存対象としましょう：

 <http://data.mycity.example.com/transport/route/bus/AB> a gtfs:Route;
      gtfs:color "ff0000" ;
      gtfs:shortname "10" ;
      gtfs:longName "Airport - Bullfrog" ;
      gtfs:agency <http://data.mycity.example.com/transport-agency/DTA> ;
      gtfs:routeType ex:three ;
      ex:usualVehicleType dbpedia:Routemaster ;
      foaf:isPrimaryTopicOf ex:Airport_Bullfrog
      .

  <http://data.mycity.example.com/transport/route/bus/BFC>
      a gtfs:Route;
      gtfs:color "ffff00";
      gtfs:shortname "20";
      gtfs:longName "Bullfrog - Furnace Creek Resort";
      gtfs:agency <http://data.mycity.example.com/transport-agency/DTA>;
      gtfs:routeType ex:three;
      ex:usualVehicleType dbpedia:Articulated_bus;
      foaf:isPrimaryTopicOf ex:Bullfrog_Furnace_Creek_Resort
      .
  …

  # カスタム語彙要素
  ex:usualVehicleType 
      a rdf:Property ;
      rdfs:subPropertyOf gtfs:routeType ;
      rdfs:range gtfs:Bus
      .

より自記述的で、信頼できる外部語彙しか依存しないこの改訂版データセットの方が保存に適しています。

テスト方法

50年後に何が利用可能か正確には分かりませんが、アーカイブ済みデータセットが広く利用されている外部リソース・語彙だけに依存しているか確認しましょう。独自依存や利用者の少ないものはアーカイブ内に一緒に保存されているかもチェックしてください。

根拠

利点

再利用
信頼

8.12 フィードバック

ウェブ上での公開により、さまざまな専門レベルを持つ幅広いオーディエンスに対して大規模なデータ共有が可能となります。データ発行者は、公開したデータが利用者のニーズに合致していることを確認したいため、ユーザーフィードバックが重要です。フィードバックは発行者と利用者の双方に利益があり、発行者がデータの完全性を改善できるだけでなく、新たなデータ公開も促進します。また、フィードバックは利用者がデータ活用体験（例：データを使ったアプリ）や好み・要望を発信できる場にもなります。可能な場合、フィードバックは他の利用者も参照できるよう公開すべきです。公開することで他の利用者の存在や経験を知ることができ、協働的な環境が生まれ、ユーザーコミュニティの経験・課題・質問が現在どう扱われているかも共有できます。

ユーザーインタフェース視点では、利用者からフィードバックを収集する方法として、サイト登録、問い合わせフォーム、品質評価（レイティング）ボタン、アンケート、コメント欄（ブログ風）などがあります。一方、機械的には、データ利用状況のメトリクス記録や特定アプリケーションでのデータ利用情報を取得することもできます。この種のフィードバックは、発行者と利用者の間にコミュニケーションチャネルを築きます。公開フィードバックは、人間が読める形で表示されるべきです。

このセクションでは、データ発行者が利用者からフィードバックを受け付けるために遵守すべきベストプラクティスを示します。ここでのフィードバックは、人にも機械にも対応可能です。

ベストプラクティス29: データ利用者からフィードバックを集める

利用者がフィードバックを送れる手段を明示的に用意しましょう。

なぜ

フィードバックを得ることは、発行者がデータ利用者のニーズを理解し、公開データ品質を向上させる助けとなります。また、フィードバック窓口を明確に示すことで「どうやって要望や意見を送ればよいか」の障壁も除けます。これにより利用者の声に耳を傾ける姿勢を示し、信頼性も高まります。

期待される成果

データ利用者がデータセットや配布物についてフィードバックや評価を簡単に送ることができるようになります。

実装の参考例

利用者向けに問い合わせフォーム、ワンクリック品質評価ボタン、コメントボックス等、1つ以上のフィードバック手段を提供しましょう。得られたフィードバックをデータベースで追跡・記録し、定量分析できるようにするのもおすすめです。また、各フィードバック種別（例：編集要望、分類［評価］、コメント、質問など）を記録し、Dataset Usage Vocabulary [VOCAB-DUV] で表現できるようにしましょう。

テスト方法

少なくとも1つのフィードバック手段が提供されており、利用者から見つけやすいことを確認しましょう。

根拠

関連要件: R-UsageFeedback, R-QualityOpinions

利点

再利用
理解促進
信頼

ベストプラクティス30: フィードバックを公開する

データセットや配布物に関する利用者フィードバックを公開しましょう。

なぜ

フィードバックを利用者と共有することで、発行者がユーザーの声に応えていることを証明でき、重複バグ報告も減らせます。また、他の利用者の経験や懸念を見える化し、コミュニティ意識を育てます。

期待される成果

利用者はデータセットの課題を知り、他ユーザーの利用体験を参照でき、運用者が課題対応していることにも安心できます。また、すでに他ユーザーが似たフィードバックを提供済みか判断できるため、重複報告やメンテナの手間も減ります。

実装の参考例

フィードバックはHTMLページの一部としても、Dataset Usage Vocabulary [VOCAB-DUV] で機械可読形式でも公開できます。

例 30

  :stops-2015-05-05
      a dcat:Dataset ;
      dct:title "Bus stops of MyCity" ;
      dcat:keyword "transport","mobility","bus" ;
      dct:issued "2015-05-05"^^xsd:date ;
      dcat:contactPoint <http://data.mycity.example.com/transport/contact> ;
      dct:temporal <http://reference.data.gov.uk/id/year/2015> ;
      dct:spatial <http://sws.geonames.org/3399415> ;
      dct:publisher :transport-agency-mycity ;
      dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-A> ;
      dcat:theme :mobility ;
      dcat:distribution :stops-2015-05-05.csv 
      .

  :stops-2015-05-05.csv
      a dcat:Distribution ;
      dct:title "CSV distribution of stops-2015-05-05 dataset" ; 
      dct:description "CSV distribution of the bus stops dataset of MyCity" ;
      dcat:mediaType "text/csv;charset=UTF-8" 
      .
  :comment1Content 
      a oa:TextualBody ;
      rdf:value "This dataset is missing stop 3" 
      .

  :comment1
      a oa:Annotation ;
      a duv:UserFeedback ;
      oa:hasBody :comment1Content ;
      oa:hasTarget :stops-2015-05-05 ;
      dct:creator :localresident ;
      oa:motivatedBy oa:assessing 
      .    

  :comment2Content 
      a oa:TextualBody ;
      rdf:value "Are tab delimited formats also available?" 
      .

  :comment2
      a oa:Annotation ;
      a duv:UserFeedback ;
      oa:hasBody :comment2Content ;
      oa:hasTarget :stops-2015-05-05.csv ;    
      dct:creator :localresident ;
      oa:motivatedBy oa:assessing 
      .

  :localresident
      a foaf:Person ;
      foaf:Name "Alan Law" 
      .

テスト方法

特定データセットや配布物に対して利用者から提供されたフィードバックが公開されているか確認しましょう。

根拠

関連要件: R-UsageFeedback, R-QualityOpinions

利点

再利用
信頼

8.13 データエンリッチメント（拡充）

データエンリッチメントとは、生データや既処理データを強化・洗練・改良するために使われる一連のプロセスです。この概念や似た発想は、現代のあらゆるビジネス・業界でデータを重要資産にするために役立っています。その詳細は本書の範囲を超えますが、中には倫理的な懸念とともに注意を要する手法もある点を挙げておきます。科学的研究では、結果や統計的結論を歪めるような拡充を避けるべきです。個人情報を含むデータでは、複数データセットを組み合わせることで匿名性が失われるおそれもあります。つまり、個々には個人識別できないデータでも、組み合わせによってプライバシー侵害となる場合があります。さらに、こうした手法は大規模にも適用可能であり、そのことが慎重な運用の必要性を際立たせます。

この章では、データ拡充のために発行者が取るべきアドバイスをいくつか示します。

ベストプラクティス31: 新しいデータ生成によるエンリッチメント

価値向上につながる場合は新しいデータ生成によってデータを拡充しましょう。

なぜ

エンリッチメントは特に非構造データの処理容易性を大幅に高めることができます。状況によっては、欠損値を補完したり、既存データから新たな属性・指標を加えることも可能です。もとのデータと同じ方法で追加データを集めたり、異なるデータセットと組み合わせることでも拡充できます。適切かつ倫理的に行えば、完成度の高いデータ公開は信頼性も高まります。汎用性の高い値をあらかじめ派生させておくことで、利用者の手間が省け、多様な再利用も促進されます。知能的手法を用いたデータ拡充はいっそうデータセットの価値を高めます。

期待される成果

欠損値があるデータセットは補完され、関連指標・属性の追加によって構造化と価値が向上します（ただし、追加が統計解析や意義・有意性を歪めない場合に限る）。

実装の参考例

データ拡充手法は多様で本ドキュメントではその可能性のみを紹介します。

機械学習はデータ拡充にも活用でき、カテゴリ分類、曖昧性解消、エンティティ抽出、感情分析、トピック付与などの手法が含まれます。新たなデータ値は既存カラムの数式計算で簡単に得られる場合もあります。他にも空間データの目視特徴抽出や外部DBとの照合による属性付加などがあります。欠損値の計算や直接補完のような需要ドリブン生成も拡充の1例です。

推論による値追加はその旨を明示し、上書きされた元の値も取得可能なよう配慮しましょう。

ライセンスが許す限り、データ拡充に使ったコードもデータセットと一緒に公開します。特に科学データの場合は重要です。

拡充活動の優先度は、利用者にとっての価値と手間のバランスで決めましょう。価値の計測例：アンケートや直接リクエストの追跡など。評価方法のドキュメントもあると価値向上を証明しやすくなります。

他者データに拡充を加えた場合は、その成果を元発行者に還元するのも望ましい姿勢です。

例 31

MyCity交通局は、各停留所の住所情報を持っていました。データ利用者が地図と簡単に組み合わせられるよう、地理データベースを用いて各停留所の緯度・経度を付加しました。
交通局には利用者からの大量のメールが寄せられています。その内容は感謝、苦情、問い合わせなど様々。局は感情分析と分類手法を組み合わせて、交通種別、経路番号、ポジティブ率などのメタデータを各メールに抽出し、半構造データセットを作成しています。

テスト方法

データセットに欠損値が残っていないか、または他の利用者が必要とする追加フィールドが追加されているかを確認しましょう。推論的手法で付加されたデータはその旨を明示し、上書き前データにもアクセス可能なことを確かめます。

根拠

利点

再利用
理解促進
信頼
処理容易性

ベストプラクティス32: 補完的な提示方法を提供する

可視化・表・Webアプリ・サマリーなど、即座に分かりやすい補完的な方法でデータを提示しましょう。

なぜ

オンライン公開データはその対象について他者に知らせることが目的です。単にデータセットDLやAPIだけだと、解釈は消費者任せ。Web環境は利用者が自分でツールを作らなくても、学び・探索できる方法でデータを提示する比類なきチャンスがあります。

期待される成果

補完的な提示方法によって、人間利用者もダウンロードなしで直感的にデータの中身を把握できるようになります。

実装の参考例

最もシンプルな方法は、HTMLページ内に分析サマリーを掲載することです。グラフや表で概要を示すことで、ユーザーがすばやく要点をつかめます。

対話的な可視化やWebアプリまで作る余力があれば、データの理解やパターン発見の力がアップします。こういった手法は処理容易性や再利用性もアピールできます。

テスト方法

データセットが追加の解説コンテンツ（ダウンロードやAPIなしで閲覧できる内容）を伴っているか確認しましょう。

根拠

利点

再利用
理解促進
アクセス性
信頼

8.14 再公開（リパブリッシュ）

データの再利用は、データ公開のもう一つの形であり、単に再公開（リパブリッシュ）です。既存データを他のデータセットと組み合わせたり、Webアプリや可視化を作成したり、あるいは翻訳のように新たな形に再パッケージ化するのも例です。データ再公開者には、ウェブ上のこの形態特有の責任があります。本セクションではデータを再公開する際に守るべきアドバイスをまとめます。

ベストプラクティス 33: 元発行者へフィードバックを提供する

データを再利用する際は、その旨を元発行者に知らせましょう。エラー発見や提案・感謝があれば、その内容も伝えるようにします。

なぜ

発行者は一般に、公開したデータが役立っているかどうかを知りたがっています。また、データ公開活動へのリソース配分の根拠として利用状況の報告が必要な場合もあります。利用を報告することで、公開への努力が正当化されます。フィードバックを返すことで、今後の利用者向けにデータセットの改良を直接促せるため、発行者への「お返し」にもなります。

期待される成果

良好なコミュニケーションは元発行者がデータ利用状況を把握しやすくし、データ公開の正当性を高めます。また改善可能なポイントもわかるようになるため、より良いデータ公開が促進されます。

実装の参考例

新しいプロダクトでデータセットを利用し始める際、発行者の連絡先や利用したデータセットURI、連絡日をメモしましょう。これはソースコードの該当箇所コメントでも良いです。フィードバック方法が明示されていればそれに従い、なければデータ掲載元サイトの連絡先を探します。

例 33

# MyCityトランジットAPI利用記録, http://data.mycity.example.com/transport/api/docs/
# 発行元: MyCity Transit Agency
# 再利用についてopendata@mycitytransit.example.orgにメール通知
# Newton Calegariより, 2016/3/24.

テスト方法

少なくとも1回は発行者に利用通知・連絡をした証跡があるか確認してください。

根拠

利点

再利用
相互運用性
信頼

ベストプラクティス 34: ライセンス遵守

オリジナル発行者のライセンス要件を調べ、従いましょう。

なぜ

ライセンスは他人の著作物利用に法的枠組みを与えます。元発行者の要件を守れば良好な関係を築けます。要件に従う限り発行者からの法的トラブルを心配する必要もありません。元々のライセンスを理解することで、自分の再公開物ライセンスの選択も判断しやすくなります。

期待される成果

発行者は自分のデータがライセンス要件通りに再利用されていると信頼でき、より活発なデータの公開意欲につながります。また、利用者も派生物への適切なライセンス付与が可能となります。

実装の参考例

元のライセンス文を読み、要件に従って利用しましょう。派生物への特定のライセンス指定がある場合は、その内容に合致するライセンスを選びます。ライセンス未表示の場合は元発行者に問い合わせて確認します。

テスト方法

元のライセンス全体をチェックし、自分のデータ利用が要件違反ではないことを必ず確認してください。

根拠

関連要件: R-LicenseAvailable, R-LicenseLiability,

利点

再利用
信頼

ベストプラクティス 35: 元データの出典を明記する

データ元をメタデータで明記しましょう。ユーザーインターフェースがある場合は、そこにも明確に出典を表示します。

なぜ

データが有用となるのは信頼性あってこそ。その根拠となるのが出典明記です。1つは出典の評判から利用者が信頼判断できること。もう1つはあなた自身を信頼できる再発行者と印象づけられること。加えて、出典明記は元発行者の貢献への正当なクレジットでもあり、公開を続ける意欲にもなります。出典明記はプロヴナンス維持にも役立ち、他者によるさらなる利活用も促進します。

期待される成果

エンドユーザーはデータの信頼性判断が容易となり、元発行者へのリスペクトも伝わります。ウェブデータの出自のたどれる「信用の連鎖」も保たれます。

実装の参考例

ユーザーインターフェース内で出典情報（書誌テキストとリンク）を明示するとよいでしょう。

テスト方法

すべての再利用データに対し、メタデータで出典明記があること、人間可読な出典がUIに明示されていることを確認しましょう。

根拠

利点

再利用
発見性
信頼

ベストプラクティス	利点
メタデータを提供する	再利用理解促進発見性処理容易性
記述メタデータを提供する	再利用理解促進発見性
構造メタデータを提供する	再利用理解促進処理容易性
データライセンス情報を提供する	再利用信頼
データ来歴情報を提供する	再利用理解促進信頼
データ品質情報を提供する	再利用信頼
バージョン表示を提供する	再利用信頼
バージョン履歴を提供する	再利用信頼
データセットの識別子として永続的なURIを使用する	再利用リンク性発見性相互運用性
データセット内の識別子として永続的なURIを使用する	再利用リンク性発見性相互運用性
データセットのバージョンやシリーズにURIを割り当てる	再利用発見性信頼
機械可読の標準化データ形式を使用する	再利用処理容易性
ロケール非依存のデータ表現を使用する	再利用理解促進
複数形式でデータを提供する	再利用処理容易性
語彙を再利用する（できれば標準化されたもの）	再利用処理容易性理解促進信頼相互運用性
適切な形式化レベルを選ぶ	再利用理解促進相互運用性
一括ダウンロードを提供する	再利用アクセス
大規模データセット向けにサブセットを提供する	再利用リンク性アクセス処理容易性
複数形式提供でコンテンツネゴシエーションを使用する	再利用アクセス
リアルタイムアクセスを提供する	再利用アクセス
データを最新の状態で提供する	再利用アクセス
利用できないデータについて説明を提供する	再利用信頼
APIでデータを提供する	再利用処理容易性相互運用性アクセス
APIの基礎にウェブ標準を使用する	再利用リンク性相互運用性発見性アクセス処理容易性
APIの完全なドキュメントを提供する	再利用信頼
APIに対する破壊的変更を避ける	信頼相互運用性
識別子を保持する	再利用信頼
データセットのカバレッジを評価する	再利用信頼
データ利用者からフィードバックを収集する	再利用理解促進信頼
フィードバックを公開する	再利用信頼
新しいデータ生成によってデータを拡充する	再利用理解促進信頼処理容易性
補完的な提示を提供する	再利用理解促進アクセス信頼
元発行者へフィードバックを提供する	再利用相互運用性信頼
ライセンス条項に従う	再利用信頼
元の出版物を引用する	再利用発見性信頼

要件	ベストプラクティス
R-MetadataAvailable	メタデータを提供する記述的メタデータを提供する構造的メタデータを提供するデータのプロベナンス情報を提供するロケールに依存しないデータ表現を使用する原著を引用する
R-MetadataDocum	メタデータを提供する語彙を再利用する（可能であれば標準化されたものを使用）
R-MetadataMachineRead	メタデータを提供する記述的メタデータを提供するデータのライセンス情報を提供する
R-MetadataStandardized	記述的メタデータを提供する語彙を再利用する（可能であれば標準化されたものを使用）
R-LicenseAvailable	データのライセンス情報を提供するライセンス条件に従う
R-LicenseLiability	データのライセンス情報を提供するライセンス条件に従う
R-ProvAvailable	データのプロベナンス情報を提供する新たなデータを生成してデータを拡充する原著を引用する
R-QualityMetrics	データ品質情報を提供する
R-DataMissingIncomplete	データ品質情報を提供する
R-QualityOpinions	データ品質情報を提供するデータ利用者からフィードバックを収集するフィードバックを公開する原出典の発行者にフィードバックを提供する
R-DataVersion	バージョン指標を提供するバージョン履歴を提供する
R-UniqueIdentifier	データセットの識別子として永続的なURIを使用するデータセット内の識別子として永続的なURIを使用するデータセットのバージョンおよびシリーズにURIを割り当てる大規模データセットにはサブセットを提供する APIの基盤としてWeb標準を使用する
R-Citable	データセットの識別子として永続的なURIを使用するデータセットのバージョンおよびシリーズにURIを割り当てる大規模データセットにはサブセットを提供する原著を引用する
R-FormatMachineRead	機械可読かつ標準化されたデータ形式を使用するロケールに依存しないデータ表現を使用する複数形式で利用可能なデータを提供する際にコンテンツネゴシエーションを使用する新たなデータを生成してデータを拡充する
R-FormatStandardized	機械可読かつ標準化されたデータ形式を使用する
R-FormatOpen	機械可読かつ標準化されたデータ形式を使用する
R-FormatLocalize	ロケールに依存しないデータ表現を使用する
R-GeographicalContext	ロケールに依存しないデータ表現を使用する
R-FormatMultiple	複数の形式でデータを提供する複数形式で利用可能なデータを提供する際にコンテンツネゴシエーションを使用する
R-QualityComparable	語彙を再利用する（可能であれば標準化されたものを使用）適切な形式化レベルを選択する
R-VocabOpen	語彙を再利用する（可能であれば標準化されたものを使用）
R-VocabReference	語彙を再利用する（可能であれば標準化されたものを使用）適切な形式化レベルを選択するデータセットのカバレッジを評価する
R-AccessBulk	一括ダウンロードを提供する
R-GranularityLevels	大規模データセットにはサブセットを提供する
R-AccessRealTime	大規模データセットにはサブセットを提供するリアルタイムアクセスを提供するデータをAPIを通じて提供する
R-AccessUpToDate	最新のデータを提供するデータをAPIを通じて提供する
R-AccessLevel	利用不可のデータについて説明を提供する識別子を保持する
R-SensitivePrivacy	利用不可のデータについて説明を提供する
R-SensitiveSecurity	利用不可のデータについて説明を提供する
R-APIDocumented	APIの基盤としてWeb標準を使用する APIの完全なドキュメントを提供する APIに破壊的変更を加えない
R-PersistentIdentification	APIに破壊的変更を加えない識別子を保持する
R-UsageFeedback	データ利用者からフィードバックを収集するフィードバックを公開する原出典の発行者にフィードバックを提供する
R-DataEnrichment	新たなデータを生成してデータを拡充する補完的な提示を提供する
R-TrackDataUsage	原出典の発行者にフィードバックを提供する原著を引用する

要約

この文書の位置付け

1. はじめに

2. 対象読者

3. 適用範囲

4. 背景

5. 名前空間

6. ベストプラクティステンプレート

なぜ

達成すべき成果

実装の参考例

テスト方法

根拠

利点

7. ベストプラクティス要約

8. ベストプラクティス

8.1 実例

8.2 メタデータ

なぜ

目指す成果

実装の参考例

テスト方法

根拠

利点

なぜ

目指す成果

実装の参考例

テスト方法

根拠

利点

なぜ

目指す成果

実装の参考例

テスト方法

根拠

利点

8.3 データライセンス

なぜ

目指す成果

実装の参考例

テスト方法

根拠

利点

8.4 データ証跡（プロヴナンス）

なぜ

目指す成果

実装の参考例

テスト方法

根拠

利点

8.5 データ品質

なぜ

目指す成果

実装の参考例

テスト方法

根拠

利点

8.6 データバージョン管理

なぜ

期待される成果

実装の参考例

テスト方法

根拠

利点

なぜ

期待される成果

実装の参考例

テスト方法

根拠

利点

8.7 データ識別子

なぜ

期待される成果

実装の参考例

テスト方法

根拠

利点

なぜ

期待される成果

実装の参考例