要約

本ドキュメントは、自立的なエコシステムを支援するために設計された、ウェブ上でのデータ公開および利用に関するベストプラクティスを提供します。データは人間および機械の双方によって発見され、理解できるものであるべきです。データが何らかの方法で利用された場合、それがデータ提供者自身であっても外部者であっても、その利用も発見可能であり、データ提供者の努力が認識されるべきです。要するに、これらのベストプラクティスに従うことで、提供者と利用者の間の相互作用が円滑になります。

この文書の位置付け

このセクションは、本文書の公開時点での位置付けを説明しています。他の文書が本書に取って代わる場合があります。現在の W3C の公開文書や、この技術報告書の最新版については、W3C 技術報告書インデックス (https://www.w3.org/TR/)をご参照ください。

ウェブ上のデータベストプラクティス ワーキンググループは、設立趣意書に基づき、オープンデータのエコシステム構築、開発者と発行者のより良いコミュニケーションの促進、データ管理の一貫性を高めるための発行者へのガイダンスの提供、およびデータ再利用の促進、技術に依存しない信頼性の確保とイノベーションの創出に取り組みました。このベストプラクティス文書は、データ品質 および データセット利用の語彙とあわせて利用されます。

本文書は、ウェブ上のデータベストプラクティス ワーキンググループによってW3C勧告として公開されました。本書についてご意見がある場合は、 public-dwbp-comments@w3.org購読アーカイブ)へお送りください。ご意見をお待ちしております。

ワーキンググループの実装報告書もご参照ください。

本文書は、W3C会員、ソフトウェア開発者、および他のW3Cグループや関係者によるレビューをうけ、W3CディレクターによってW3C勧告として認められました。本書は安定した文書であり、参考資料または他の文書から引用されることがあります。W3Cの勧告の制定における役割は、仕様への注目を集め、その広範な展開を促進することです。これによってウェブの機能性と相互運用性が向上します。

本文書は、 2004年2月5日 W3C 特許ポリシーに従って運用されるグループによって作成されました。 W3C は、当該グループの成果物に関連する特許公開の一覧を管理しています。そのページには、特許を開示するための手順も含まれています。特許に関して実際の知識を有し、 本質的な請求項であると信じる者は、特許ポリシー第6節に従い、情報の開示が必要です。

この文書は、2015年9月1日 W3C プロセス文書に準拠しています。

1. はじめに

このセクションは規範的ではありません。

以下に示すベストプラクティスは、ウェブをデータ交換の媒体として継続的に拡大・発展させることを促進するために策定されました。世界中の政府によるオープンデータのオンライン共有の増加 [ OKFN-INDEX] [ODB]、研究データ同盟(RDA)などの組織による研究データのオンライン公開促進 [RDA]、ソーシャルメディアデータの収集・分析・公開、情報のクラウドソーシング、フランス国立図書館(Bibliothèque nationale de France)などの重要な文化遺産コレクションのウェブ上での存在感拡大 [BNF]、リンクドオープンデータクラウドの持続的成長 [LODC] などは、ウェブを利用したデータ公開の利用拡大の一例です。

しかし、この成長は一様ではなく、多くの場合、オープンウェブプラットフォームが持つ事実間のリンクや関連リソースの発見、インタラクティブな可視化の実現など、ウェブの持つ可能性を十分に活用していません。

概して、データの発行者はデータをオープン、または制限付きのアクセスで共有することを目指します。データの利用者(自分自身が発行者である場合も含まれます)は、正確で、定期的に更新され、常時利用できるデータであれば、データを見つけ、利用し、リンクできることを望みます。これにより、発行者と利用者の間で共通理解が不可欠となります。この合意がなければ、発行者の努力は利用者のニーズと合致しない可能性があります。

ウェブのオープン性と柔軟性は、「データをどのように表現し、記述し、発見しやすく理解しやすい形で公開するか」など、発行者・利用者双方に新たな課題をもたらします。たとえば、従来型のデータベースのように、単一のデータモデルやDBMSが存在するわけではなく、ウェブ上のデータには表現方法・アクセス方法が複数存在します。これらの課題の詳細については、ウェブ上のデータ課題の章をご覧ください。

このような背景から、データ管理の一貫性を高めるための指針を発行者に提供することが重要になります。こうした指針はデータの再利用を促進し、開発者がどのような技術を用いてもデータへの信頼を高め、真のイノベーションの可能性を高めます。

ただし、すべてのデータやメタデータをオープンに共有すべきとは限りません。セキュリティ、商業的機微、そして何より個人のプライバシーを考慮する必要があります。どのデータをどの条件で共有するかは、発行者が方針を定めるべき分野です。データ共有ポリシーは、公開リスクを評価し、認証や認可などの適切なセキュリティ対策を講じるべきかどうかを判断するものとなるでしょう。

状況によっては、個人に関する機微情報には、氏名、住所、メールアドレス、個人識別番号、IPアドレス、車両登録番号、運転免許証番号、顔・指紋・筆跡・クレジットカード番号・デジタルID・生年月日・出生地・遺伝情報・電話番号・ログイン名・スクリーンネーム・ニックネーム・健康記録などが含まれる場合があります。それらの一部はオープンにしても安全である場合もあり、制御された環境下でさらに公開可能なこともありますが、複数の情報源を結合することで意図せず個人が特定される可能性がある点に留意すべきです。

ウェブ上でデータを公開する一般的なベストプラクティスは、標準規格を利用することです。組織によっては、特定分野や応用分野向けにデータセットの公開手順に関する標準を策定し、その分野のユーザーコミュニティに共有しています。これらの標準は、関係者間で情報をやりとりするための共通手段を定めています。例えば、交通時刻表の公開にはGeneral Transit Feed Specification [GTFS] と Service Interface for Real Time Information [SIRI] があります。これらは標準用語・標準データフォーマット・標準アクセス方法等を規定しています。もう1つの一般的なベストプラクティスとして、文字データの取り扱いにはUnicodeを利用することが推奨されます。Unicodeは多言語テキスト処理を容易にし、ソフトウェアのローカライズも改善します。

ベストプラクティスは、データの公開・利用に関連する様々な側面、たとえばデータフォーマット、アクセス、識別子、メタデータなどをカバーしています。ウェブ上のデータベストプラクティスの範囲を定め必要な特徴を明確にするために、DWBPワーキンググループでは、ウェブでのデータ公開や利用のあり方を示すユースケース集 [DWBP-UCR] をまとめました。これらのユースケースから導かれた要件は、ベストプラクティスの策定指針となっており、分野やアプリケーションに依存しません。ただし、より特殊な文脈に対応する他のベストプラクティスや標準によって拡張・補完することが可能です。語彙という観点では、W3Cの「リンクドデータ公開 ベストプラクティス」[LD-BP]が参考になります。ODRL [ODRL-model] にはライセンスや権利記載のための勧告があり、証跡管理に関する一連の標準 [PROV-Overview] も存在します。空間・時間データの可発見性・アクセシビリティ・相互運用性を含む専門的なアドバイスは、「ウェブ上の空間データ ベストプラクティス」[SDW-BP]で拡張されています。

DWBP ではリンクドデータ手法を推奨していますが、CSV等の他のオープンフォーマットのウェブ上でのデータにもベストプラクティスを紹介しています。タブ区切りデータ等を最大限ウェブ上で相互リンクできるように設計された方法は、Tabular Data Primer [Tabular-Data-Primer] に記載されています。

DWBP 採用を促進するため、発行者の理解・処理可能性・発見性・再利用・信頼・リンク性・アクセス・相互運用性など、さまざまな具体的メリットが明確化されました。 それぞれのベストプラクティスとの関連は、ベストプラクティスの利点にて説明されています。

2. 対象読者

このセクションは規範的ではありません。

本書は、主にウェブ上でデータを公開する方を対象としてベストプラクティスをまとめています。ベストプラクティスは、情報管理スタッフ、開発者、ウェブ上で研究データの共有や再利用を考える科学者のような幅広い関心層のニーズに対応しています。主な対象はデータ発行者ですが、関連する活動に携わるすべての方にもぜひご一読いただきたい内容です。技術仕様書としての正確さと明快さを保ちつつ、できる限り読みやすさ・使いやすさにも配慮しています。

本書の読者は、ウェブアーキテクチャ [WEBARCH] の基本概念(リソース、URIなど)や、いくつかのデータフォーマットについての基礎知識を有していることが想定されています。各ベストプラクティスの規範的要素は達成すべき成果です。実装例も示していますが、状況に応じ技術選定を推奨する場合もあります。語彙やデータモデルの基礎知識があれば、本書の内容をより深く理解できるでしょう。

3. 適用範囲

このセクションは規範的ではありません。

本書では、下記のいずれかに該当するベストプラクティスのみを対象とします:

前述の通り、ベストプラクティスの実施有無は 達成すべき成果 に基づき判断すべきであり、実装手法例(ガイダンス)は参考情報です。ベストプラクティスは、我々がウェブをともに発展させていく中で、常に改善の余地があります。

4. 背景

このセクションは規範的ではありません。

以下の図は本書における検討範囲を示しています。一般に、ウェブ上でのデータ公開および利用を想定したベストプラクティスは データセット および ディストリビューション に関係します。データは複数のディストリビューション(データセットの物理的な形式)で公開されます。ここでいうデータとは、「記録可能で内在的な意味を持つ既知の事実」([Navathe])を指します。こうした多様なディストリビューションによって大規模なデータ共有が可能となり、利用目的・対象・関心・ライセンスの有無に関係なく データ利用者 の様々なグループで活用されます。このような多様性や、発行者と利用者が相互に未知であることから、データセット・ディストリビューションについても、信頼性や再利用につながる情報(構造メタデータ・記述メタデータ・アクセス情報・品質情報・証跡情報・ライセンス情報・利用情報など)の提供が不可欠となります。

ウェブ上でのデータ公開・共有にあたって重要なのは、ウェブのアーキテクチャ的な基盤([WEBARCH])です。重要な原則として「URIによるリソースの識別」があり、ここではリソースはデータセット全体または構成要素を指すことがあります。すべてのリソースは安定したURIで公開され、URIによるリソース間のリンクが可能になるべきです。データセット間の相互運用性を高めるためにも、語彙や標準の採用は重要です。

5. 名前空間

このセクションは規範的ではありません。

本書全体で次の名前空間プレフィックスを使用しています。

本書で使用される名前空間
プレフィックス 名前空間IRI 説明
dcat http://www.w3.org/ns/dcat# データカタログ語彙(DCAT)
dct http://purl.org/dc/terms/ ダブリンコア メタデータ用語(DCMI)
dqv http://www.w3.org/ns/dqv# DWBP データ品質語彙(DQV)
duv http://www.w3.org/ns/duv# DWBP データセット利用語彙(DUV)
foaf http://xmlns.com/foaf/0.1/ Friend of a Friend (FOAF) 語彙
oa http://www.w3.org/ns/oa# ウェブアノテーションオントロジー
owl http://www.w3.org/2002/07/owl# Webオントロジー言語(OWL)
pav http://pav-ontology.github.io/pav/ 証跡・著者・バージョン管理(PAV)
prov http://www.w3.org/ns/prov# 証跡オントロジー(PROV)
rdf http://www.w3.org/1999/02/22-rdf-syntax-ns# リソース記述フレームワーク(RDF)
rdfs http://www.w3.org/2000/01/rdf-schema# RDFスキーマ語彙(RDFS)
skos http://www.w3.org/2004/02/skos/core# シンプル知識組織システム(SKOS)

6. ベストプラクティステンプレート

本セクションでは、ウェブ上のデータベストプラクティス記述用テンプレートを紹介します。

ベストプラクティス テンプレート

BPの簡単な説明

なぜ

このセクションでは、以下の2つの重要な問いに答えます:

  • なぜウェブでのデータ公開・利用に特に関連するのか?
  • どのようにしてウェブでのデータ公開または再利用を促進するのか?

このベストプラクティスで対処する問題に関する全文説明も記載可能です。通常、数文程度です。

達成すべき成果

データ発行者がベストプラクティスに従った場合に可能とすべきこと。

実装の参考例

実装戦略案の説明です。執筆時点でのベストアドバイスを示しますが、状況や将来の発展により他の実装手法がより適切となる可能性もあります。

テスト方法

このBPが満たされているかをどのようにテストするかの情報です。機械テスト可能な場合とそうでない場合があります。

根拠

BPの関連性についての情報。これはData on the Web Best Practices Use Cases & Requirementsドキュメント [DWBP-UCR] で示された1つ以上の要件によって説明されます。

利点

利点 とは、ウェブ上でデータセットを公開・利用する方法の改善点を指します。ベストプラクティスには1つまたは複数の利点があります。
  • Reuse
  • Comprehension
  • Linkability
  • Discoverability
  • Trust
  • Access
  • Interoperability
  • Processability

7. ベストプラクティス要約

8. ベストプラクティス

このセクションでは、データ発行者がウェブ上でデータを公開・利用する際に直面するさまざまな課題を克服するために役立つベストプラクティスをまとめています。各課題ごとに一つ以上のベストプラクティスが提案されており、それらはウェブ上のデータ課題の章で説明されています。

各ベストプラクティスは、その策定の指針となった「ウェブ上のデータベストプラクティス ユースケース & 要件」文書 [DWBP-UCR] の一つ以上の要件と結びついています。各ベストプラクティスは、その妥当性を示す少なくとも1つの要件を根拠としています。

8.1 実例

AdrianはMyCityの交通局に勤務しており、公共交通に関するデータの公開を担当しています。Adrianは、このデータをアプリケーションの作成に関心がある開発者やソフトウェアエージェントなど、さまざまな種類のデータ利用者のために公開したいと考えています。データは、人間にもソフトウェアエージェントにも理解しやすく処理しやすいことが重要であり、常に最新の状態が保たれ、ウェブ上ですぐに発見できるようにする必要があります。

いくつかのベストプラクティスの適用例として、Turtle [Turtle] または JSON-LD [JSON-LD] を用いたRDFの例が示されています。

8.2 メタデータ

ウェブはオープンな情報空間であり、企業の内部情報システムのような特定の文脈がないため、メタデータの提供は基本要件となります。十分なメタデータが提供されていなければ、発行者以外はデータを発見したり再利用したりすることができません。メタデータは、データの意味や構造を利用者がより良く理解できるようにし、権利やライセンス条件、データを生成した組織、データ品質、データアクセスの方法、データセットの更新スケジュールといった他の事項も明確にします。発行者は、多言語で人間が読める情報の提供に努めるとともに、できる限り利用者が理解できる言語で情報を提供することが推奨されます。

メタデータは、データセットの発見や再利用といったタスクを助けるために利用でき、リソースの1つの属性からデータセット全体、または特定組織のすべてのデータセットまで様々な粒度で割り当てられます。また、メタデータにはさまざまな種類があり、それらは分類方法によって分けられます。たとえば、記述的、構造的、管理的という3つの特徴による分類もあれば、発見や再利用といった用途ごとに分類する方式もあります。

ベストプラクティス 1: メタデータを提供する

人間の利用者とコンピュータアプリケーションの両方のためにメタデータを提供します。

なぜ

ウェブ上でデータを公開する際、発行者と利用者が互いに未知であることが多いため、メタデータの提供は基本的な要件です。データについて、人間にもコンピュータにも理解できる情報や、データセットや配布物を説明する他の重要な側面を提供することが不可欠です。

目指す成果

人間はメタデータを理解でき、特にユーザーエージェントなどのコンピュータアプリケーションは、それを処理できるようになります。

実装の参考例

人間可読なメタデータ を提供するための方法例:

  • HTMLウェブページの一部としてメタデータを提供する
  • メタデータを別のテキストファイルとして提供する

機械可読なメタデータ を提供するための方法例:

  • 機械可読なメタデータは、TurtleやJSONなどのシリアライズ形式で提供することも、HTMLページに [HTML-RDFA] や [JSON-LD] として埋め込むこともできます。複数のフォーマットを別々に公開する場合、コンテンツネゴシエーションを用いて同じURLから提供し、ファイル名拡張子によるURI区別も可能です。複数フォーマットの保守は、単一のメタデータソースから各形式を動的生成するのが最善です。
  • 機械可読なメタデータを定義する際は、既存の標準用語や実績ある語彙の再利用が強く推奨されます。たとえばDublin Core Metadata (DCMI) 用語 [ DCTERMS] や Data Catalog Vocabulary [VOCAB-DCAT] で記述メタデータを提供できます。こうした語彙は柔軟性が高いため、欧州委員会のDCAT-AP のような具体的な プロファイル を使用するのも有効です。

テスト方法

人間可読なメタデータが利用可能か確認します。

有効な機械可読フォーマットで、構文エラーのないメタデータが利用可能か確認します。

根拠

関連要件: R-MetadataAvailable, R-MetadataDocum, R-MetadataMachineRead

利点

  • Reuse
  • Comprehension
  • Discoverability
  • Processability

ベストプラクティス 2: 記述的メタデータを提供する

データセットおよび配布物の全体的な特徴を記述するメタデータを提供します。

なぜ

データセットの記述情報を明示的に提供することで、ユーザーエージェントがウェブ上のデータセットを自動的に発見できるようになり、人間もデータセットやその配布物の性質を理解できるようになります。

目指す成果

人間はデータセットとその配布物の性質を解釈でき、ソフトウェアエージェントはデータセットや配布物を自動的に発見できるようになります。

実装の参考例

記述的メタデータは、データセットの以下のような全体的特徴を含めることができます:

  • データセットのタイトルおよび説明
  • データセットを説明するキーワード
  • データセットの公開日
  • 作成・公開責任主体(発行者)
  • データセットの連絡先
  • データセットの地理的カバレッジ
  • データセットがカバーする時間的範囲
  • データセットの最終更新日
  • データセットが扱う主題・カテゴリ

記述的メタデータは配布物の以下のような特徴も含めることができます:

  • 配布物のタイトルおよび説明
  • 配布物の公開日
  • 配布物のメディアタイプ

記述的メタデータの機械可読版は、W3Cがデータセットの説明推奨語彙とするData Catalog Vocabulary [ VOCAB-DCAT] で提供できます。これによって、データセットを抽象的なエンティティとして記述できます。

テスト方法

データセット自体のメタデータが人間可読な形式で全体的な特徴を含んでいるか確認します。

記述的メタデータが有効な機械可読形式で提供されているか確認します。

根拠

関連要件: R-MetadataAvailable, R-MetadataMachineRead, R-MetadataStandardized

利点

  • Reuse
  • Comprehension
  • Discoverability

ベストプラクティス 3: 構造的メタデータを提供する

配布物のスキーマや内部構造を説明するメタデータを提供します。

なぜ

配布物の内部構造の情報は、そのデータセットを探索したり照会したい人にとって不可欠です。また、データの意味を理解する助けにもなります。

目指す成果

人間はデータセットのスキーマを解釈でき、ソフトウェアエージェントは配布物を自動的に処理できるようになります。

実装の参考例

人間可読の構造的メタデータは、通常、データセットスキーマのプロパティやカラム情報を提供します。

機械可読の構造的メタデータは、特定配布形式に応じた形式で入手可能で、別ドキュメントや埋め込みの形で提供されます。詳細は以下のリンクを参照してください。

テスト方法

構造的メタデータが人間可読な形式で提供されているか確認します。

配布物のメタデータに、構文エラーのない機械可読なデータセット構造情報が含まれているか確認します。

根拠

関連要件: R-MetadataAvailable

利点

  • Reuse
  • Comprehension
  • Processability

8.3 データライセンス

ライセンスは、ウェブ上のデータに添付されるべき非常に有用な情報です。発行者が採用するライセンスの種類によって、データの共有や再利用に関する制限が多い場合もあれば少ない場合もあります。ウェブ上のデータにおいては、データセットのライセンスはメタデータ内で指定することもできますし、リンクされた別文書として記述することもできます。

ベストプラクティス 4: データライセンス情報を提供する

データ利用を管理するライセンス契約書へのリンク、またはその写しを提供します。

なぜ

ライセンス情報の有無は、データ利用者がそのデータの利用可能性を判断するために不可欠です。ユーザーエージェントは、ライセンス情報の有無によって、消費者候補へのデータの提示対象に含めるかどうかを判定することができます。

目指す成果

人間は特定の配布物の利用に課せられた制限についてデータライセンス情報を理解でき、ソフトウェアエージェントは配布物のデータライセンスを自動的に検出できるようになります。

実装の参考例

データライセンス情報は、人間が読めるライセンス契約書へのリンクや、埋め込まれた写しとして提供できます。また、機械可読なライセンス契約書へのリンクや、その埋め込みによっても提供可能です。

ライセンスとのリンク用プロパティがある語彙の一例は以下の通りです。

また、以下のような機械可読な権利言語も使われています。

  • Creative Commons Rights Expression Language [CCREL]
  • Open Digital Rights Language [ODRL-model]
  • Open Data Rights Statement Vocabulary [ODRS]

テスト方法

データセット自体のメタデータに人間可読な形式でデータライセンス情報が含まれているか確認します。

ユーザーエージェントがデータセットのデータライセンスを自動的に検出・発見できるか確認します。

根拠

関連ユースケース: R-LicenseAvailable, R-MetadataMachineRead, R-LicenseLiability

利点

  • Reuse
  • Trust

8.4 データ証跡(プロヴナンス)

ウェブは、ビジネス、エンジニアリング、科学のコミュニティを結びつけ、これまで想像しえなかった共同の機会を生み出しています。ウェブ上でデータを公開する際の課題は、その由来について適切な詳細情報を提供することです。 データ生産者が必ずしもデータ発行者と同一とは限らず、それに対応したメタデータの集約・伝達は特に重要となります。証跡(プロヴナンス)がなければ、利用者は共有されるデータの整合性や信頼性を確信できません。一方データ発行者は、どこまで詳細な証跡を提供すべきか、利用者コミュニティのニーズを認識する必要があります。

ベストプラクティス 5: データ証跡情報を提供する

データの由来や加えた変更について完全な情報を提供します。

なぜ

証跡(プロヴナンス)は、利用者がデータセットの品質を判断する手段のひとつです。データの由来や履歴を知ることで、そのデータの信頼性を評価し、解釈に重要な文脈を得ることができます。

目指す成果

人間はデータセットの由来・履歴を理解し、ソフトウェアエージェントは証跡情報を自動処理できるようになります。

実装の参考例

機械可読な証跡情報は、証跡記述用オントロジー(たとえばW3CのProvenance Ontology [PROV-O])を用いて提供できます。

テスト方法

データセット自体のメタデータに、人間可読な形式でデータセットの証跡情報が含まれているか確認します。

コンピュータアプリケーションが証跡情報を自動的に処理できるか確認します。

根拠

関連要件: R-ProvAvailable, R-MetadataAvailable

利点

  • Reuse
  • Comprehension
  • Trust

8.5 データ品質

データセットの品質は、それを利用するアプリケーションの品質に大きな影響を与えます。そのため、データ品質情報をデータ公開と利用のパイプラインに組み込むことが重要です。通常、品質評価には、発行者や利用者にとって重要な特徴群を表す複数の品質次元が関与します。Data Quality Vocabularyでは、各品質次元を評価するための指標やメトリックといった概念を定義しています [VOCAB-DQV]。特定の評価状況に合わせて設計されたヒューリスティクスもあり、品質指標(具体的なデータ内容、メタ情報、人による評価など)を用いて、利用目的への適合性を示します。

ベストプラクティス 6: データ品質情報を提供する

データ品質や特定用途への適合性に関する情報を提供します。

なぜ

データ品質は、元々の用途とは異なる多様なアプリケーションでのデータの適合性にも大きく影響します。データ品質を記録することで、データセット選定を大幅に容易化し、再利用の機会を高めます。分野固有の事情に関係なく、データ品質は文書化されるべきであり、既知の品質上の問題はメタデータで明示される必要があります。

目指す成果

人間・ソフトウェアエージェントの両者が、アプリケーションの目的に対するデータセットの品質や適合性を評価できるようになります。

実装の参考例

データセットの品質メタデータ(機械可読)は、DWBPワーキンググループで策定されたData Quality Vocabulary [VOCAB-DQV]を使って提供できます。

テスト方法

データセット自体のメタデータに品質情報が含まれているか確認します。

コンピュータアプリケーションがデータセットの品質情報を自動的に処理できるか確認します。

根拠

関連要件: R-QualityMetrics, R-DataMissingIncomplete, R-QualityOpinions

利点

  • Reuse
  • Trust

8.6 データバージョン管理

ウェブ上で公開されているデータセットは、時間の経過とともに変更される場合があります。定期的に更新されるデータセットもあれば、収集手法の改善などによってアップデートが必要となったときだけ変更されるデータセットもあります。こうした変更に対応するため、新しいバージョンのデータセットが作成されることがあります。残念ながら、どのような変更があったときに「全く別のデータセット」になるのか、あるいは「既存データセットの新バージョン」になるのかについては明確な合意がありません。以下に、多くの発行者が「既存データセットの新バージョン」とみなすであろうケースを示します。

一般に、時系列や地域ごとの系列(たとえば地域ごと/年ごとの同種データをまとめたもの)は、単一データセットの複数バージョンとはみなされません。この場合、それぞれのデータセットは異なる観測対象を持つ新しいデータセットとして扱われます。例えば、毎週の気象予報データセットを収集する場合、その週ごとに新しいデータセットを作成し記録することになります。

シナリオ1や2はメジャーバージョンの更新、シナリオ3はマイナーバージョンの更新に該当する場合が多いでしょう。ただし、バージョンの区分方法よりも、バージョン識別子のないまま変更を加えないことの方が重要です。小さな変更であっても、異なるバージョンを管理することが公開データの信頼性を支える鍵です。発行者は、公開したデータセットが複数の利用者によって使われている可能性があることを念頭におき、新バージョンのリリース時には利用者に通知する配慮をしましょう。リアルタイムデータの場合、タイムスタンプがバージョン識別子として利用できます。各データセット単位で、利用者がデータの変化を理解し活用できるよう、首尾一貫して説明的なバージョン管理を行うことが大切です。

ベストプラクティス 7: バージョン識別子を付与する

各データセットにバージョン番号または日付を割り当てて明示します。

なぜ

バージョン情報によって、ある改訂版のデータセットを一意に識別できます。一意性があることで利用者は、時間経過によるデータの変化や、自分が扱っているバージョンがどれであるかを把握できます。適切なバージョン管理により、新しいバージョンの有無を利用者が知ることができ、研究の再現性や比較・混乱防止にも役立ちます。標準的な手法に従った一意なバージョン番号付与は、バージョン間の差分や意味に対する利用者の期待値を明確にできます。

期待される成果

人間・ソフトウェアエージェントともに、現在扱っているデータセットのバージョンを容易に特定できます。

実装の参考例

バージョン情報の提供方法は状況により様々ですが、指針としては次の通りです:

  • メタデータでデータセットごとに一意なバージョン番号または日付を含める
  • SchemaVerなどのような仕組みに従い、一貫性ある(桁意味のわかる)番号体系を使う [SchemaVer]
  • API経由でデータを提供する場合、最新バージョン取得用のURIは常に同じにしつつ、特定バージョンを指定取得できるようにする
  • データセットの時系列管理・参照にはMemento [RFC7089]などを使い、特定の時点のデータバージョンへアクセス可能とする。Mementoプロトコルの方法はW3C仕様のバージョン管理URI付与に近いです。

Web Ontology Language [OWL2-QUICK-REFERENCE] や Provenance, Authoring and versioning Ontology [PAV] にはバージョン情報付与用のアノテーションプロパティがあります。

テスト方法

データセットや配布物のメタデータに、一意なバージョン番号や日付が人間可読な形式で提供されているか確認します。

コンピュータアプリケーションが、データセットや配布物の一意なバージョン番号や日付を自動検出・取得・処理できるか確認します。

根拠

関連要件: R-DataVersion

利点

  • Reuse
  • Trust

ベストプラクティス 8: バージョン履歴の提供

各バージョンで行った変更内容を説明する完全なバージョン履歴を提供します。

なぜ

データを利用するアプリケーションを開発する際、そのデータが時間とともにどのように変動するのかを把握できると有益です。バージョンごとの変動を理解できることで、データの解釈もしやすくなります。各バージョン間の違いを把握するためのサマリーがなければ、違いの確認は非常に手間がかかります。

期待される成果

人間・ソフトウェアエージェントが、データセットのバージョンごとの変化傾向や、任意の2バージョン間の主な差異を理解できるようになります。

実装の参考例

公開済みバージョンの一覧と、それぞれ前バージョンから何が変わったかの説明(チェンジログ)を提供します。APIなら履歴全体の最新版を1つの専用URLで取得できる仕組みも考えられます。

テスト方法

公開済みバージョンの一覧と、各バージョンの変更内容を正確に記述したチェンジログが提供されているか確認します。

根拠

関連要件: R-DataVersion

利点

  • Reuse
  • Trust

8.7 データ識別子

識別子にはさまざまな形態があり、あらゆる情報システムで広く使われています。ウェブ上でのデータ検索・利用・引用は基本的にHTTP(またはHTTPS)URIの利用に依存しています。これらはインターネット経由で参照解決可能な、グローバルに一意な識別子です [RFC3986]。ここでURIに関して強調しておきたいポイントをまとめます。

  1. URIは「意味を持たない単なる文字列」であり、役割はリソースの識別のみです。
  2. とは言え、例えば http://example.com/dataset.csv のURIがCSVファイル以外を返すのは不自然なので、人間にわかりやすいURI設計も有用です。
  3. URI解決時、同じリソースを複数フォーマット(CSV, JSON, XML等)で提供し、コンテンツネゴシエーションで最適なものを返せます。
  4. 1つのURIから別のURIへリダイレクトされる場合もあります。
  5. URIの参照によりサーバ側でプログラム処理が実行されますが(単純な静的ファイル返却や複雑な加工等)、URI文字列とサーバ処理内容自体は独立です。

ベストプラクティス 9: データセット識別子に永続的なURIを利用する

各データセットを慎重に設計された永続的URIで識別します。

なぜ

識別体系を統一することによって、あらゆる関係者が信頼性のある方法で基本的なデータ識別や比較を行えます。これは適切なデータ管理と再利用の前提条件でもあります。

開発者はしばしばURIをコードに埋め込みます。そのためこれらのURIは持続的でなければならず、長期間に渡り同じリソースへ解決できる必要があります。

期待される成果

データセットまたはその情報が、データの状態・可用性・フォーマットにかかわらず、時間を超えて発見・引用が可能となります。

実装の参考例

永続性を保つにはURI設計そのものが重要です。詳しくは欧州委員会のPersistent URI調査 [PURI](および関連資料)も参照してください。

発行者自身で永続管理が難しい場合、Permanent Identifiers for the Webpurl.org などのリダイレクトサービスを使う手もあります。これらは必要に応じてリダイレクト先を変えられる永続URIを提供します。また、これらのサービスをローカルで運用可能なソフトウェアも無料で提供されています。

DOI(Digital Object Identifier)も同様の手段です。これはWeb技術とは独立に定義されていますが、URIスタブと組み合わせて利用できます。DOIは研究データや図書館のデジタル基盤の重要な一角を担っています。

テスト方法

各データセットが永続性重視で設計されたURIで識別されているか確認します。理想的には設計方針や永続運用の約束(発行者不能時は別組織が引継ぐ等)もWebサイトで示されていること。

根拠

関連要件: R-UniqueIdentifier, R-Citable

利点

  • Reuse
  • Linkability
  • Discoverability
  • Interoperability

ベストプラクティス 10: データセット内の識別子にも永続的URIを利用する

可能な場合は他者が発行したURIをデータセット内の識別子として再利用します。

なぜ

ウェブの力は「ネットワーク効果」にあります。最初の電話は2台目ができて初めて価値を持ち、3台目でその価値はさらに増します。同じもの・場所・概念・人・出来事等について、他者のデータにも参照リンクできれば、データはますます有用になります。そのためには複数データセットで同じ識別子(URIなど)を共有し、自分の識別子も他のデータセットから参照可能にすべきです。HTTP URIなら、参照してさらに情報を得ることも可能です。

これは「リンクトデータの5つ星」や ハイパーメディア の根幹であり、データポイントが相互にリンクし、データやサービスへ発展的につながることを目指します。

これがウェブ・オブ・データの本質です。

期待される成果

データ項目同士がウェブをまたいでつながり、人間・機械の双方に開かれたグローバル情報空間が創出されます。

実装の参考例

この主題自体が1つの分野であり、ここでは表層的な説明となります。

開発者は、自分の課題の多くが他の人によりすでに解決されていることをよく知っています。同様に、国、通貨、主題、生物種、都市、商品、ノーベル賞受賞者などについて識別子が必要な場合は、多くの場合すでに標準の識別子が発行されています。既存語彙の探索 [LD-BP]の手順が応用できます。

  • 利用するURI集合が信頼できる団体・組織により発行されていることを確認
  • URI集合そのものが永続的なものであることも確認

要件に合った既存の識別子集合が見つからない場合は、自ら永続性指針に沿って設計し、他者がリンク付けしやすいようにしましょう。

テスト方法

データセット内で、国・地域・組織・人など変化しにくい対象の参照にURIまたはURIスタブに短縮IDを付与し、できればそれらが解決可能か(不可でもグローバル変数として有効)確認します。

根拠

関連要件: R-UniqueIdentifier

利点

  • Reuse
  • Linkability
  • Discoverability
  • Interoperability

ベストプラクティス 11: データセットの各バージョン・系列にもURIを割り当てる

データセットの各バージョンだけでなく、全体系列にもURIを割り当てます。

なぜ

文書と同じく、多くのデータセットは自然な系列やグループを構成します。例:

  • 時間とともに変化するMyCityのバス停一覧
  • MyCityの選出公務員リスト
  • ドラフトから完成までのドキュメントの進化バージョン

状況によっては「現在の状態」(バス停全体、現職メンバー等)の参照が望ましい場合もあれば、過去のある時点の状況に参照したい場合もあります。

期待される成果

人間・ソフトウェアエージェント双方が、特定バージョンや「データセット系列」「最新版」などの概念を参照できるようになります。

実装の参考例

W3Cの仕様管理が好例です。この文書の(永続的)URIは https://www.w3.org/TR/2016/PR-dwbp-20161215/であり、これは公開日時点の不変スナップショットを指します。「最新版」URIは https://www.w3.org/TR/dwbp/ で、これは時間とともに変化する密接な系列を指します。公開時点では2つのURIは同じ文書に解決されますが、新バージョン公開時は最新版URIが切り替わり、日付付きURIは変わりません。

テスト方法

全てのデータセットバージョンにURIが付与され、「最新版」URIもあるか確認します。

根拠

関連要件: R-UniqueIdentifier, R-Citable

利点

  • Reuse
  • Discoverability
  • Trust

8.8 データ形式

データが消費者にどの形式で提供されるかは、そのデータの利用性を高める上で重要な側面です。世界中で最良かつ柔軟なアクセス手段があっても、利用・再利用を可能とする形式でデータが提供されなければ意味がありません。以下では、データのファイルや個々のフィールドレベルでの形式選定に関するベストプラクティスを詳しく述べます。W3Cは、できるだけ多くの人が利用でき、コンピュータシステムで容易に処理できる形式の利用を推奨しています。データベースダンプやスプレッドシートのような最終公開形式を生成するためのソース形式は対象外です。本ドキュメントは実際に公開されるものを対象としており、内部生成システムについては対象としません。

ベストプラクティス12: 機械可読な標準化データ形式の利用

データが想定される用途や将来の用途に適した、機械可読かつ標準化されたデータ形式で公開しましょう。

なぜ

データが普及し、データセットがより大規模・複雑になる中、コンピュータによる処理がますます重要になっています。機械可読ではない形式でデータを公開すると、そのデータの継続的な有用性には大きな制約がかかります。データは加工・変換されて情報となることで初めて有用となります。人間がパソコン上で読んだり編集できる形式と、機械可読な形式は区別する必要があります。後者はデータがコンピュータで簡単に抽出・変換・処理できることを意味します。

非標準データ形式の利用はコストや効率面で不利であり、変換時に意味が損なわれる可能性もあります。逆に、標準化されたデータ形式の利用は相互運用性や将来的な用途の拡大(リミックスや可視化など)を可能にし、これらは公開時点では想定できないことも多いです。また、多くの機械可読な標準形式はロケール非依存であることも重要です。

期待される成果

ウェブ上で公開されたデータは機械で容易に読み取り・処理でき、かつ人間も関連分野で一般的な計算ツールでデータを活用できるようになります。

実装の参考例

CSV, XML, HDF5, JSON、RDFシリアライズ構文(RDF/XML, JSON-LD, Turtle等)など、簡単にパースできる機械可読な標準データ形式で公開してください。

テスト方法

データ形式が既知の機械可読なデータ形式仕様に準拠しているか確認してください。

根拠

関連要件: R-FormatMachineRead, R-FormatStandardizedR-FormatOpen

利点

  • Reuse
  • Processability

ベストプラクティス13: ロケール非依存なデータ表現を使う

ロケール非依存のデータ構造や値を使うか、それが不可能な場合はデータ値で用いたロケールに関するメタデータを付与してください。

なぜ

機械可読で特定言語や文化に依存しないデータ値は、それぞれの文化表現を使う値よりも長期的利用が可能で誤解も少なくなります。日付・通貨・数値などは見た目が似ていてもロケールによって意味が異なります。例えば「4/7」は作成国によって4月7日または7月4日を意味します。同様に「€2,000」は2,000ユーロなのか2ユーロなのか曖昧です。ロケール非依存形式を使えば、利用者の言語・地域によって異なる交換ルールが不要となります。ロケール固有の形式しか提供できない場合もロケールパラメータを付し、利用者に理解・翻訳の補助情報を与えることで機械変換を容易にします。

期待される成果

人間やソフトウェアエージェントが、日付・時刻・通貨・数値等の文字列の意味を正確に解釈できます。

実装の参考例

多くのデータシリアライズ形式はロケール非依存です。たとえばXML Schema型のxsd:integerxsd:dateは、ロケール非依存データ交換を意図しています。ロケール非依存で値を表現すれば、複雑なパースや誤解なく正確に処理でき、利用者のロケールに合った形で提示することも容易です。例えば「€2000,00」のような文字列ではなく、次のようなデータ構造で交換するのが強く推奨されます。

…
"price" {
    "value": 2000.00,
    "currency": "EUR"
}
…

一部のデータセットでは、ロケール非依存にできない値(特に自然言語テキスト等)も含まれます。これらのデータフィールドには値がどの言語・ロケールかを示す言語タグを付与しましょう。ロケール情報はパースや適切な表示・処理に役立ちます。BCP47 [BCP47]は言語・ロケール識別の標準、CLDR [CLDR]は特定のローカライズ形式やデータ値を表現・参照するための情報源です。

テスト方法

ロケール依存のデータ値がロケール非依存形式で表現されているか、または不可能な場合は該当ロケールのメタデータが付与されているか確認してください。

根拠

関連要件: R-FormatLocalize, R-MetadataAvailable, R-GeographicalContext, R-FormatMachineRead

利点

  • Reuse
  • Comprehension

ベストプラクティス14: 複数形式でデータ提供

用途により複数の形式が適している場合、複数形式でデータを提供しましょう。

なぜ

複数形式での提供は、変換時のコストやエラー導入リスクを低減できます。多くの利用者が特定形式への変換を必要とする場合、最初からその形式でも提供すれば時間もお金も節約になり、エラーも防げます。さらに多様なツールやアプリでデータ活用できるようになります。

期待される成果

可能な限り多くの利用者が、自分の望む形式への変換なしにデータを利用できます。

実装の参考例

もっとも利用されそうなデータ形式や将来的な用途を踏まえて検討しましょう。多形式での提供コストと効果を勘案しつつ、1つでも選択肢を増やすだけで利用性が大きく向上します。複数形式提供には、コンテンツネゴシエーションによる複数形式対応が有効です。

なお、データセット内のローカル識別子は各形式で一貫している必要があります(URIの#フラグメント等)。

テスト方法

データセット全体が複数データ形式で利用できるか確認してください。

根拠

関連要件: R-FormatMultiple

利点

  • Reuse
  • Processability

8.9 データ語彙

語彙は、対象領域の概念・関係(「用語」「属性」とも呼ばれる)を定義するものです。各アプリケーションで使える用語の分類、関係の特徴づけ、用語利用に対する制約定義などに活用されます。語彙のほぼ同義語としてontology, controlled vocabulary, thesaurus, taxonomy, code list, semantic networkなど多くの用語が提案されています。

これらの語彙を指す用語は厳密に区別されるわけではありません。「オントロジー」は(リンクト)データセット内のリソース記述を構造化するクラスやプロパティの語彙を指すことが多いです。リレーショナルDBで言えばテーブル・カラム名、XMLならXML Schemaで定義される要素に相当します。オントロジーはセマンティックウェブで推論を行う際の基盤です。W3Cがオントロジー記述のため最初に提供したのがRDF Schema [RDF-SCHEMA] 言語であり、さらにWeb Ontology Language [ OWL2-OVERVIEW]のようなより表現力豊かな言語も利用できます。

一方、「コントロールドボキャブラリ」「コンセプトスキーム」「知識組織システム」は上記のようなリソース記述語彙で使われる資源の列挙・定義を行います。例えば「thesaurus(シソーラス)」の中の「建築」というコンセプトは、本の主題フィールド(主題語がオントロジーで定義される)で用いられます。こういった語彙の用語定義には複雑な形式は不要なため、ISO25964データモデル [ISO-25964] や W3CのSKOS [SKOS-PRIMER]のようなよりシンプルな仕組みが提案されています。

ベストプラクティス15: (できれば標準化された)語彙を再利用する

データやメタデータの符号化には、共有語彙(できれば標準化された語彙)の用語を利用しましょう。

なぜ

他者がすでに使っている語彙を利用することで、そのコミュニティにおける合意内容を反映・促進します。相互運用性向上や冗長性排除につながり、データの再利用も進みます。特にメタデータ(構造・証跡・品質・バージョン管理等)での共有語彙利用は、データおよびメタデータの比較・自動処理を助けます。標準由来のコードや用語に言及することで、類似要素や値同士での曖昧さや衝突も防げます。

期待される成果

データ発行者・利用者間で相互運用性と合意が促進されます。

実装の参考例

W3C「リンクドデータ公開のベストプラクティス」[LD-BP]のVocabulariesセクションは既存語彙の発見・評価・選定についてのガイダンスを提供しています。

Open Geospatial Consortium (OGC)、ISOW3CWMO、図書館や研究データサービスなど、多くの組織がコード、用語集、リンクドデータ語彙を公開しています。重要なのは、(人間・機械)双方が標準値の意味を取得できるよう十分なコンテキストをデータセットや文書で提供することです。ウェブ上ではURIによる語彙リソースの明確な指定が有効で、多言語ラベル付与による越境相互運用も可能です。EUの多言語シソーラスEurovocはその好例です。

テスト方法

Linked Open Vocabulariesや技術別ベストプラクティスのリンク集、RDFa・JSON-LD初期コンテキスト等で、クラス・プロパティや用語・要素・属性が他データセットで定義済の語彙の複製でないことをチェックしましょう。

利用語彙やコードが標準化団体(IETF, OGC, W3C等)や公的機関で定義・公開されているかを確認しましょう。

根拠

関連要件: R-MetadataStandardized, R-MetadataDocum, R-QualityComparable, R-VocabOpen, R-VocabReference

利点

  • Reuse
  • Processability
  • Comprehension
  • Trust
  • Interoperability

ベストプラクティス16: 適切な形式化レベルを選ぶ

データや最も可能性の高いアプリケーションに適したレベルの形式的意味を選択しましょう。

なぜ

アインシュタインの言葉として有名な「すべてはできるかぎり単純であるべき、だが過度な単純化はダメ」も示唆しています。

形式的意味論は詳細な意味を明確化し、複雑な語彙(オントロジー)は自動推論などの基盤となります。しかし高度な語彙は作成・理解にコストが高いため、再利用・比較や異なるデータセットとのリンク性が下がるリスクもあります。

データが高度な研究(A,B,Cが真でDは偽ならE成立…等)に耐えるほどならOWL Profile等 [OWL2-PROFILES]が適しているでしょう。

しかし、バス停リスト程度に複雑さは必要ありません。

あまりに単純な語彙は使い勝手が良い反面、例えば地理位置情報など、再利用時に欠かせない情報まで省略してしまうリスクもあります。単に「データを共有」する以上に「他者に再利用してもらう」ことが目標である点を忘れずバランスよく設計しましょう。

期待される成果

想定される主な利用ケースが、必要最小限の複雑さでサポートされます。

実装の参考例

まずは同業者の事例を参照しましょう。多くの場合、自分の要求に「ほぼ合致する」既存語彙が使われているでしょう。それを採用するのがベストです。

使いたい語彙にドメイン範囲制約等があり利用しにくい場合は、語彙の発行者に相談してみる価値があります。制約を緩和できたり利用事例が得られる場合もあります。W3Cはpublic-vocabs@w3.org [アーカイブ]を運営しているので、語彙の運用や開発に関する議論も可能です。

自作語彙の場合、制約は最小限にしておくことで他者の再利用可能性が高くなります。たとえばSKOSの設計者も、あらゆるクラス・プロパティの形式公理の導入を再利用性重視で最小限にしています。例えばskos:broaderプロパティは多くのシソーラス用階層リンク用途で適すが、他の応用で形式的不整合となるため推移的プロパティとしては定義しませんでした [SKOS-DESIGN]。こうした「広く使われる設計」の有無を基準に語彙を選ぶのも有効です。

schema.orgにも同様の例が見られます。schema.orgは、型の期待値(例:author→Organization or Person)が「期待値」として示されるのみで、厳密な制約にはなっていません。この設計思想のおかげで短期間で普及しました。共有目的の語彙選択時にはこのような柔軟な設計が有利です。

テスト方法

ほとんど主観的判断ですが、一般的ガイドラインとして:

  • Dublin Coreやschema.org等の一般語彙を利用しているか
  • 単純事実が簡潔に記述・取得できているか
  • 知識表現言語の場合、推論機をかけたときにアプリケーションにとって不要な記述が過剰生成されていないか

根拠

関連要件: R-VocabReference, R-QualityComparable

利点

  • Reuse
  • Comprehension
  • Interoperability

8.10 データアクセス

ウェブ上でデータへ簡単にアクセスできるようにすることで、人間と機械のどちらもウェブインフラによるデータ共有の利点を活用できます。基本的にウェブはHTTPメソッドを通じてデータアクセスを提供します。これによりデータへアトミックなトランザクションレベルでアクセスできます。ファイルの一括ダウンロードのような単純な手段、またはデータが複数ファイルに分散していたり、より高度な取得方法が必要な場合にはAPIを利用することがあります。この2つの基本的手段(一括ダウンロードとAPI)は、排他的ではありません。

バルクダウンロード方式では、サーバ側でデータが事前に処理され、複数ファイルやディレクトリツリーがひとつのダウンロードファイルとして提供されることが一般的です。非ファイルシステムのソリューションからバルクデータを取得する場合でも、利用者コミュニティに応じて、データ発行者はひとつのトランザクションとしての連続取得操作をサポートするAPIを提供できます。

リアルタイムや準リアルタイム生成されるデータについては、発行者は自動化された仕組みを使い即時に時々刻々変わるデータ(例:緊急情報・気象データ・システムモニタ指標)へアクセスできるようにすべきです。一般的に、第三者が自動的にこうしたデータを検索・取得できるようAPIの提供が望まれます。

リアルタイムデータパイプラインの自動化支援だけでなく、APIはウェブ上のあらゆる種類のデータに適しています。APIは一般的にダウンロード可能なファイルを置くより手間がかかりますが、より多くの発行者が、標準化された安定したAPIをきちんとドキュメント化して提供する価値があると判断する例が増えています。

データ発行者によっては、「誰がダウンロードし、どのように利用したか」が重要な場合もあります。これを把握するには2つのアプローチがあります。ひとつは、発行者が利用者に自主的な情報提供を呼びかける方法で、利用者側もデータの継続公開や自身の活動アピールに役立つと考える場合が多いです。もうひとつは、アクセス前の登録を要求する方法ですが、これは利用者にとってはやや不便です。いずれの場合もDataset Usage Vocabulary [VOCAB-DUV]でこうした情報を表現できます。利用者から(明示・暗黙問わず)何らかの情報を収集する場合、発行者はその理由や利用目的をきちんと説明すべきです。方針が明確でないと、利用者は個人情報提供をためらいデータセットの価値が下がることがあります。

ベストプラクティス17: 一括ダウンロードを提供する

消費者が1回のリクエストでデータセット全体を取得できるようにしましょう。

なぜ

ウェブデータが多くのURIに分散していても、論理的にはひとつのコンテナとして管理したい場合、一括アクセスが有用です。一括取得は、データをまとめて1つのデータセットとして扱うため一貫性のある手法を提供します。個別取得を繰り返して全体を再構成すると手間がかかり、不整合にもつながりやすいです。

期待される成果

ユーザーが妥当と感じる時間を超える大きなファイル転送でも、専用のファイル転送プロトコルにより可能となります。

実装の参考例

データの性質や消費者ニーズに応じて、以下の方法があります:

  • もともと複数ファイルから成るデータセットは、データを1ファイルにまとめて、ひとつのURIからダウンロードできるよう前処理する(大規模データは圧縮も可)
  • APIにもダイナミッククエリに加えバルクダウンロード機能を合わせて持たせる(動的データのスナップショット取得に有効)
  • 非常に大規模なデータでは、http以外の手段(bbcpGridFTPなど)でバルク転送を有効化する

一括ダウンロードにはデータセット記述用のメタデータも必ず含めること。発見用メタデータ [VOCAB-DCAT] は一括ダウンロードの外でも利用可能にしてください。

テスト方法

データセット全体が1回のリクエストで取得できるか確認してください。

根拠

関連要件: R-AccessBulk

利点

  • Reuse
  • Access

ベストプラクティス18: 大規模データセット向けサブセット提供

データセットが大規模な場合、ユーザーやアプリケーションが必要なサブセットだけを簡単に扱えるようにしましょう。

なぜ

大規模なデータセットは移動・保存・解析の負担が大きくなります。利用者が必要なサブセットだけ使えれば、全体DLが不要です。また、ウェブアプリが大規模データにアクセスする場合も「遅延読み込み(lazy loading)」で必要な分だけ取得すれば性能が上がります。サブセット対応はオフライン処理の効率化にも役立ち、リアルタイム系では新規データの反映も高速化できます。

期待される成果

人間もアプリも、最大多数の利用者が不要なデータを減らしつつサブセットにのみアクセスできるようになります。分野的に静的な大規模データセットは小さな単位でDL可能になります。API経由でも分野ニーズやウェブアプリ性能要件に応じた粒度でサブセット取得が可能となります。

実装の参考例

主な想定ユースケースを検討し、有用なサブセットの種類を決めましょう。APIを使うことで、送信対象を絞ったサブセット提供が最も柔軟になります。これなら各利用シーンで必要なデータが的確に届けられ、不要なデータも最小限に抑えられます。ウェブアプリ用には1秒以内にレスポンスできる粒度が良いでしょう。(10秒超だとユーザーは失敗と感じがち。)

単純な分割でも各単位ごと個別DL/閲覧できるようにすることが1つの方法です。

データセットをマークアップして個別セクションや更に小さい単位へのアクセスも考えられます。RDF Data Cube Vocabularyの「スライス」定義などが参考になります。

テスト方法

複数リクエストで小単位ずつ取得すれば、データセット全体が復元できるか確認してください。

根拠

関連要件: R-Citable, R-GranularityLevels, R-UniqueIdentifier, R-AccessRealTime

利点

  • Reuse
  • Linkability
  • Access
  • Processability

ベストプラクティス19: 複数形式データへのコンテンツネゴシエーション利用

複数形式で提供されるデータには、ファイル拡張子に加えてコンテンツネゴシエーションも利用しましょう。

なぜ

データはRDFaのようにHTMLページ上に人間可読と機械可読を混在させて公開することも可能です。しかしWebアーキテクチャ [WEBARCH] やDCAT [VOCAB-DCAT] が示すように、1つのリソースには様々な表現があります。同じデータがJSON, XML, RDF, CSV, HTML等複数形式で提供され得ます。これら複数表現はAPIでも提供可能ですが、「同じ」URLでコンテンツネゴシエーションにより最適表現(DCATで言うdistribution)を返すべきです。個別表現向けに直接取得用のURIを設けることもできます。

期待される成果

コンテンツネゴシエーションにより、クライアントのリクエストに応じて異なるリソースや同一リソースの異なる表現を提供できます。

実装の参考例

ウェブサーバでリソースのコンテンツネゴシエーション処理を設定しましょう。リソース表現の特定形式は、URIまたはHTTPリクエストのContent-typeで指定できます。

テスト方法

利用可能なリソース表現を確認し、HTTPリクエストのAcceptヘッダで取得できるか確認してください。

根拠

関連要件: R-FormatMachineRead, R-FormatMultiple

利点

  • Reuse
  • Access

ベストプラクティス20: リアルタイムアクセスを提供する

データがリアルタイム生成されている場合、それをウェブ上でもリアルタイムまたは準リアルタイムで提供しましょう。

なぜ

ウェブ上でリアルタイムデータが提供されることで、重要な時系列データに即時アクセスでき、リアルタイムWebアプリの開発も促進されます。リアルタイムなアクセスは、データ生産者から発行者へのリアルタイム提供体制が前提となります。アプリごとに必要性は異なり、更新頻度・遅延・インフラ可用性・消費者ニーズ等を勘案して実装が決まります。公開に加え、データの欠損・誤り・異常値や遅延情報も提供できればなお良いです。

期待される成果

アプリケーションはミリ秒~数秒レベルのリアルタイムまたは準リアルタイムで重要時系列データにアクセスできるようになります。

実装の参考例

発行者はWebサービスを構成して、リアルタイムデータ受信後すぐにWebサービスで利用者がポーリングやストリーミングで取得できるようにしましょう。

消費者がたまにしかデータをチェックしない場合は、API経由で最新値をオンデマンド取得できる仕組みとします。発行者が読み取り専用APIを用意してサポートします。

頻繁な取得の場合はストリーミングAPI(データプッシュ型)が望ましく、Server-sent Events、WebSocket、EventSourceAPI等の標準技術でサーバ側から自動更新を配信できます(詳細は本BPの範囲外)。

テスト方法

リアルタイムデータアクセスの十分な検証には、データ収集時刻から公開・取得までを追跡確認しましょう。[PROV-O]でこれらのアクティビティも記述できます。複数コンピュータが関わるシステムのウォールクロック時刻依存のテストは、実際にはデータ公開の遅延でなくシステム間の時刻不一致となる場合もあるので注意してください。

根拠

関連要件: R-AccessRealTime

利点

  • Reuse
  • Access

ベストプラクティス21: 最新データ提供・更新頻度の明示

データを最新に保ち、更新頻度を明示しましょう。

なぜ

ウェブにおけるデータ公開は、なるべくデータの収集時刻や生成時刻に近い形で提供されるべきです。公開頻度と実データ更新頻度をしっかり同期することで、利用者の信頼性・再利用度向上につながります。

期待される成果

ウェブ上のデータが迅速に更新され、オンラインで参照できる最新データが他チャネルの公開分とタイムリーに対応し、新データはできるだけ速やかにウェブ上でも公開されるようになります。

実装の参考例

データセットの新バージョンを定期スケジュールに従ってウェブへ投稿(バージョン管理のベストプラクティス参照)。公開作業をリリースプロセスの一部とし、担当者を割り当てることで公開遅れを防止できます。今後の更新頻度の利用者への期待設定には、人間可読な説明文および機械可読なメタデータでその頻度も明記しましょう。

テスト方法

更新頻度の記載があり、ウェブ上で最新の公開版が明示された更新頻度より古くなっていないことを確認してください。

根拠

関連要件: R-AccessUptodate

利点

  • Reuse
  • Access

ベストプラクティス22: 利用できないデータには説明を付与

利用できないデータには、アクセス方法やアクセス可能者に関する説明を記載しましょう。

なぜ

利用できないデータについてオンラインで説明文書を公開しておくことで、発行者は知識ギャップを明示できます。これにより利用者は現状入手可能なデータの背景や制限を理解でき、そのデータ活用も促進できます。

期待される成果

データセットから参照されているデータのうち、一部が現状利用できないまたは条件付きでのみ利用可能であることを利用者が把握できます。

実装の参考例

人間・機械向けのコンテキストに応じて様々な表示方法が考えられます。HTML文書で人間可読説明を公開したり、機械インタフェースの場合は適切なHTTPステータス・コード(メッセージ付き)で伝えます。例:303(他参照)、410(恒久削除)、503(サービス未提供中)など。

テスト方法

データセット参照先のうち利用不可なもの・制限付きのものについて、欠落内容や入手方法案内があるか(404/503等のHTTP正当レスポンスも含む)を確認してください。

根拠

関連要件: R-AccessLevel, R-SensitivePrivacy, R-SensitiveSecurity

利点

  • Reuse
  • Trust

8.10.1 データアクセスAPI

ベストプラクティス23: API を通じたデータ提供

リソースがある場合は、データ提供用の API を提供しましょう。

なぜ

API はデータ利用者に最大限の柔軟性と処理容易性を提供します。リアルタイムデータ利用やリクエストごとのフィルタリング、アトミックレベルでのデータ操作が可能です。データセットが大規模、頻繁に更新、高度に複雑であれば、API 提供は最良の選択肢でしょう。

目指す成果

開発者は自身のアプリケーションでデータをプログラムから利用でき、消費者側の手間なくデータが自動更新されます。ウェブアプリケーションもプログラムインターフェースを通じて必要なデータを取得できるようになります。

実装の参考例

API の作成は、単にダウンロード用データを公開するよりも工数がかかりますが、Webアプリの構築知識があれば可能です。ゼロから自作しなくても、CKANのようなデータ管理プラットフォームで既存 API の有効化もできます。多くのWeb開発フレームワークにAPI対応機能があり、API構築専用フレームワークも存在します。

例: Rails(Ruby)、Django(Python)、Express(NodeJS)はAPI構築をサポートするWeb開発フレームワークです。Swagger、Apigility、Restify、Restlet などAPI構築専用のフレームワークもあります。

テスト方法

テストクライアントでAPIコールをシミュレーションし、API が想定通り応答するか確認します。

根拠

関連要件: R-AccessRealTime, R-AccessUpToDate

利点
  • Reuse
  • Processability
  • Interoperability
  • Access

ベストプラクティス24: API設計にウェブ標準を基盤とする

API設計時は、ウェブ本来の技術群を基盤としたアーキテクチャスタイルを採用しましょう。

なぜ

ウェブ標準を基盤としたAPIはウェブの強みを活かせます。例えば、HTTP動詞をメソッドとして、URIが個別リソースと直接対応するように設計すれば、リクエストとレスポンスの密結合を避けやすく、メンテナンス性が高く、多くの開発者に直感的に理解・利用されやすいAPIになります。ウェブのステートレス性もスケーリングに利点を持ち、ハイパーメディア利用により豊かなAPIインタラクションも実現できます。

目指す成果

REST等のウェブ標準API経験のある開発者なら初期段階でAPI利用の見通しが立ちやすく、APIの保守も容易となります。

実装の参考例

REST(REpresentational State Transfer)は、Web APIに取り入れることでウェブアーキテクチャそのものの恩恵を受けられるスタイルです。RESTful API構築自体の詳細は本書範囲外ですが、たくさんの情報やコミュニティリソースがあります。REST API構築フレームワークにも多様な選択肢があるので、既存のWeb開発フレームワークがRESTに対応していればぜひ活用しましょう。

加えて、ハイパーメディアAPI(応答にデータだけでなくリンクも含めるAPI)も検討できます。リンクはWebの要であり、データAPIでも応答にリンクを入れることで、より使いやすく自己説明的なサービスになります。REST準拠でなくても、レスポンスにリンクを含めることで豊富なナビゲーションや追加情報の提示ができます。

テスト方法

httpをカスタムメソッド呼び出しのトンネリング手段として用いないことと、URIにメソッド名を含めていないことを確認します。

根拠

関連要件: R-APIDocumented, R-UniqueIdentifier

利点
  • Reuse
  • Linkability
  • Interoperability
  • Discoverability
  • Access
  • Processability

ベストプラクティス25: API の完全なドキュメントを提供する

API についての完全な情報をウェブで提供しましょう。機能追加や変更時もドキュメントを更新してください。

なぜ

開発者は API の主要な利用者であり、ドキュメントはその品質・有用性を測る最初の手がかりです。分かりやすく完全なドキュメントがあれば、開発者はAPIの継続利用に前向きになりやすいです。まとまったドキュメントがあることで効率的なコーディングができ、変更点の明示により新機能への迅速な対応も可能となります。

目指す成果

開発者が API の各コールに関するパラメータや期待される応答など詳細な情報を把握でき、APIのあらゆる利用情報・変更通知・連絡先などもウェブで容易に参照可能となります。また機械によるAPIドキュメント取得も支援し、クライアントソフト作成も支援します。

実装の参考例

典型的なAPIリファレンスは、APIで利用可能なコールの一覧・目的・パラメータ詳細・返却例などを網羅しています。近年は、開発者が実際に試せるテストフォーム付きドキュメントも増えました。Swagger、io-docs、OpenApis などドキュメント生成支援ツールも普及しています。API自体も自己記述的であること(エラーや利用方法等の補助応答)、ユーザーが開発者に問合せできる連絡・バグ報告窓口があることも重要です。

ドキュメント品質向上には開発者からの利用・フィードバックも重要です。ユーザーと定期的に連携をとりましょう。

テスト方法

APIで利用可能なすべてのコールがドキュメント内で記載され、必須/任意パラメータや返却内容も明記されているか確認しましょう。

最初のAPI呼び出しが数分以内に成功できるか(Time To First Successful Call)が高いと開発者がAPIを継続利用しやすくなります。

根拠

関連要件: R-APIDocumented

利点
  • Reuse
  • Trust

ベストプラクティス26: API の破壊的変更を避ける

クライアントコードが動作しなくなるような API の変更は避け、進化の際は開発者と適切にコミュニケーションしましょう。

なぜ

開発者はAPIクライアント実装時、スキーマや応答フォーマット等、APIの特定仕様に依存している場合があります。破壊的変更を避けることでクライアントコードの破損を最小化できます。変更が必要な場合でも適切に告知すれば、開発者は新機能を利用でき、破壊的変更時も対応期間を確保できます。

目指す成果

開発者のコードは今後も動き続け、API改良も適切に伝わり、うまく活用されます。APIの破壊的変更は稀になり、もし行われる場合も事前周知・情報提供により対応可能となります。APIの変更はドキュメントサイト等で告知されます。

実装の参考例

API改善時は、既存の呼び出し方法はそのままに、新しい呼び出しやオプション追加を優先しましょう。既存クライアントは変更を無視でき、継続稼働できます。

完全なRESTスタイルの場合、リソースURIを不変にし、利用者が直接参照しない部分だけ変更すれば、利用者に影響せず改良できます。設計上変更不能な仕様変更が必要なら、新しいREST APIとしてURIごと独立リリースするのが最善です。

URIsでのバージョニング、レスポンスヘッダでのバージョン指定(Content Negotiation)、新旧バージョンの並行提供も有効です。十分配慮しましょう。

変更案内には、メーリングリスト等で直接利用者と連絡できる仕組みを設けましょう。これによって直接通知・支援・ユーザー間の助け合いも実現できます。

テスト方法

API変更はまずテスト環境で提供し、本番適用前に開発者にテスト・フィードバックを求めましょう。

根拠

関連要件: R-PersistentIdentification, R-APIDocumented

利点
  • Trust
  • Interoperability

8.11 データ保存

ワーキンググループは、ウェブ上のすべてのデータが無期限に、いつでもオンデマンドで利用できると想定するのは非現実的であると認識しています。さまざまな理由により、データ発行者はライブウェブからデータを削除したい、あるいは削除せざるを得なくなる場合があり、その時点で発行者の手を離れ、アーカイブ(保存)担当の領域になります。しかし、ここで範囲となるのは「何が残されるか」、つまりデータが削除・アーカイブされた場合に発行者が取るべき表示や告知方法です。単にリソースをウェブから削除するのは悪い習慣です。その場合、URIを参照してもHTTPレスポンスコード404(見つからない)となり、ユーザーは「見つからない」以外の情報が得られません。以下のベストプラクティスは、より生産的なアプローチを提案します。

ベストプラクティス 27: 識別子を保持する

ウェブからデータを削除する際は、識別子(URI)を維持し、アーカイブ済みリソースに関する情報を提供しましょう。

なぜ

ウェブにおける主なデータインタフェースはURI参照(デリファレンス)です。もしURI参照が「404 Not Found」になれば、そのデータが恒久的に失われたのか、一時的なのか、計画的・偶発的なものなのか、ユーザーには分かりません。データが発行者や第三者によってアーカイブされている場合でも、元のURIが機能しないと発見可能性は大きく下がります。

目指す成果

リソースのURIは、常にリソース自体か、それに関する情報へと解決され続けます。

実装の参考例

以下の2つのシナリオが考えられます:

  1. リソースが完全に削除され、いかなる形でも入手できなくなっている場合
  2. リソースはアーカイブされており、アーカイブへの申請のみで利用可能な場合

1つ目の場合は、サーバを設定してHTTPレスポンスコード410(Gone)を返すべきです。仕様には以下の文言があります:

410レスポンスは主にウェブ保守を助ける目的で用意されており、対象リソースが意図的に利用不可であること、管理者はそのリソースへの外部リンク削除を望んでいることを通知します。

2つ目のケースでは、データがアーカイブ済みである場合、リクエストをアーカイブ詳細や利用申請方法などを案内するウェブページにリダイレクトする方が適切です。

どちらの場合も、元のURIは識別子として維持され、直接データが得られなくても有用な情報につながります。

テスト方法

利用不可データセットのURI参照時、410または303レスポンスコードにより現状や入手方法に関する情報が返されることを確認します。

根拠

関連要件:R-AccessLevel, R-PersistentIdentification

利点

  • Reuse
  • Trust

ベストプラクティス 28: データセットのカバレッジ評価

データ保存の前に、データセットのカバレッジ状況を評価しましょう。

なぜ

ウェブデータの断片は、定義上、世界グラフ全体との関係性に依存しています。このグローバル文脈がデータセット内リソース記述の意味へ影響を及ぼします。理想的には、あるデータセットを保存する場合、その全文脈も同時に保存することが望ましいですが、それは事実上「Web of Data」全体の保存となります。

アーカイブ時には、データセットダンプが既に保存済みリソースや語彙にどれだけリンクしているかを評価する必要があります。利用語彙や参照リソースのほとんどが保存済みでない場合、そのデータセットは「リスクあり」としてマークしておくべきです。

目指す成果

将来にわたって、利用者がアーカイブデータを活用できる状態が保たれます。

実装の参考例

使用しているリソースすべてが既にどこかで保存されているか、または対象データセットと共に保存されるべきかを必ずチェックしましょう。

テスト方法

50年後に何が利用可能か正確には分かりませんが、アーカイブ済みデータセットが広く利用されている外部リソース・語彙だけに依存しているか確認しましょう。独自依存や利用者の少ないものはアーカイブ内に一緒に保存されているかもチェックしてください。

根拠

関連要件:R-VocabReference

利点

  • Reuse
  • Trust

8.12 フィードバック

ウェブ上での公開により、さまざまな専門レベルを持つ幅広いオーディエンスに対して大規模なデータ共有が可能となります。データ発行者は、公開したデータが利用者のニーズに合致していることを確認したいため、ユーザーフィードバックが重要です。フィードバックは発行者と利用者の双方に利益があり、発行者がデータの完全性を改善できるだけでなく、新たなデータ公開も促進します。また、フィードバックは利用者がデータ活用体験(例:データを使ったアプリ)や好み・要望を発信できる場にもなります。可能な場合、フィードバックは他の利用者も参照できるよう公開すべきです。公開することで他の利用者の存在や経験を知ることができ、協働的な環境が生まれ、ユーザーコミュニティの経験・課題・質問が現在どう扱われているかも共有できます。

ユーザーインタフェース視点では、利用者からフィードバックを収集する方法として、サイト登録、問い合わせフォーム、品質評価(レイティング)ボタン、アンケート、コメント欄(ブログ風)などがあります。一方、機械的には、データ利用状況のメトリクス記録や特定アプリケーションでのデータ利用情報を取得することもできます。この種のフィードバックは、発行者と利用者の間にコミュニケーションチャネルを築きます。公開フィードバックは、人間が読める形で表示されるべきです。

このセクションでは、データ発行者が利用者からフィードバックを受け付けるために遵守すべきベストプラクティスを示します。ここでのフィードバックは、人にも機械にも対応可能です。

ベストプラクティス29: データ利用者からフィードバックを集める

利用者がフィードバックを送れる手段を明示的に用意しましょう。

なぜ

フィードバックを得ることは、発行者がデータ利用者のニーズを理解し、公開データ品質を向上させる助けとなります。また、フィードバック窓口を明確に示すことで「どうやって要望や意見を送ればよいか」の障壁も除けます。これにより利用者の声に耳を傾ける姿勢を示し、信頼性も高まります。

期待される成果

データ利用者がデータセットや配布物についてフィードバックや評価を簡単に送ることができるようになります。

実装の参考例

利用者向けに問い合わせフォーム、ワンクリック品質評価ボタン、コメントボックス等、1つ以上のフィードバック手段を提供しましょう。得られたフィードバックをデータベースで追跡・記録し、定量分析できるようにするのもおすすめです。また、各フィードバック種別(例:編集要望、分類[評価]、コメント、質問など)を記録し、Dataset Usage Vocabulary [VOCAB-DUV] で表現できるようにしましょう。

テスト方法

少なくとも1つのフィードバック手段が提供されており、利用者から見つけやすいことを確認しましょう。

根拠

関連要件: R-UsageFeedback, R-QualityOpinions

利点

  • Reuse
  • Comprehension
  • Trust

ベストプラクティス30: フィードバックを公開する

データセットや配布物に関する利用者フィードバックを公開しましょう。

なぜ

フィードバックを利用者と共有することで、発行者がユーザーの声に応えていることを証明でき、重複バグ報告も減らせます。また、他の利用者の経験や懸念を見える化し、コミュニティ意識を育てます。

期待される成果

利用者はデータセットの課題を知り、他ユーザーの利用体験を参照でき、運用者が課題対応していることにも安心できます。また、すでに他ユーザーが似たフィードバックを提供済みか判断できるため、重複報告やメンテナの手間も減ります。

実装の参考例

フィードバックはHTMLページの一部としても、Dataset Usage Vocabulary [VOCAB-DUV] で機械可読形式でも公開できます。

テスト方法

特定データセットや配布物に対して利用者から提供されたフィードバックが公開されているか確認しましょう。

根拠

関連要件: R-UsageFeedback, R-QualityOpinions

利点

  • Reuse
  • Trust

8.13 データエンリッチメント(拡充)

データエンリッチメントとは、生データや既処理データを強化・洗練・改良するために使われる一連のプロセスです。この概念や似た発想は、現代のあらゆるビジネス・業界でデータを重要資産にするために役立っています。その詳細は本書の範囲を超えますが、中には倫理的な懸念とともに注意を要する手法もある点を挙げておきます。科学的研究では、結果や統計的結論を歪めるような拡充を避けるべきです。個人情報を含むデータでは、複数データセットを組み合わせることで匿名性が失われるおそれもあります。つまり、個々には個人識別できないデータでも、組み合わせによってプライバシー侵害となる場合があります。さらに、こうした手法は大規模にも適用可能であり、そのことが慎重な運用の必要性を際立たせます。

この章では、データ拡充のために発行者が取るべきアドバイスをいくつか示します。

ベストプラクティス31: 新しいデータ生成によるエンリッチメント

価値向上につながる場合は新しいデータ生成によってデータを拡充しましょう。

なぜ

エンリッチメントは特に非構造データの処理容易性を大幅に高めることができます。状況によっては、欠損値を補完したり、既存データから新たな属性・指標を加えることも可能です。もとのデータと同じ方法で追加データを集めたり、異なるデータセットと組み合わせることでも拡充できます。適切かつ倫理的に行えば、完成度の高いデータ公開は信頼性も高まります。汎用性の高い値をあらかじめ派生させておくことで、利用者の手間が省け、多様な再利用も促進されます。知能的手法を用いたデータ拡充はいっそうデータセットの価値を高めます。

期待される成果

欠損値があるデータセットは補完され、関連指標・属性の追加によって構造化と価値が向上します(ただし、追加が統計解析や意義・有意性を歪めない場合に限る)。

実装の参考例

データ拡充手法は多様で本ドキュメントではその可能性のみを紹介します。

機械学習はデータ拡充にも活用でき、カテゴリ分類、曖昧性解消、エンティティ抽出、感情分析、トピック付与などの手法が含まれます。新たなデータ値は既存カラムの数式計算で簡単に得られる場合もあります。他にも空間データの目視特徴抽出や外部DBとの照合による属性付加などがあります。欠損値の計算や直接補完のような需要ドリブン生成も拡充の1例です。

推論による値追加はその旨を明示し、上書きされた元の値も取得可能なよう配慮しましょう。

ライセンスが許す限り、データ拡充に使ったコードもデータセットと一緒に公開します。特に科学データの場合は重要です。

拡充活動の優先度は、利用者にとっての価値と手間のバランスで決めましょう。価値の計測例:アンケートや直接リクエストの追跡など。評価方法のドキュメントもあると価値向上を証明しやすくなります。

他者データに拡充を加えた場合は、その成果を元発行者に還元するのも望ましい姿勢です。

テスト方法

データセットに欠損値が残っていないか、または他の利用者が必要とする追加フィールドが追加されているかを確認しましょう。推論的手法で付加されたデータはその旨を明示し、上書き前データにもアクセス可能なことを確かめます。

根拠

関連要件: R-DataEnrichment, R-FormatMachineRead, R-ProvAvailable

利点

  • Reuse
  • Comprehension
  • Trust
  • Processability

ベストプラクティス32: 補完的な提示方法を提供する

可視化・表・Webアプリ・サマリーなど、即座に分かりやすい補完的な方法でデータを提示しましょう。

なぜ

オンライン公開データはその対象について他者に知らせることが目的です。単にデータセットDLやAPIだけだと、解釈は消費者任せ。Web環境は利用者が自分でツールを作らなくても、学び・探索できる方法でデータを提示する比類なきチャンスがあります。

期待される成果

補完的な提示方法によって、人間利用者もダウンロードなしで直感的にデータの中身を把握できるようになります。

実装の参考例

最もシンプルな方法は、HTMLページ内に分析サマリーを掲載することです。グラフや表で概要を示すことで、ユーザーがすばやく要点をつかめます。

対話的な可視化やWebアプリまで作る余力があれば、データの理解やパターン発見の力がアップします。こういった手法は処理容易性や再利用性もアピールできます。

テスト方法

データセットが追加の解説コンテンツ(ダウンロードやAPIなしで閲覧できる内容)を伴っているか確認しましょう。

根拠

関連要件: R-DataEnrichment

利点

  • Reuse
  • Comprehension
  • Access
  • Trust

8.14 再公開(リパブリッシュ)

データの再利用は、データ公開のもう一つの形であり、単に再公開(リパブリッシュ)です。既存データを他のデータセットと組み合わせたり、Webアプリや可視化を作成したり、あるいは翻訳のように新たな形に再パッケージ化するのも例です。データ再公開者には、ウェブ上のこの形態特有の責任があります。本セクションではデータを再公開する際に守るべきアドバイスをまとめます。

ベストプラクティス 33: 元発行者へフィードバックを提供する

データを再利用する際は、その旨を元発行者に知らせましょう。 エラー発見や提案・感謝があれば、その内容も伝えるようにします。

なぜ

発行者は一般に、公開したデータが役立っているかどうかを知りたがっています。また、データ公開活動へのリソース配分の根拠として利用状況の報告が必要な場合もあります。利用を報告することで、公開への努力が正当化されます。フィードバックを返すことで、今後の利用者向けにデータセットの改良を直接促せるため、発行者への「お返し」にもなります。

期待される成果

良好なコミュニケーションは元発行者がデータ利用状況を把握しやすくし、データ公開の正当性を高めます。また改善可能なポイントもわかるようになるため、より良いデータ公開が促進されます。

実装の参考例

新しいプロダクトでデータセットを利用し始める際、発行者の連絡先や利用したデータセットURI、連絡日をメモしましょう。これはソースコードの該当箇所コメントでも良いです。フィードバック方法が明示されていればそれに従い、なければデータ掲載元サイトの連絡先を探します。

テスト方法

少なくとも1回は発行者に利用通知・連絡をした証跡があるか確認してください。

根拠

関連要件: R-TrackDataUsage, R-UsageFeedback, R-QualityOpinions

利点

  • Reuse
  • Interoperability
  • Trust

ベストプラクティス 34: ライセンス遵守

オリジナル発行者のライセンス要件を調べ、従いましょう。

なぜ

ライセンスは他人の著作物利用に法的枠組みを与えます。元発行者の要件を守れば良好な関係を築けます。要件に従う限り発行者からの法的トラブルを心配する必要もありません。元々のライセンスを理解することで、自分の再公開物ライセンスの選択も判断しやすくなります。

期待される成果

発行者は自分のデータがライセンス要件通りに再利用されていると信頼でき、より活発なデータの公開意欲につながります。また、利用者も派生物への適切なライセンス付与が可能となります。

実装の参考例

元のライセンス文を読み、要件に従って利用しましょう。派生物への特定のライセンス指定がある場合は、その内容に合致するライセンスを選びます。ライセンス未表示の場合は元発行者に問い合わせて確認します。

テスト方法

元のライセンス全体をチェックし、自分のデータ利用が要件違反ではないことを必ず確認してください。

根拠

関連要件: R-LicenseAvailable, R-LicenseLiability,

利点

  • Reuse
  • Trust

ベストプラクティス 35: 元データの出典を明記する

データ元をメタデータで明記しましょう。ユーザーインターフェースがある場合は、そこにも明確に出典を表示します。

なぜ

データが有用となるのは信頼性あってこそ。その根拠となるのが出典明記です。1つは出典の評判から利用者が信頼判断できること。もう1つはあなた自身を信頼できる再発行者と印象づけられること。加えて、出典明記は元発行者の貢献への正当なクレジットでもあり、公開を続ける意欲にもなります。出典明記はプロヴナンス維持にも役立ち、他者によるさらなる利活用も促進します。

期待される成果

エンドユーザーはデータの信頼性判断が容易となり、元発行者へのリスペクトも伝わります。ウェブデータの出自のたどれる「信用の連鎖」も保たれます。

実装の参考例

ユーザーインターフェース内で出典情報(書誌テキストとリンク)を明示するとよいでしょう。

テスト方法

すべての再利用データに対し、メタデータで出典明記があること、人間可読な出典がUIに明示されていることを確認しましょう。

根拠

関連要件: R-Citable, R-ProvAvailable, R-MetadataAvailable, R-TrackDataUsage

利点

  • Reuse
  • Discoverability
  • Trust

9. 用語集

このセクションは規範的ではありません。

引用(Citation)

引用には直接的かつ明示的なもの(学術論文の参考文献リストのような)、間接的なもの(例:同一研究グループによる同分野の新しい論文への言及)、または暗示的なもの(例:芸術作品での引用やパロディ、盗作などに見られる)があります。

出典: CiTO, the Citation Typing Ontology.

データアーカイブ(Data archiving)

データアーカイブとは、デジタル資料の長期保存や状態監視に関する一連の慣行のことを指します。

これらの作業はTrusted Digital Repository(TDR、信頼できるデジタルリポジトリ)や、長期アーカイブサービス(LTA)とも呼ばれる機関の責務です。このようなサービスはしばしば、オープンアーカイブ情報システム [OAIS]に則って、インジェスト(受入)、監視、再利用のプロセスでアーカイブを定義します。

データ消費者(Data consumer)

このWGの文脈では、データ消費者とはデータにアクセス・利用し、場合によっては後処理を行う個人またはグループです。

出典: Strong, Diane M., Yang W. Lee, and Richard Y. Wang. "Data quality in context." Communications of the ACM 40.5 (1997): 103-110.

データ形式(Data format)

データ形式とは、情報の表現方法、すなわちコンピュータで使用・保存する際に情報がどのように符号化され記憶されるか、またその表現が形式データ型や標準規格群により制約される場合も含む特定の慣例のことです。

出典: Digital Humanities Curation Guide

データ保存(Data preservation)

データ保存とは、Alliance for Permanent Access Network で「時間を超えてオブジェクトの技術的・知的存続を確保するためのプロセス・運用」と定義されています。これはデータ管理計画(保存計画とメタデータ重視)の一部です。保存への労力をかけるかどうかは、データの将来価値、利用可能なリソース、そして関係者の判断に依存します。

データ生産者(Data producer)

データ生産者とは、データの生成と維持に責任を持つ個人またはグループです。

出典: Strong, Diane M., Yang W. Lee, and Richard Y. Wang. "Data quality in context." Communications of the ACM 40.5 (1997): 103-110.

データ来歴(Data provenance)

来歴(プロヴナンス)はフランス語の "provenir"(由来する・来る)に由来し、芸術作品が所有者を移る際の管理過程の記録を指します。データ来歴も同様に、データ提供者がデータ利用者へ歴史の詳細を伝えるメタデータです。

データ品質(Data quality)

データ品質は、一般に「特定のアプリケーションや用途に対する適合性(fit for use)」として定義されます。

データセット(Dataset)

データセットは、1つの主体によって公開または管理されたデータの集合であり、1つ以上の形式でアクセスまたはダウンロード可能なものを指します。データセットはダウンロードファイルの形だけに限りません。

出典: Data Catalog Vocabulary (DCAT) [VOCAB-DCAT]

配布物(Distribution)

配布物はデータセットの特定の公開形態を指します。1つのデータセットは様々な形式やエンドポイントで提供される場合があり、CSVファイルのダウンロード、API、RSSフィードなどがその例です。

出典: Data Catalog Vocabulary (DCAT) [VOCAB-DCAT]

フィードバック(Feedback)

フィードバックフォーラムは、消費者が特定トピックについて投稿したメッセージを集める場です。メッセージには他の消費者への返信も含まれます。各メッセージには日時スタンプが付与され、個人名での投稿も匿名投稿も可能です。

出典: Semantically-Interlinked Online Communities (SIOC) および アノテーションモデル [Annotation-Model]

なぜアノテーションが作成されたかを理解するため、SKOS コンセプトスキーム [SKOS-PRIMER] を使い、単なるクラス階層よりも意味的に関連する注釈をコミュニティ間で表現します。

ファイル形式(File format)

ファイル形式は、コンピュータファイル内に情報をエンコードして保存するための標準的方法です。ビット配列がどのように情報表現に使われるかを規定します。プロプライエタリまたはフリー、非公開またはオープンな形式もあります。

例:プレーンテキスト(特定の文字コード、理想はUTF-8)、CSV [RFC4180]、PDF [PDF]、XML、JSON [RFC4627]、Turtle [Turtle]、HDF5など。

ライセンス(License)

ライセンスは、データに関連付けられたものについて、公式に何かをすることを許諾する法的文書です。

出典: DCTERMS [DCTERMS]

ロケール(Locale)

ロケールとは、言語や地域に関連する国際的設定値の集合であり、(あるカテゴリの)ユーザーが必要とします。多くは言語タグなどの短縮IDやトークンで示され、環境からプロセスへ渡すことで文化的に影響される挙動に反映されます。

出典: Language Tags and Locale Identifiers for the World Wide Web [LTLI].

機械可読データ(Machine-readable data)

機械可読データとは、コンピュータシステムが自動的に読み取り・処理可能な標準形式で表現されたデータです。従来のワープロやPDFファイルは人には読みやすいですが、機械による解釈や操作は困難なことが多いです。XML, JSON, HDF5, RDF, CSVなどは機械可読データ形式です。

出典: Wikipediaより改変。

準リアルタイム(Near real-time)

「準リアルタイム」または「ほぼリアルタイム」(NRT)とは、通信や計算分野において、イベント発生とその処理済データ利用・表示や制御までの間に、データ処理やネットワーク伝送による遅延が介在することを指します。例えば、準リアルタイム表示は、処理時間を引いた時点のイベントや状況を映し出します。

出典: Wikipedia

機微データ(Sensitive data)

機微データとは、特定の方法でのみ使用される、または限られた人々を対象とするよう意図されたデータやメタデータのことです。個人データ・企業データ・行政データなどが含まれ、公開された機微データの誤用は個人や組織に損害を与える場合があります。

標準(Standard)

技術標準とは、技術システムに関する確立された規範・要求事項です。多くは文書化された、工学・技術的基準・手法・手順の統一規定です。対して、一般に受け入れられて支配的になった慣習・規約・企業標準等はデファクトスタンダード(事実上の標準)とも呼ばれます。

出典: Wikipedia

構造化データ(Structured data)

構造化データとは、固定スキーマに準拠したデータを指します。リレーショナルデータベースやスプレッドシートがその例です。

語彙(Vocabulary)

語彙とは、特定目的のための「用語」の集合です。RDF Schema [RDF-SCHEMA] や FOAF [FOAF]、Dublin Core [DCTERMS] などシンプルなものから、医療分野のように何千もの用語を持つ複雑な語彙まであります。語彙はLinked Dataにおいて重要な役割を果たし、特にデータ統合に有効です。Ontologyとも用語が重複することがあります。

出典: Linked Data Glossary

10. ウェブ上のデータに関する課題

このセクションは規範的ではありません。

下記の図は、ウェブ上でデータを公開・利用する際に直面する主な課題のいくつかをまとめたものです。これらの課題はDWBPユースケースと要件 [DWBP-UCR] をもとに特定されており、図に示したように1つ以上のベストプラクティスが対応しています。

11. ベストプラクティスの利点

このセクションは非規範的です。

以下の一覧は、DWBP を適用することによる主な利点を説明します。各利点は、データセットがウェブ上で提供される方法における改善点を表します。

次の表はベストプラクティスと利点との関連を示します。

ベストプラクティスと利点
ベストプラクティス 利点
メタデータを提供する
  • 再利用
  • 理解促進
  • 発見性
  • 処理容易性
記述メタデータを提供する
  • 再利用
  • 理解促進
  • 発見性
構造メタデータを提供する
  • 再利用
  • 理解促進
  • 処理容易性
データライセンス情報を提供する
  • 再利用
  • 信頼
データ来歴情報を提供する
  • 再利用
  • 理解促進
  • 信頼
データ品質情報を提供する
  • 再利用
  • 信頼
バージョン表示を提供する
  • 再利用
  • 信頼
バージョン履歴を提供する
  • 再利用
  • 信頼
データセットの識別子として永続的なURIを使用する
  • 再利用
  • リンク性
  • 発見性
  • 相互運用性
データセット内の識別子として永続的なURIを使用する
  • 再利用
  • リンク性
  • 発見性
  • 相互運用性
データセットのバージョンやシリーズにURIを割り当てる
  • 再利用
  • 発見性
  • 信頼
機械可読の標準化データ形式を使用する
  • 再利用
  • 処理容易性
ロケール非依存のデータ表現を使用する
  • 再利用
  • 理解促進
複数形式でデータを提供する
  • 再利用
  • 処理容易性
語彙を再利用する(できれば標準化されたもの)
  • 再利用
  • 処理容易性
  • 理解促進
  • 信頼
  • 相互運用性
適切な形式化レベルを選ぶ
  • 再利用
  • 理解促進
  • 相互運用性
一括ダウンロードを提供する
  • 再利用
  • アクセス
大規模データセット向けにサブセットを提供する
  • 再利用
  • リンク性
  • アクセス
  • 処理容易性
複数形式提供でコンテンツネゴシエーションを使用する
  • 再利用
  • アクセス
リアルタイムアクセスを提供する
  • 再利用
  • アクセス
データを最新の状態で提供する
  • 再利用
  • アクセス
利用できないデータについて説明を提供する
  • 再利用
  • 信頼
APIでデータを提供する
  • 再利用
  • 処理容易性
  • 相互運用性
  • アクセス
APIの基礎にウェブ標準を使用する
  • 再利用
  • リンク性
  • 相互運用性
  • 発見性
  • アクセス
  • 処理容易性
APIの完全なドキュメントを提供する
  • 再利用
  • 信頼
APIに対する破壊的変更を避ける
  • 信頼
  • 相互運用性
識別子を保持する
  • 再利用
  • 信頼
データセットのカバレッジを評価する
  • 再利用
  • 信頼
データ利用者からフィードバックを収集する
  • 再利用
  • 理解促進
  • 信頼
フィードバックを公開する
  • 再利用
  • 信頼
新しいデータ生成によってデータを拡充する
  • 再利用
  • 理解促進
  • 信頼
  • 処理容易性
補完的な提示を提供する
  • 再利用
  • 理解促進
  • アクセス
  • 信頼
元発行者へフィードバックを提供する
  • 再利用
  • 相互運用性
  • 信頼
ライセンス条項に従う
  • 再利用
  • 信頼
元の出版物を引用する
  • 再利用
  • 発見性
  • 信頼

下図は、ベストプラクティスを採用することでデータ発行者が得られる利点を示しています。

再利用

すべてのベストプラクティス

12. ユースケースの要件とベストプラクティス

このセクションは規範的ではありません。

要件 x ベストプラクティス
要件 ベストプラクティス
R-MetadataAvailable

メタデータを提供する

記述的メタデータを提供する

構造的メタデータを提供する

データのプロベナンス情報を提供する

ロケールに依存しないデータ表現を使用する

原著を引用する

R-MetadataDocum

メタデータを提供する

語彙を再利用する(可能であれば標準化されたものを使用)

R-MetadataMachineRead

メタデータを提供する

記述的メタデータを提供する

データのライセンス情報を提供する

R-MetadataStandardized

記述的メタデータを提供する

語彙を再利用する(可能であれば標準化されたものを使用)

R-LicenseAvailable

データのライセンス情報を提供する

ライセンス条件に従う

R-LicenseLiability

データのライセンス情報を提供する

ライセンス条件に従う

R-ProvAvailable

データのプロベナンス情報を提供する

新たなデータを生成してデータを拡充する

原著を引用する

R-QualityMetrics

データ品質情報を提供する

R-DataMissingIncomplete

データ品質情報を提供する

R-QualityOpinions

データ品質情報を提供する

データ利用者からフィードバックを収集する

フィードバックを公開する

原出典の発行者にフィードバックを提供する

R-DataVersion

バージョン指標を提供する

バージョン履歴を提供する

R-UniqueIdentifier

データセットの識別子として永続的なURIを使用する

データセット内の識別子として永続的なURIを使用する

データセットのバージョンおよびシリーズにURIを割り当てる

大規模データセットにはサブセットを提供する

APIの基盤としてWeb標準を使用する

R-Citable

データセットの識別子として永続的なURIを使用する

データセットのバージョンおよびシリーズにURIを割り当てる

大規模データセットにはサブセットを提供する

原著を引用する

R-FormatMachineRead

機械可読かつ標準化されたデータ形式を使用する

ロケールに依存しないデータ表現を使用する

複数形式で利用可能なデータを提供する際にコンテンツネゴシエーションを使用する

新たなデータを生成してデータを拡充する

R-FormatStandardized

機械可読かつ標準化されたデータ形式を使用する

R-FormatOpen

機械可読かつ標準化されたデータ形式を使用する

R-FormatLocalize

ロケールに依存しないデータ表現を使用する

R-GeographicalContext

ロケールに依存しないデータ表現を使用する

R-FormatMultiple

複数の形式でデータを提供する

複数形式で利用可能なデータを提供する際にコンテンツネゴシエーションを使用する

R-QualityComparable

語彙を再利用する(可能であれば標準化されたものを使用)

適切な形式化レベルを選択する

R-VocabOpen

語彙を再利用する(可能であれば標準化されたものを使用)

R-VocabReference

語彙を再利用する(可能であれば標準化されたものを使用)

適切な形式化レベルを選択する

データセットのカバレッジを評価する

R-AccessBulk

一括ダウンロードを提供する

R-GranularityLevels

大規模データセットにはサブセットを提供する

R-AccessRealTime

大規模データセットにはサブセットを提供する

リアルタイムアクセスを提供する

データをAPIを通じて提供する

R-AccessUpToDate

最新のデータを提供する

データをAPIを通じて提供する

R-AccessLevel

利用不可のデータについて説明を提供する

識別子を保持する

R-SensitivePrivacy

利用不可のデータについて説明を提供する

R-SensitiveSecurity

利用不可のデータについて説明を提供する

R-APIDocumented

APIの基盤としてWeb標準を使用する

APIの完全なドキュメントを提供する

APIに破壊的変更を加えない

R-PersistentIdentification

APIに破壊的変更を加えない

識別子を保持する

R-UsageFeedback

データ利用者からフィードバックを収集する

フィードバックを公開する

原出典の発行者にフィードバックを提供する

R-DataEnrichment

新たなデータを生成してデータを拡充する

補完的な提示を提供する

R-TrackDataUsage

原出典の発行者にフィードバックを提供する

原著を引用する

A. 謝辞

編集者は、本ドキュメントに寄与したワーキンググループの全メンバーに心より感謝します。特に Annette Greiner の多大な尽力と、Antoine Isaac、Eric Stephan、Phil Archer からの寄稿に感謝します。

このドキュメントは Spatial Data on the Web Working Group の多くのメンバーからのインプットの恩恵を受けています。特に Andrea Perego、Dan Brickley、Linda van den Brink、Jeremy Tandy に感謝します。

編集者はまた、Addison Phillips、Adriano Machado、Adriano Veloso、Andreas Kuckartz、Augusto Herrmann、Bart van Leeuwen、Christophe Gueret、Erik Wilde、Giancarlo Guizzardi、Gisele Pappa、Gregg Kellogg、Herbert Van de Sompel、Ivan Herman、Leigh Dodds、Lewis John McGibbney、Makx Dekkers、Manuel Tomas Carrasco-Benitez、Maurino Andrea、Michel Dumontier、Nandana Mihindukulasooriya、Nathalia Sautchuk Patrício、Peter Winstanley、Renato Iannella、Steven Adler、Vagner Diniz、Wagner Meira からのコメントにも感謝します。

編集者はまた、本ワーキンググループのチェアである Deirdre Lee、Hadley Beeman、Yaso Córdova およびスタッフ連絡先である Phil Archer に感謝します。

B. 変更履歴

前の版(previous version)以降の変更点:

C. 参考文献

C.1 情報的参考文献

[Annotation-Model]
Robert Sanderson; Paolo Ciccarese; Benjamin Young. W3C. Web Annotation Data Model。2017年1月17日。W3C 提案勧告。URL: https://www.w3.org/TR/annotation-model/
[BCP47]
A. Phillips; M. Davis. IETF. Tags for Identifying Languages。2009年9月。IETF ベストカレントプラクティス。URL: https://tools.ietf.org/html/bcp47
[BNF]
Bibliothèque nationale de France. Reference information about authors, works, topics。 URL: http://data.bnf.fr/
[CCREL]
Hal Abelson; Ben Adida; Mike Linksvayer; Nathan Yergler. W3C/Creative Commons. ccREL: The Creative Commons Rights Expression Language。2008年5月1日。W3C メンバー提出。URL: http://www.w3.org/Submission/ccREL/
[CLDR]
Unicode Consortium. Unicode Common Locale Data Repository。URL: http://cldr.unicode.org/
[DCTERMS]
Dublin Core metadata initiative. DCMI Metadata Terms。2012年6月14日。DCMI 推奨。URL: http://dublincore.org/documents/dcmi-terms/
[DWBP-UCR]
Deirdre Lee; Bernadette Farias Loscio; Phil Archer. W3C. Data on the Web Best Practices Use Cases & Requirements。2015年2月24日。W3C ノート。URL: https://www.w3.org/TR/dwbp-ucr/
[FOAF]
Dan Brickley; Libby Miller. FOAF project. FOAF Vocabulary Specification 0.99 (Paddington Edition)。2014年1月14日。URL: http://xmlns.com/foaf/spec/
[Fielding]
Roy Thomas Fielding. University of California, Irvine. Representational State Transfer (REST), Chapter 5 of Architectural Styles and the Design of Network-based Software Architectures。 2000年。URL: https://www.ics.uci.edu/~fielding/pubs/dissertation/rest_arch_style.htm
[GS1]
Mark Harrison; Ken Traub. GS1. SmartSearch Implementation Guideline。2015年11月。URL: http://www.gs1.org/gs1-smartsearch/guideline/gtin-web-implementation-guideline
[GTFS]
Pieter Colpaert; Andrew Byrd. General Transit Feed Specification。URL: http://vocab.gtfs.org/terms#
[HTML-RDFA]
Manu Sporny. W3C. HTML+RDFa 1.1 - Second Edition。2015年3月17日。W3C 推奨。URL: https://www.w3.org/TR/html-rdfa/
[ISO-25964]
Stella Dextre Clarke et al. ISO/NISO. ISO 25964 – the international standard for thesauri and interoperability with other vocabularies。URL: http://www.niso.org/schemas/iso25964/
[ISO639-1-LOC]
Library of Congress. Ontology for ISO 639-1 Languages。URL: http://id.loc.gov/ontologies/iso639-1_Languages
[JSON-LD]
Manu Sporny; Gregg Kellogg; Markus Lanthaler. W3C. JSON-LD 1.0。2014年1月16日。W3C 推奨。URL: https://www.w3.org/TR/json-ld/
[LD-BP]
Bernadette Hyland; Ghislain Auguste Atemezing; Boris Villazón-Terrazas. W3C. Best Practices for Publishing Linked Data。2014年1月9日。W3C ノート。URL: https://www.w3.org/TR/ld-bp/
[LODC]
Max Schmachtenberg; Christian Bizer; Anja Jentzsch; Richard Cyganiak. The Linking Open Data Cloud Diagram。URL: http://lod-cloud.net/
[LTLI]
Felix Sasaki; Addison Phillips. W3C. Language Tags and Locale Identifiers for the World Wide Web。2015年4月23日。W3C ワーキングドラフト。URL: https://www.w3.org/TR/ltli/
[Navathe]
Ramez Elmasri; Shamkant B. Navathe. Addison Wesley. Fundamentals of Database Systems。2010年。
[OAIS]
ISO/TC 20/SC 13. ISO. Space data and information transfer systems -- Open archival information system (OAIS) -- Reference model。2012年8月21日。ISO 標準。URL: http://www.iso.org/iso/home/store/catalogue_ics/catalogue_detail_ics.htm?csnumber=57284
[ODB]
World Wide Web Foundation. Open Data Barometer。URL: http://opendatabarometer.org
[ODRL-model]
Renato Iannella; Serena Villata. W3C. ODRL Information Model。2016年7月21日。W3C ワーキングドラフト。URL: https://www.w3.org/TR/odrl-model/
[ODRS]
Leigh Dodds. The Open Data Institute. Open Data Rights Statement Vocabulary。2013年7月29日。 URL: http://schema.theodi.org/odrs/
[OKFN-INDEX]
Open Knowledge Foundation. Global Open Data Index。URL: http://index.okfn.org/
[OWL2-OVERVIEW]
W3C OWL Working Group. W3C. OWL 2 Web Ontology Language Document Overview (Second Edition)。2012年12月11日。W3C 推奨。URL: https://www.w3.org/TR/owl2-overview/
[OWL2-PROFILES]
Boris Motik; Bernardo Cuenca Grau; Ian Horrocks; Zhe Wu; Achille Fokoue. W3C. OWL 2 Web Ontology Language Profiles (Second Edition)。2012年12月11日。W3C 推奨。URL: https://www.w3.org/TR/owl2-profiles/
[OWL2-QUICK-REFERENCE]
Jie Bao; Elisa Kendall; Deborah McGuinness; Peter Patel-Schneider. W3C. OWL 2 Web Ontology Language Quick Reference Guide (Second Edition)。2012年12月11日。W3C 推奨。URL: https://www.w3.org/TR/owl2-quick-reference/
[PAV]
Paolo Ciccarese; Stian Soiland-Reyes. PAV - Provenance, Authoring and Versioning。2014年8月28日。URL: http://purl.org/pav/
[PDF]
Document management — Portable document format — Part 1: PDF。ISO。
[PROV-O]
Timothy Lebo; Satya Sahoo; Deborah McGuinness. W3C. PROV-O: The PROV Ontology。2013年4月30日。W3C 推奨。URL: https://www.w3.org/TR/prov-o/
[PROV-Overview]
Paul Groth; Luc Moreau. W3C. PROV-Overview。2013年4月30日。W3C ノート。URL: https://www.w3.org/TR/prov-overview/
[PURI]
Phil Archer; Nikos Loutas; Stijn Goedertier; Saky Kourtidis. Study On Persistent URIs。2012年12月17日。URL: http://philarcher.org/diary/2013/uripersistence/
[RDA]
Research Data Alliance。 URL: http://rd-alliance.org
[RDF-SCHEMA]
Dan Brickley; Ramanathan Guha. W3C. RDF Schema 1.1。2014年2月25日。W3C 推奨。URL: https://www.w3.org/TR/rdf-schema/
[RFC3986]
T. Berners-Lee; R. Fielding; L. Masinter. IETF. Uniform Resource Identifier (URI): Generic Syntax。 2005年1月。インターネット標準。URL: https://tools.ietf.org/html/rfc3986
[RFC4180]
Y. Shafranovich. IETF. Common Format and MIME Type for Comma-Separated Values (CSV) Files。2005年10月。情報提供。URL: https://tools.ietf.org/html/rfc4180
[RFC4627]
D. Crockford. IETF. The application/json Media Type for JavaScript Object Notation (JSON)。2006年7月。 情報提供。URL: https://tools.ietf.org/html/rfc4627
[RFC7089]
H. Van de Sompel; M. Nelson; R. Sanderson. IETF. HTTP Framework for Time-Based Access to Resource States -- Memento。2013年12月。情報提供。URL: https://tools.ietf.org/html/rfc7089
[Richardson]
Richardson L.; Sam Ruby. O'Reilly. RESTful Web Services。2007年。URL: http://restfulwebapis.org/rws.html
[SCHEMA-ORG]
Schema.org。URL: http://schema.org/
[SDW-BP]
Jeremy Tandy; Payam Barnaghi; Linda van den Brink. W3C. Spatial Data on the Web Best Practices。2017年1月5日。W3C ノート。URL: https://www.w3.org/TR/sdw-bp/
[SIRI]
CEN. Service Interface for Real Time Information CEN/TS 15531 (prCEN/TS-OO278181 )。2006年10月。URL: http://user47094.vs.easily.co.uk/siri/
[SKOS-DESIGN]
Tom Baker; Sean Bechhofer; Antoine Isaac; Alistair Miles; Guus Schreiber; Ed Summers. Elsevier. Key Choices in the Design of Simple Knowledge Organization System (SKOS)。2013年5月。Journal of Web Semantics 20: 35-49。URL: http://dx.doi.org/10.1016/j.websem.2013.05.001
[SKOS-PRIMER]
Antoine Isaac; Ed Summers. W3C. SKOS Simple Knowledge Organization System Primer。2009年8月18日。W3C ノート。URL: https://www.w3.org/TR/skos-primer/
[SchemaVer]
Alex Dean. Introducing SchemaVer for semantic versioning of schemas。2014年。URL: http://snowplowanalytics.com/blog/2014/05/13/introducing-schemaver-for-semantic-versioning-of-schemas/
[Tabular-Data-Primer]
Jeni Tennison. W3C. CSV on the Web: A Primer。2016年2月25日。W3C ノート。 URL: https://www.w3.org/TR/tabular-data-primer/
[Tabular-Metadata]
Jeni Tennison; Gregg Kellogg. W3C. Metadata Vocabulary for Tabular Data。2015年12月17日。W3C 推奨。 URL: https://www.w3.org/TR/tabular-metadata/
[Turtle]
Eric Prud'hommeaux; Gavin Carothers. W3C. RDF 1.1 Turtle。2014年2月25日。W3C 推奨。URL: https://www.w3.org/TR/turtle/
[URLs-in-data]
Jeni Tennison. W3C. URLs in Data Primer。2013年6月4日。W3C ワーキングドラフト。 URL: https://www.w3.org/TR/urls-in-data/
[VOCAB-DCAT]
Fadi Maali; John Erickson. W3C. Data Catalog Vocabulary (DCAT)。2014年1月16日。W3C 推奨。URL: https://www.w3.org/TR/vocab-dcat/
[VOCAB-DQV]
Riccardo Albertoni; Antoine Isaac. W3C. Data on the Web Best Practices: Data Quality Vocabulary。2016年12月15日。W3C ノート。URL: https://www.w3.org/TR/vocab-dqv/
[VOCAB-DUV]
Bernadette Farias Loscio; Eric Stephan; Sumit Purohit. W3C. Data on the Web Best Practices: Dataset Usage Vocabulary。2016年12月15日。W3C ノート。URL: https://www.w3.org/TR/vocab-duv/
[WEBARCH]
Ian Jacobs; Norman Walsh. W3C. Architecture of the World Wide Web, Volume One。2004年12月15日。W3C 推奨。URL: https://www.w3.org/TR/webarch/
[XHTML-VOCAB]
XHTML 2 Working Group. W3C. XHTML Vocabulary。2010年10月27日。URL: https://www.w3.org/1999/xhtml/vocab