WebVTT: ウェブビデオテキストトラック形式

1. はじめに

このセクションは規範的ではありません。

WebVTT（Web Video Text Tracks）フォーマットは、HTML <track> 要素と連携し外部テキストトラックリソースをマークアップすることを目的としています。

WebVTTファイルは、ビデオコンテンツのキャプションや字幕、テキストビデオ記述 [MAUR]、ナビゲーション用のチャプター、さらには音声や動画コンテンツに時間同期された任意のメタデータを提供します。

本仕様の現行バージョンの大部分は、WebVTTファイルをキャプションや字幕として利用する方法の説明に割かれています。チャプターや時間同期メタデータに関する情報は最小限で、この段階ではビデオ記述については記載がありません。

このセクションでは、導入としていくつかのWebVTTファイル例を紹介します。

1.1. シンプルなキャプションファイル

このセクションは規範的ではありません。

WebVTTファイルの主な用途は、ビデオコンテンツへのキャプションや字幕です。ここにインタビューのキャプション例ファイルを示します：

WEBVTT

00:11.000 --> 00:13.000
<v Roger Bingham>We are in New York City

00:13.000 --> 00:16.000
<v Roger Bingham>We’re actually at the Lucern Hotel, just down the street

00:16.000 --> 00:18.000
<v Roger Bingham>from the American Museum of Natural History

00:18.000 --> 00:20.000
<v Roger Bingham>And with me is Neil deGrasse Tyson

00:20.000 --> 00:22.000
<v Roger Bingham>Astrophysicist, Director of the Hayden Planetarium

00:22.000 --> 00:24.000
<v Roger Bingham>at the AMNH.

00:24.000 --> 00:26.000
<v Roger Bingham>Thank you for walking down here.

00:27.000 --> 00:30.000
<v Roger Bingham>And I want to do a follow-up on the last conversation we did.

00:30.000 --> 00:31.500 align:right size:50%
<v Roger Bingham>When we e-mailed—

00:30.500 --> 00:32.500 align:left size:50%
<v Neil deGrasse Tyson>Didn’t we talk about enough in that conversation?

00:32.000 --> 00:35.500 align:right size:50%
<v Roger Bingham>No! No no no no; 'cos 'cos obviously 'cos

00:32.500 --> 00:33.500 align:left size:50%
<v Neil deGrasse Tyson><i>Laughs</i>

00:35.500 --> 00:38.000
<v Roger Bingham>You know I’m so excited my glasses are falling off here.

一般に、WebVTTファイルはキュー（定義）と呼ばれる、時間区間と関連付けられたテキストセグメントの連なりからなります。キャプション・字幕以外にも、WebVTTは時間基準のメタデータ（多くの場合キュー内で名称と値のペアとして利用）提供、チャプターの配信（音声/動画ファイルのコンテキストナビゲーションを支援）や、視覚コンテンツを記述したテキスト（テキストビデオ記述、視覚障害者支援のため音声合成も可能）の提供にも使えます。

このWebVTTバージョンはキャプション・字幕ユースケースに重点を置いています。他用途への仕様化も今後検討可能です。WebVTTファイルのユースケース種別は利用するソフトウェアによって決まります。たとえばHTMLの <track> 要素経由で利用する場合、kind 属性でWebVTTファイルの解釈方法が定義されます。

以下のサブセクションでは、特にキャプションや字幕として利用する場合のWebVTTファイルフォーマットの主な機能の概要を紹介します。

1.2. 複数行のキャプションキュー

このセクションは規範的ではありません。

キュー内での改行は保持されます。また、キューの幅に収まるようにユーザーエージェントが追加の改行を挿入することもあります。したがって、明確に改行が必要な場合を除き、1行記述を推奨します。

以下はパブリックサービスアナウンスメントビデオでの改行例です：

WEBVTT

00:01.000 --> 00:04.000
Never drink liquid nitrogen.

00:05.000 --> 00:09.000
— It will perforate your stomach.
— You could die.

00:10.000 --> 00:14.000
The Organisation for Sample Public Service Announcements accepts no liability for the content of this advertisement, or for the consequences of any actions taken on the basis of the information provided.

1つ目のキューは一行表示、2つ目は発話者ごとに2行、3つ目は映像幅に合わせて折り返し、複数行となる可能性があります。たとえば次のようになります：

           Never drink liquid nitrogen.

        — It will perforate your stomach.
                — You could die.

    The Organisation for Sample Public Service
    Announcements accepts no liability for the
    content of this advertisement, or for the
     consequences of any actions taken on the
        basis of the information provided.

キュー幅が狭い場合、次の例のように最初の2つのキューも折り返されます。ただし、2つ目の明示的な改行は保持されます：

      Never drink
    liquid nitrogen.

  — It will perforate
      your stomach.
    — You could die.

  The Organisation for
  Sample Public Service
  Announcements accepts
  no liability for the
     content of this
  advertisement, or for
   the consequences of
  any actions taken on
    the basis of the
  information provided.

このように折り返し時も行長バランスを考慮しています。

1.3. キャプションのスタイリング

このセクションは規範的ではありません。

video 要素を含むHTMLページに適用されるCSSスタイルシートは、::cue、::cue()、::cue-region、::cue-region() 疑似要素を用いて、そのビデオ内のWebVTTキューやリージョンをターゲットにすることができます。

この例では、HTMLページは style 要素内にCSSスタイルシートを持ち、ビデオ中のすべてのキューをグラデーション背景と文字色でスタイリングし、さらにビデオ中のキュー内のすべての WebVTTボールドオブジェクトの文字色を変更しています。

<!doctype html>
<html>
 <head>
  <title>Styling WebVTT cues</title>
  <style>
   video::cue {
     background-image: linear-gradient(to bottom, dimgray, lightgray);
     color: papayawhip;
   }
   video::cue(b) {
     color: peachpuff;
   }
  </style>
 </head>
 <body>
  <video controls autoplay src="video.webm">
   <track default src="track.vtt">
  </video>
 </body>
</html>

CSSスタイルシートはWebVTTファイル自体に埋め込むこともできます。

スタイルブロックは、すべてのヘッダーの後、最初のキューの前に置き、"STYLE"という行から始まります。コメントブロックはスタイルブロックの間に挿入できます。

スタイルシートには空行を含めることはできません。空行は削除するか、スペースまたはCSSコメント（例：/**/）で埋めることができます。

スタイルシート内で "-->" という文字列は使用できません。スタイルシートが "" で囲まれている場合は、それらの文字列を単に削除できます。"-->" がCSS文字列内に現れる場合は、例えば "--\>" のようにCSSエスケープが利用できます。

この例は、WebVTT内のスタイルブロックでキューをスタイリングする方法を示しています。

WEBVTT

STYLE
::cue {
  background-image: linear-gradient(to bottom, dimgray, lightgray);
  color: papayawhip;
}
/* Style blocks cannot use blank lines nor "dash dash greater than" */

NOTE comment blocks can be used between style blocks.

STYLE
::cue(b) {
  color: peachpuff;
}

hello
00:00:00.000 --> 00:00:10.000
Hello <b>world</b>.

NOTE style blocks cannot appear after the first cue.

1.4. その他のキャプション・字幕機能

このセクションは規範的ではありません。

WebVTTは、あまり利用されない機能にも対応しています。

この例のようにキューにはIDを付与できます：

WEBVTT

test
00:00.000 --> 00:02.000
This is a test.

123
00:00.000 --> 00:02.000
That’s an, an, that’s an L!

crédit de transcription
00:04.000 --> 00:05.000
Transcrit par Célestes™

これによりスタイルシートでキューを個別に装飾できます。

/* style for cue: test */
::cue(#test) { color: lime; }

CSS構文上、0-9 で始まるIDなどはエスケープが必要です。ID 123 は "\31 23"（31は"1"のUnicode値）で表現できます。詳細はマークアップやCSSでの文字エスケープの使い方を参照。

/* style for cue: 123 */
::cue(#\31 23) { color: lime; }
/* style for cue: crédit de transcription */
::cue(#crédit\ de\ transcription) { color: red; }

この例は要素にクラスを付けることでローカライゼーションやメンテナンス性を高める方法や、キュー内テキストでの言語指定例も示します。

WEBVTT

04:02.500 --> 04:05.000
J’ai commencé le basket à l'âge de 13, 14 ans

04:05.001 --> 04:07.800
Sur les <i.foreignphrase><lang en>playground</lang></i>, ici à Montpellier

この例では各キューで話者をvoiceスパンで指定しています。最初のキューでは"first"および"loud"の2クラスでも注釈しています。3つ目のキューにはイタリック文字（話者指定なし）もあり、最後のキューには"loud"のみ付与しています。

WEBVTT

00:00.000 --> 00:02.000
<v.first.loud Esme>It’s a blue apple tree!

00:02.000 --> 00:04.000
<v Mary>No way!

00:04.000 --> 00:06.000
<v Esme>Hee!</v> <i>laughter</i>

00:06.000 --> 00:08.000
<v.loud Mary>That’s awesome!

全体がキューに収まる場合、voiceスパンに限りクローズ不要という特例があります。

スパンは下記のようにスタイル可能です：

::cue(v[voice="Esme"]) { color: cyan }
::cue(v[voice="Mary"]) { color: lime }
::cue(i) { font-style: italic }
::cue(.loud) { font-size: 2em }

この例では、映像ビューポート内で明示的な位置にキューを配置する方法を示します。

WEBVTT

00:00:00.000 --> 00:00:04.000 position:10%,line-left align:left size:35%
Where did he go?

00:00:03.000 --> 00:00:06.500 position:90% align:right size:35%
I think he went down this lane.

00:00:04.000 --> 00:00:06.500 position:45%,line-right align:center size:35%
What are you waiting for?

ここでのキューは水平なので"position"設定はビデオ幅のパーセンテージを指します。テキストが垂直ならビデオ高さのパーセンテージに適用されます。

"line-left"、"line-right"はキューボックスにおける"position"基準側（横/縦方向問わず）で、テキスト自体のボックス内位置や方向とは無関係です。

各キューはビデオ幅の35%のみカバーします。これは全キューに共通のキューボックスの"size"です。

1つ目のキューはキューボックスを10%位置に配置します。textが水平なので "line-left"は左側を指し、10%〜45%にキューボックスが位置します。verticalキューの場合、topから35%となります。

テキストは"align"設定で揃えられます。左→右テキストならstartがbox左端・右→左はbox右端です。つまりテキストの方向性に関わらず話者下の位置に固定されます。start揃え時、方向性によりboxが移動しないようcenterが既定です。

2つ目のキューはビデオ幅90%で右揃え、"right"揃えキューボックスです。同効果は"position:55%,line-left"とも指定できます。3つ目は1つ目同様中心揃えです。

この例では2つの話者、2つのリージョンにロールアップキャプションが表示されます。Fredは左半分、Billは右半分。Fredの1つ目のキューは20秒だが12.5秒で消えるのは3行制限で4つ目出現時に押し出されるためです：

WEBVTT

REGION
id:fred
width:40%
lines:3
regionanchor:0%,100%
viewportanchor:10%,90%
scroll:up

REGION
id:bill
width:40%
lines:3
regionanchor:100%,100%
viewportanchor:90%,90%
scroll:up

00:00:00.000 --> 00:00:20.000 region:fred align:left
<v Fred>Hi, my name is Fred

00:00:02.500 --> 00:00:22.500 region:bill align:right
<v Bill>Hi, I’m Bill

00:00:05.000 --> 00:00:25.000 region:fred align:left
<v Fred>Would you like to get a coffee?

00:00:07.500 --> 00:00:27.500 region:bill align:right
<v Bill>Sure! I’ve only had one today.

00:00:10.000 --> 00:00:30.000 region:fred align:left
<v Fred>This is my fourth!

00:00:12.500 --> 00:00:32.500 region:fred align:left
<v Fred>OK, let’s go.

なお、リージョンは水平キューにのみ定義されます。

1.5. WebVTTのコメント

このセクションは規範的ではありません。

WebVTTファイルにはコメントを含めることができます。

コメントは空行で区切られ、「NOTE」（スペースまたは改行付き）で始まり、次の空行までです。

ここでは1行コメントでキューの問題点を指摘しています。

WEBVTT

00:01.000 --> 00:04.000
Never drink liquid nitrogen.

NOTE I’m not sure the timing is right on the following cue.

00:05.000 --> 00:09.000
— It will perforate your stomach.
— You could die.

この例では多くのコメントが書かれています。

WEBVTT

NOTE
This file was written by Jill. I hope
you enjoy reading it. Some things to
bear in mind:
- I was lip-reading, so the cues may
not be 100% accurate
- I didn’t pay too close attention to
when the cues should start or end.

00:01.000 --> 00:04.000
Never drink liquid nitrogen.

NOTE check next cue

00:05.000 --> 00:09.000
— It will perforate your stomach.
— You could die.

NOTE end of file

1.6. チャプター例

このセクションは規範的ではありません。

WebVTTファイルはチャプターで構成できます。これは映像のナビゲーションマーカーです。

チャプターは通常1行のプレーンテキストです。

この例ではトークを各スライドごとにチャプター化しています。

WEBVTT

NOTE
This is from a talk Silvia gave about WebVTT.

Slide 1
00:00:00.000 --> 00:00:10.700
Title Slide

Slide 2
00:00:10.700 --> 00:00:47.600
Introduction by Naomi Black

Slide 3
00:00:47.600 --> 00:01:50.100
Impact of Captions on the Web

Slide 4
00:01:50.100 --> 00:03:33.000
Requirements of a Video text format

1.7. メタデータ例

このセクションは規範的ではありません。

WebVTTファイルは時間同期メタデータで構成することもできます。

メタデータは任意の文字列で、しばしばJSON構造体で記述されます。

なお、メタデータブロック内に空行は使えません。空行はキュー終了を示すためです。

この例では各スライドごとチャプター化したトークデータです。

WEBVTT

NOTE
Thanks to http://output.jsbin.com/mugibo

1
00:00:00.100 --> 00:00:07.342
{
 "type": "WikipediaPage",
 "url": "https://en.wikipedia.org/wiki/Samurai_Pizza_Cats"
}

2
00:07.810 --> 00:09.221
{
 "type": "WikipediaPage",
 "url" :"http://samuraipizzacats.wikia.com/wiki/Samurai_Pizza_Cats_Wiki"
}

3
00:11.441 --> 00:14.441
{
 "type": "LongLat",
 "lat" : "36.198269",
 "long": "137.2315355"
}

2. 適合性

この仕様書のすべての図、例、および注は非規範的です。また明示的に非規範的と記載されたすべての節も非規範的です。本仕様書のその他すべては規範的です。

規範的な部分における語句 "MUST"、"MUST NOT"、"SHOULD"、"SHOULD NOT"、"MAY"、および "OPTIONAL" は RFC2119 に記載されているとおりに解釈されます。規範的な部分における語句 "OPTIONALLY" は "MAY" および "OPTIONAL" と同じ規範的意味で解釈されます。可読性のため、これらの語は本仕様書中で常に大文字で表記されているわけではありません。 [RFC2119]

アルゴリズムの一部として命令形で表現されている要件（例: "strip any leading space characters" や "return false and abort these steps"）は、そのアルゴリズムを導入する際に用いられているキーワード（"must"、"should"、"may" 等）と同じ意味で解釈されます。

アルゴリズムや特定の手順として表現された適合要件は、最終的な結果が同等であれば、任意の方法で実装できます。（特に、本仕様で定義されるアルゴリズムは追従しやすいことを意図しており、高速性を目的としたものではありません。）

2.1. 適合クラス

本仕様は、ユーザーエージェント（実装者向け）および WebVTT ファイル（作成者およびオーサリングツール実装者向け）に対する適合基準を記述します。

§4 構文は有効な WebVTT ファイルが何であるかを定義します。作成者はそこに記載された要件に従う必要があり、適合チェッカーの使用が推奨されます。§6 解析は、text/vtt とラベル付けされたファイルを、正しい場合と誤っている場合の両方の WebVTT ファイルに対してユーザーエージェントがどのように解釈するかを定義します。解析規則は拡張性を提供し、いくつかの構文エラーを含むキューをレンダリングできるように、作成者の誤りに対して構文よりも寛容です。

たとえば、空行が省略されていてもパーサは2つのキューを生成します。これは明らかにミスなので適合チェッカーはエラーとして指摘しますが、ユーザーにキューを表示することは依然として有用です。

ユーザーエージェントは、異なる適合要件を持ついくつかの（重複する可能性のある）カテゴリに分類されます。

User agents that support scripting

本仕様のすべての処理要件が適用されます。ユーザーエージェントは本仕様の IDL 断片に対しても適合する実装でなければなりません（Web IDL 仕様で定義されているとおり）。 [WEBIDL-1]

User agents with no scripting support

本仕様のすべての処理要件が適用されますが、§6.5 WebVTT キューテキスト DOM 構築規則と §9 API の要件は除外されます。

User agents that do not support CSS

本仕様のすべての処理要件が適用されますが、スタイルシートおよび CSS に関連する §6 解析の一部、および §7 レンダリングと §8 CSS 拡張の全ては適用されません。代わりに、ユーザーエージェントは WebVTT キャプションまたは字幕キューテキスト内のテキストのみを適切な方法でレンダリングし、§5 WebVTT キャプションまたは字幕キューコンポーネントの既定クラスで定義された色クラスを明示的にサポートしなければなりません。その他のスタイリング指示は任意です。

User agents that do not support a full HTML CSS engine

本仕様のすべての処理要件が適用されます。特に §5 WebVTT キャプションまたは字幕キューコンポーネントの既定クラスで定義された色クラスも含まれます。しかしながら、ユーザーエージェントは §6 解析、§7 レンダリング、および §8 CSS 拡張にある CSS 関連機能を、フル機能の CSS をサポートするレンダラーと等価な結果を生成する方法で適用する必要があります。

User agents that support a full HTML CSS engine

本仕様のすべての処理要件が適用されます。ただし、フル CSS エンジンをサポートしないユーザーエージェントが CSS 機能の同等物を実装する必要があるため、許可される CSS スタイルは限定されます。フル CSS エンジンをサポートするユーザーエージェントは、WebVTT に対して適用する CSS スタイルを限定し、仕様外の余計な CSS スタイルが混入しないようにする必要があります。

Conformance checkers

適合チェッカーは WebVTT ファイルが本仕様で記述された適用される適合基準に従っているかを検証しなければなりません。本仕様において「validator」は適合チェッカーと同義です。

Authoring tools

オーサリングツールは、適合する WebVTT ファイルを生成しなければなりません。他のフォーマットを WebVTT に変換するツールもオーサリングツールと見なされます。

オーサリングツールが非適合な WebVTT ファイルを編集する場合、編集セッション中に編集されなかったファイルのセクション内にある適合エラーを保持してもかまいません（つまり編集ツールは誤った内容をラウンドトリップ保存しても許されます）。しかしながら、エラーが保持されている場合にツールが出力を適合していると主張してはなりません。

2.2. Unicode 正規化

本仕様の実装は、処理中に Unicode テキストを正規化してはなりません。

たとえば、識別子が U+0041 LATIN CAPITAL LETTER A に続いて U+030A COMBINING RING ABOVE（分解された文字列）から構成されるキュー、あるいは互換文字である U+212B ANGSTROM SIGN を含むキューは、合成済み文字 U+00C5 LATIN CAPITAL LETTER A WITH RING ABOVE で構成される ID をターゲットとしたセレクタとは一致しません。

3. データモデル

WebVTT のボックスモデルは、ビデオビューポート、キュー、およびリージョンという3つの主要要素で構成されます。ビデオビューポートはキューとリージョンがレンダリングされる領域です。キューは一連のキューラインからなるボックスです。リージョンはキューをグループ化するために使用されるビデオビューポートのサブ領域です。キューはビデオビューポート内に直接配置されるか、ビデオビューポート内に配置されたリージョン内に配置されます。

キューのビデオビューポート内での位置は一連のキュー設定によって定義されます。リージョンのビデオビューポート内での位置は一連のリージョン設定によって定義されます。リージョン内にあるキューは制限されたキュー設定のみを使用できます。具体的には、キューが "vertical"、"line"、または "size" 設定を持つ場合、そのキューはリージョンから外れます。それ以外の場合、キューの幅はビューポートではなくリージョン幅に相対的に算出されます。

3.1. 概要

このセクションは規範的ではありません。

WebVTT ファイルは、ビデオまたはオーディオリソースと時間同期されたデータのチャンクを格納するコンテナファイルです。したがって時間同期データの直列化フォーマットと見なせます。

WebVTT ファイルはヘッダーで始まり、一連のデータブロックを含みます。データブロックに開始時刻と終了時刻がある場合、それは WebVTT キューと呼ばれます。コメントは別の種類のデータブロックです。

WebVTT ファイルには異なる種類のデータを格納できます。HTML 仕様はキャプション、字幕、チャプター、オーディオ記述、およびメタデータをデータの種類として識別し、どの種類が使用されるかを text track kind 属性で指定された text track 要素で規定します。 [HTML51].

WebVTT ファイルは一種類のデータのみを含めるべきであり、異なる種類のデータを混在させてはなりません。WebVTT ファイルのデータ種類は外部で指定されます（例：HTML ファイルの text track 要素）。環境はデータを正しく解釈する責任を負います。

WebVTT のキャプションまたは字幕キューは、ビデオビューポートの上にオーバーレイとして、またはビデオビューポートのサブ領域であるリージョンにレンダリングされます。

3.2. WebVTT キュー

WebVTT キューは、さらに次を含む text track cue [HTML51] です：

キューテキスト: キューの生テキストと、その解釈のルール。

3.3. WebVTT キャプションまたは字幕キュー

WebVTT キャプションまたは字幕キューは、WebVTT キューの一種であり、キューテキストをレンダリングし DOM 断片に変換するための次の追加プロパティを持ちます：

キューボックス

WebVTT キューのキューボックスは、その中ですべての行のテキストがレンダリングされるボックスです。キューがリージョンの一部である場合はリージョン内に、そうでなければビデオのビューポート内にレンダリングされます。

キューボックスのビデオビューポートまたはリージョン内での位置は、WebVTT キュー位置と WebVTT キューラインの値に依存します。

行の長さに応じて、行はキューボックスのサイズに収まるように折り返されます。

書字方向

書字方向は次のいずれかです：

水平（行は水平方向に伸び、ビデオビューポートの上端から垂直方向にオフセットされ、連続する行は下に表示される）,
左方向に成長する垂直（行は垂直に伸び、ビデオビューポートの右端から水平方向にオフセットされ、連続する行は左側に表示される）, または
右方向に成長する垂直（行は垂直に伸び、ビデオビューポートの左端から水平方向にオフセットされ、連続する行は右側に表示される）.

書字方向は、line、position、および size の解釈に影響し、それらをビデオの幅または高さに対して解釈するかを決めます。

デフォルトでは、書字方向は水平に設定されています。

左方向に成長する垂直書字方向は中国語・日本語・韓国語の縦書きに使用でき、右方向に成長する垂直書字方向はモンゴル語の縦書きに使用できる可能性があります。

snap-to-lines フラグ

最初の行の行高を用いて行が整数行数であるか、あるいはビデオの寸法の割合であるかを示すブール値です。行が数えられている場合はフラグは true、そうでない場合は false に設定されます。

フラグが false のキューは、同じ位置に複数のキューがある場合に重なり回避を考慮して要求どおりにオフセットされます。

デフォルトでは snap-to-lines フラグは true に設定されます。

ライン

ラインはキューボックスの位置付けを定義します。

ラインは書字方向、snap-to-lines フラグ、または他に表示中のトラックによって占められている行に応じて、キューボックスをビデオの上端、右端、または左端からオフセットします。

ラインは行数、ビデオビューポートの高さまたは幅の割合、または特殊値 auto として設定されます。auto はオフセットが他の表示トラックに依存することを意味します。

デフォルトではラインは auto に設定されます。

もし書字方向が水平であれば、ラインのパーセンテージはビデオの高さを基準とし、そうでなければ幅を基準とします。

WebVTT キューには、以下のアルゴリズムによって返される値を持つ計算済みラインがあります。これはキューの他の側面に基づいて定義されます：

もしラインが数値であり、かつその snap-to-lines フラグが false、さらにラインが負または 100 より大きい場合は、100 を返してこれらの手順を中止します。

WebVTT パーサはラインを 0..100 範囲外の数値に設定し、かつ snap-to-lines フラグを false に設定することはありませんが、DOM API の snapToLines および line 属性を使用した場合にはこのようなことが発生する可能性があります。
もしラインが数値であれば、そのラインの値を返してこれらの手順を中止します。（snap-to-lines フラグが true の場合は 0..100 範囲外の任意の値も有効、あるいは値が 0..100 範囲内であればそのフラグの値にかかわらず有効です。）
もし該当 snap-to-lines フラグが false であれば、値 100 を返してこれらの手順を中止します。（ラインが特殊値 auto である場合。）
変数 cue を該当の WebVTT キューとします。
もし cue がテキストトラックのキューの一覧に含まれていない、またはそのテキストトラックがメディア要素のテキストトラック一覧に含まれていない場合は −1 を返してこれらの手順を中止します。
変数 track を、該当の cue が含まれているテキストトラックとします。
変数 n を、テキストトラックのうち、そのモードが showing であり、かつ track の前にメディア要素のテキストトラック一覧に存在するトラックの数とします。
n を1増やします。
n に符号を付け替えます（負にします）。
n を返します。

たとえば、あるメディア要素で同時に2つのテキストトラックが showing になっており、それぞれのテキストトラックにアクティブな WebVTT キューがあり、その line が両方とも auto の場合、最初のテキストトラックのキューの計算済みラインは −1、2番目は −2 になります。

ライン揃え

キューボックスのラインに対する揃え方で、次のいずれかです：

開始揃え（Start alignment）: キューボックスの上側（水平キューの場合）、左側（vertical growing right の場合）、または右側（vertical growing left の場合）がラインに揃えられます。
中央揃え（Center alignment）: キューボックスはライン上で中央に配置されます。
終端揃え（End alignment）: キューボックスの下側（水平キューの場合）、右側（vertical growing right の場合）、または左側（vertical growing left の場合）がラインに揃えられます。

デフォルトでライン揃えは start に設定されます。

ライン揃えはテキスト揃えとは別物です — 右から左と左から右のキューテキストはライン揃えには影響しません。

位置（position）

位置は、書字方向に沿ったキューボックスのインデントを定義します。

位置はパーセンテージ値としての数値、または特殊値 auto のいずれかです。auto は位置がキューのテキスト揃えに依存することを意味します。

キューがリージョン内でない場合、パーセンテージ値はビデオの寸法に対する割合として解釈されます。リージョン内であればリージョン寸法に対する割合として解釈されます。

デフォルトでは位置は auto に設定されます。

書字方向が水平の場合、位置のパーセンテージはビデオの幅に対して相対的に解釈され、そうでなければ高さに対して相対的に解釈されます。

WebVTT キューには、以下のアルゴリズムによって返される値を持つ計算済み位置があります：

もし位置が 0 から 100 の間の数値であれば、その値を返して手順を中止します。（それ以外の場合、位置は特殊値 auto です。）
もしテキスト揃えが left であれば、0 を返して手順を中止します。
もしテキスト揃えが right であれば、100 を返して手順を中止します。
それ以外の場合、50 を返して手順を中止します。

既定では位置揃えの既定値が center であるため、キューにテキスト揃えの設定がない場合、キューの位置は既定で 50% になります。

水平キューで右から左のテキストであっても、キューボックスはビデオビューポートの左端から位置指定されます。これにより左から右、右から左、または両方のテキストを収容できるレンダリングスペーステンプレートを定義できます。

サイズが 100% でない WebVTT キューに対して、テキスト揃えが start または end の場合、作成者はデフォルトの auto 位置を使用してはなりません。

テキスト揃えが start または end の場合、auto 位置は 50% です。これは left と right 揃えのテキストに対して auto がそれぞれ 0% と 100% になるのとは異なります。この要件は、キューのテキストが行ごとに左→右または右→左の基底方向を持ち得るため、自動配置が予期しない結果になる可能性があるため導入されています。

位置揃え（position alignment）

書字方向の次元におけるキューボックスの揃えを記述し、位置がどの部分にアンカーされるかを表します。次のいずれかです：

ライン左揃え（line-left）: キューボックスの左側（水平キューの場合）または上側（それ以外の場合）が位置に揃えられます。
中央揃え（center）: キューボックスは位置で中央に配置されます。
ライン右揃え（line-right）: キューボックスの右側（水平キューの場合）または下側（それ以外の場合）が位置に揃えられます。
自動揃え（auto）: キューボックスの揃えはキューのテキスト揃えの値に依存します。

デフォルトで位置揃えは auto に設定されます。

WebVTT キューは、以下のアルゴリズムによって返される値を持つ計算済み位置揃えを持ちます：

もし位置揃えが auto でなければ、その値を返して手順を中止します。
もしテキスト揃えが left であれば、line-left を返して手順を中止します。
もしテキスト揃えが right であれば、line-right を返して手順を中止します。
もしテキスト揃えが start であれば、キューテキストの基底方向が左→右の場合は line-left を、そうでなければ line-right を返して手順を中止します。
もしテキスト揃えが end であれば、基底方向が左→右のとき line-right を、そうでなければ line-left を返して手順を中止します。
それ以外の場合、center を返します。

位置は常にビデオの左（水平キューの場合）または上（それ以外の場合）から測定されるため、位置揃えの line-left の値は、水平と垂直のキューで left と top の間で変化します。

サイズ

キューボックスのサイズを示す数値であり、書字方向によって定義されるビデオに対するパーセンテージとして解釈されます。

デフォルトで WebVTT キューサイズは 100% に設定されます。

書字方向が水平の場合、サイズのパーセンテージはビデオの幅に対して相対的に解釈され、そうでなければ高さに対して相対的に解釈されます。

テキスト揃え

書字方向の次元におけるキューボックス内のすべての行のテキストに対する揃えで、次のいずれかです：

開始揃え（Start alignment）: 各行のテキストはボックスの開始側に向かって個別に揃えられます。開始側は CSS の unicode-bidi プロパティの plaintext 値に対するルールを使用して決定されます。 [CSS-WRITING-MODES-3]
中央揃え（Center alignment）: テキストはボックスの開始側と終了側の間で中央揃えされます。
終端揃え（End alignment）: 各行のテキストはボックスの終了側に向かって個別に揃えられます。終了側は unicode-bidi の plaintext ルールに従って決定されます。 [CSS-WRITING-MODES-3]
左揃え（Left alignment）: テキストはボックスの左側（水平キューの場合）または上側（それ以外の場合）に揃えられます。
右揃え（Right alignment）: テキストはボックスの右側（水平キューの場合）または下側（それ以外の場合）に揃えられます。

デフォルトでテキスト揃えは center に設定されます。

各行の基底方向（Unicode 双方向アルゴリズムが行内の文字表示順序を決めるために使用する）は、各行の最初の強方向文字を見つけることで決定され、これは CSS の plaintext アルゴリズムに従います。行の最初の強方向文字が望ましくない基底方向を生む場合、作成者は行の先頭に U+200E LEFT-TO-RIGHT MARK または U+200F RIGHT-TO-LEFT MARK を置いて修正できます。 [BIDI]

この例では、2番目のキューは右→左の基底方向を持ち、".I think ,يلاع" のようにレンダリングされます。（下のテキストはすべて左→右で表示されています；テキストエディタによっては同じ表示にならない場合があります。）

WEBVTT

00:00:07.000 --> 00:00:09.000
What was his name again?

00:00:09.000 --> 00:00:11.000
عالي, I think.

その行を左→右基底方向にしたい場合は、行の先頭に U+200E LEFT-TO-RIGHT MARK（エスケープして "&lrm;" と表記可能）を置いてください。

行内の埋め込みテキストの基底方向を周囲のテキストと異ならせる必要がある場合、対となる Unicode bidi フォーマットコード文字を使用して達成できます。

この例では、bidi フォーマットコード文字が使用されていないと仮定すると、キューテキストは "I’ve read the book 3 דנליונ times!" のようにレンダリングされます（つまり "3" が書籍タイトルの反対側に来てしまう）。

WEBVTT

00:00:04.000 --> 00:00:08.000
I’ve read the book נוילנד 3 times!

もし書籍タイトルの前に U+2068 FIRST STRONG ISOLATE (FSI) を、後に U+2069 POP DIRECTIONAL ISOLATE (PDI) を配置すれば、意図したとおり "I’ve read the book דנליונ 3 times!" のようにレンダリングされます。（これらの文字は "⁨" および "⁩" とエスケープできます。）

既定のテキスト揃えは基底方向にかかわらず center です。各行のテキスト揃えをその行の基底方向と一致させたい場合（例：英語は左揃え、ヘブライ語は右揃え）、start alignment を使用するか、逆にする場合は end alignment を使用してください。

この例では start alignment が使われています。最初の行は基底方向が左→右なので左揃えになり、2行目は右→左なので右揃えになります。

WEBVTT

00:00:00.000 --> 00:00:05.000 align:start
Hello!
שלום!

これは次のようにレンダリングされます：

Hello!
                                            !םולש

left alignment と right alignment は、行の基底方向に関係なくキューテキストを左揃えまたは右揃えにするために使用できます。

リージョン

そのキューが所属する任意の WebVTT リージョン。

デフォルトでは、リージョンは null に設定されています。

アクティブフラグが設定された WebVTT cue において、その active flag が設定された状態で書字方向、行にスナップするフラグ、行、行揃え、位置、位置揃え、サイズ、文字揃え、リージョン、またはテキストが変更された場合、ユーザーエージェントはテキストトラックキュー表示状態を空にし、直ちにそのテキストトラックの WebVTT テキストトラックの表示を更新するための規則を実行しなければなりません。

3.4. WebVTT キャプションまたは字幕のリージョン

A WebVTT region はビデオビューポートの一部分を表し、WebVTT キャプションまたは字幕キューのための限定されたレンダリング領域を提供します。

リージョンはキャプションや字幕のキューをグループ化して一緒に描画する手段を提供し、特に上方向へのスクロール時に重要です。

各 WebVTT リージョンは以下から構成されます：

識別子

U+0020 SPACE または U+0009 CHARACTER TABULATION（タブ）以外の任意の長さ（0文字以上）の文字列。文字列はサブストリング "-->" を含んではならない。デフォルトは空文字列。

幅

各行のテキストがレンダリングされるボックスの幅を示す数値で、ビデオ幅に対するパーセンテージとして解釈されます。デフォルトは 100 です。

行数値

各行のテキストがレンダリングされるボックス内の行数を示す数値。デフォルトは 3 です。

WebVTT リージョンは固定されたレンダリング領域を定義するため、リージョンが許容する行数より多い行を持つキューは切り捨てられます。スクロールするリージョンでは切り捨ては上側で発生し、スクロールしないリージョンでは下側で発生します。

リージョンアンカーポイント

リージョン内の x および y 座標を表す 2 つの数値で、これがビデオビューポートに固定され、フォントサイズの変更などでリージョンが移動しても位置が変わりません。デフォルトは (0,100)、すなわちリージョンの左下隅です。

リージョンビューポートアンカーポイント

リージョンアンカーポイントが固定されるビデオビューポート内の x および y 座標を表す 2 つの数値。デフォルトは (0,100)、すなわちビデオビューポートの左下隅です。

スクロール値

次のいずれか：

None: リージョン内のキューはスクロールせず、最初に描画された位置に固定されることを示します。
Up: リージョン内のキューがリージョンの下端に追加され、既に表示されているキューを上方に押し上げて、新しいキューの全行がリージョン内に見えるようになることを示します。

以下の図はリージョンをビデオビューポートにアンカーする仕組みを説明します。黒い十字がアンカーで、オレンジはリージョン内でのアンカーのオフセット、緑はビデオビューポート内でのアンカーのオフセットを示します。付箋をボードにピンで留めるように考えてください：

visual explanation of WebVTT regions — 図の説明: ビデオビューポート内に WebVTT リージョンがあります。リージョン内には黒い十字で示されたアンカーポイントがあります。ビデオビューポートの端からアンカーまでの垂直・水平方向の距離は緑の矢印で示され、これがリージョンビューポートアンカーの X および Y オフセットを表します。リージョンの端からアンカーまでの垂直・水平方向の距離はオレンジの矢印で示され、これがリージョンアンカーの X および Y オフセットを表します。リージョンのサイズは水平方向に対しては region width、垂直方向に対しては region lines で表されます。

パースのために、次も必要です：

テキストトラックのリージョン一覧: ゼロ個以上の WebVTT リージョンのリスト。

3.5. WebVTT チャプターキュー

A WebVTT chapter cue は、WebVTT cue で、その cue text がチャプターのナビゲーション対象を記述するチャプタータイトルとして解釈されるものです。

チャプターキューはオーディオまたはビデオファイルのタイムラインを連続した重複しない区間でマークアップします。これらの区間をさらにサブチャプターに細分してナビゲーションツリーを構築することも可能です。

3.6. WebVTT メタデータキュー

A WebVTT metadata cue は、WebVTT cue で、その cue text が時間に整列したメタデータとして解釈されるものです。

4. 構文

4.1. WebVTT ファイル構造

A WebVTT ファイルは、UTF-8 でエンコードされ、MIME タイプ text/vtt が付与された WebVTT ファイル本文で構成されなければなりません。[RFC3629]

A WebVTT ファイル本文は、次のコンポーネントを以下の順序で含みます：

任意の U+FEFF バイトオーダーマーク（BOM）文字。
文字列 "WEBVTT"。
任意で U+0020 SPACE 文字または U+0009 CHARACTER TABULATION（タブ）文字と、それに続く U+000A LINE FEED（LF）または U+000D CARRIAGE RETURN（CR）以外の任意の数の文字。
ファイルマジック行を終了し本文と区切るための 2 個以上の WebVTT 行終端。
ゼロ個以上の WebVTT リージョン定義ブロック、WebVTT スタイルブロック、および WebVTT コメントブロックが、それぞれ 1 個以上の WebVTT 行終端で区切られて並ぶ。
ゼロ個以上の WebVTT 行終端。
ゼロ個以上の WebVTT キューブロックおよび WebVTT コメントブロックが、それぞれ 1 個以上の WebVTT 行終端で区切られて並ぶ。
ゼロ個以上の WebVTT 行終端。

A WebVTT 行終端は次のいずれかで構成されます：

U+000D CARRIAGE RETURN と U+000A LINE FEED（CRLF）の組。
単一の U+000A LINE FEED（LF）文字。
単一の U+000D CARRIAGE RETURN（CR）文字。

A WebVTT リージョン定義ブロックは、次のコンポーネントを与えられた順序で含みます：

文字列 "REGION"（U+0052 LATIN CAPITAL LETTER R, U+0045 LATIN CAPITAL LETTER E, U+0047 LATIN CAPITAL LETTER G, U+0049 LATIN CAPITAL LETTER I, U+004F LATIN CAPITAL LETTER O, U+004E LATIN CAPITAL LETTER N）。
ゼロ個以上の U+0020 SPACE 文字または U+0009 CHARACTER TABULATION（タブ）文字。
WebVTT 行終端。
WebVTT リージョン設定リスト。
WebVTT 行終端。

A WebVTT スタイルブロックは、次のコンポーネントを与えられた順序で含みます：

文字列 "STYLE"（U+0053 LATIN CAPITAL LETTER S, U+0054 LATIN CAPITAL LETTER T, U+0059 LATIN CAPITAL LETTER Y, U+004C LATIN CAPITAL LETTER L, U+0045 LATIN CAPITAL LETTER E）。
ゼロ個以上の U+0020 SPACE 文字または U+0009 CHARACTER TABULATION（タブ）文字。
WebVTT 行終端。
U+000A LINE FEED（LF）文字および U+000D CARRIAGE RETURN（CR）文字以外の任意の文字の 0 個以上の並びで、各要素は任意で次の要素と WebVTT 行終端で区切られる。ただし、全体の結果文字列はサブストリング "-->" を含んではならない。文字列は CSS スタイルシートを表し、関連する CSS 仕様で与えられる要件が適用される。 [CSS22]
WebVTT 行終端。

A WebVTT キューブロックは、次のコンポーネントを与えられた順序で含みます：

任意で WebVTT キュー識別子とそれに続く WebVTT 行終端。
WebVTT キュータイミング。
任意で 1 個以上の U+0020 SPACE 文字または U+0009 CHARACTER TABULATION（タブ）文字と、それに続く WebVTT キュー設定リスト。
WebVTT 行終端。
cue payload： WebVTT キャプションまたは字幕キューテキスト、WebVTT チャプタタイトルテキスト、または WebVTT メタデータテキストのいずれかで、ただしサブストリング "-->" を含んではならない。
WebVTT 行終端。

WebVTT キューブロックは、例えば 1 つの字幕のように、WebVTT ファイルにおける時間整列された 1 つのテキストまたはデータに対応します。cue payload はキューに関連付けられたテキストまたはデータです。

A WebVTT キュー識別子は、サブストリング "-->" を含まず、U+000A LINE FEED（LF）文字や U+000D CARRIAGE RETURN（CR）文字を含まない、1 文字以上の任意の文字列です。

A WebVTT キュー識別子は、すべての WebVTT キュー識別子の中で一意でなければなり、すべての WebVTT キューの識別子と重複してはなりません。

WebVTT キュー識別子は、例えばスクリプトや CSS から特定のキューを参照するために使用できます。

The WebVTT キュータイミング部分は、WebVTT キューブロックの以下のコンポーネントを与えられた順序で含みます：

キューの開始時刻オフセットを表す WebVTT タイムスタンプ。この WebVTT タイムスタンプにより表される時間は、ファイル内のすべての前のキューの開始時刻オフセット以上でなければなりません。
1 個以上の U+0020 SPACE 文字または U+0009 CHARACTER TABULATION（タブ）文字。
文字列 "-->"（U+002D HYPHEN-MINUS, U+002D HYPHEN-MINUS, U+003E GREATER-THAN SIGN）。
1 個以上の U+0020 SPACE 文字または U+0009 CHARACTER TABULATION（タブ）文字。
キューの終了時刻オフセットを表す WebVTT タイムスタンプ。この WebVTT タイムスタンプにより表される時間は、キューの開始時刻オフセットより大きくなければなりません。

WebVTT キュータイミングは WebVTT キューブロックの開始および終了オフセットを示します。異なるキューは重なり得ます。キューは常に開始時刻順に並べられます。

A WebVTT タイムスタンプは、次のコンポーネントを与えられた順序で含みます：

任意（hours が 0 でない場合は必須）：
1. 2 桁以上の ASCII 数字、hours を 10 進整数として表す。
2. U+003A コロン文字 (:)。
2 桁の ASCII 数字、minutes を 10 進整数として 0 ≤ minutes ≤ 59 の範囲で表す。
U+003A コロン文字 (:)。
2 桁の ASCII 数字、seconds を 10 進整数として 0 ≤ seconds ≤ 59 の範囲で表す。
U+002E ピリオド文字 (.)。
3 桁の ASCII 数字、秒の千分の一を表す seconds-frac を 10 進整数として表す。

WebVTT タイムスタンプは常に、WebVTT ファイルが同期するメディアデータの現在の再生位置に相対して解釈されます。

A WebVTT キュー設定リストは、任意の順序で並べられた 0 個以上の WebVTT キュー設定の列で構成され、各設定は 1 個以上の U+0020 SPACE 文字または U+0009 CHARACTER TABULATION（タブ）文字で区切られます。各設定は以下のコンポーネントを指定された順序で含みます：

WebVTT キュー設定名。
任意の U+003A コロン (:) 文字。
任意の WebVTT キュー設定値。

A WebVTT キュー設定名および WebVTT キュー設定値は、それぞれ U+000A LINE FEED（LF）文字および U+000D CARRIAGE RETURN（CR）文字を含まない 1 文字以上の任意の文字列で構成されます。ただし、全体の結果文字列はサブストリング "-->" を含んではなりません。

A WebVTT パーセンテージは次のコンポーネントで構成されます：

1 つ以上の ASCII 数字。
任意で：
1. U+002E ドット文字 (.)。
2. 1 つ以上の ASCII 数字。
U+0025 パーセント記号 (%)。

数値として解釈される場合、WebVTT パーセンテージは 0..100 の範囲内でなければなりません。

A WebVTT コメントブロックは、次のコンポーネントを与えられた順序で含みます：

文字列 "NOTE"。
任意で、次のコンポーネントを与えられた順序で含む：
1. いずれか：
  - U+0020 SPACE 文字または U+0009 CHARACTER TABULATION（タブ）文字。
  - WebVTT 行終端。
2. U+000A LINE FEED（LF）文字および U+000D CARRIAGE RETURN（CR）文字以外の任意の文字の 0 個以上の並びで、各要素は任意で次の要素と WebVTT 行終端で区切られる。ただし、全体の結果文字列はサブストリング "-->" を含んではならない。
WebVTT 行終端。

WebVTT コメントブロックはパーサによって無視されます。

4.2. WebVTT キューペイロードの種類

4.2.1. WebVTT メタデータテキスト

WebVTT メタデータテキストは、U+000A LINE FEED（LF）文字および U+000D CARRIAGE RETURN（CR）文字以外の任意の文字の 0 個以上の並びで構成され、各要素は任意で次の要素と WebVTT 行終端によって区切られます。（言い換えれば、2 つの連続した WebVTT 行終端を持たず、WebVTT 行終端で始まらず終わらないテキスト。）

WebVTT メタデータテキストのキューはスクリプトで利用されるアプリケーション（例：HTML の metadata text track kind を使う場合）にのみ有用です。

4.2.2. WebVTT キャプションまたは字幕キューテキスト

WebVTT キャプションまたは字幕キューテキストは、cue payload で、任意の順序で並んだゼロ個以上の WebVTT キャプションまたは字幕キュー構成要素からなり、それぞれは任意で次の要素と WebVTT 行終端で区切られます。

WebVTT キャプションまたは字幕キュー構成要素は次のとおりです：

WebVTT キュークラススパン。
WebVTT キュー斜体スパン。
WebVTT キュー太字スパン。
WebVTT キュー下線スパン。
WebVTT キュールビースパン。
WebVTT キューボイススパン。
WebVTT キューロケール（言語）スパン。
WebVTT キュータイムスタンプ。
WebVTT キューテキストスパン、キューのテキストを表す。
HTML 文字参照（HTML に定義されたとおり）で、テキスト内の 1 つまたは 2 つの Unicode コードポイントを表します。 [HTML51]

HTML 文字参照を除くすべての WebVTT キャプションまたは字幕キュー構成要素には、ピリオド ('.') 表記を使って、キュー構成要素の開始タグに続けてキュー構成要素クラス名を付与することができます。クラス名は「ピリオド」の直後に続かなければなりません。

WebVTT キュー内部テキストは、任意の WebVTT 行終端と、続いて任意の順序で並んだゼロ個以上の WebVTT キャプションまたは字幕キュー構成要素からなり、それぞれは任意で次の要素と WebVTT 行終端を伴います。

A WebVTT キュークラススパンは、注釈を許可しない WebVTT キュースパン開始タグ "c"、キューのテキストを表す WebVTT キュー内部テキスト、および注釈を許可しない WebVTT キュースパン終了タグ "c" から構成されます。

A WebVTT キュー斜体スパンは、注釈を許可しない WebVTT キュースパン開始タグ "i"、斜体化されたテキストを表す WebVTT キュー内部テキスト、および注釈を許可しない WebVTT キュースパン終了タグ "i" から構成されます。

A WebVTT キュー太字スパンは、注釈を許可しない WebVTT キュースパン開始タグ "b"、太字化されたテキストを表す WebVTT キュー内部テキスト、および WebVTT キュースパン終了タグ "b" から構成されます。

A WebVTT キュー下線スパンは、注釈を許可しない WebVTT キュースパン開始タグ "u"、下線付きテキストを表す WebVTT キュー内部テキスト、および WebVTT キュースパン終了タグ "u" から構成されます。

A WebVTT キュールビースパンは、次のコンポーネントを与えられた順序で含みます：

WebVTT キュースパン開始タグ "ruby"（注釈を許可しない）。
次のコンポーネント群を 1 回以上、与えられた順序で繰り返す：
1. WebVTT キュー内部テキスト（ルビの基底となるテキスト）。
2. WebVTT キュースパン開始タグ "rt"（注釈を許可しない）。
3. WebVTT キュールビーテキストスパン：WebVTT キュー内部テキスト（ルビ注釈のルビ部分を表す）。
4. WebVTT キュースパン終了タグ "rt"。このコンポーネント群が WebVTT キュールビースパンの最後の繰り返しである場合、この最後の終了タグ文字列は省略されてもよい。
最後の終了タグ文字列が省略されなかった場合：任意で WebVTT 行終端。
最後の終了タグ文字列が省略されなかった場合：ゼロ個以上の U+0020 SPACE 文字または U+0009 CHARACTER TABULATION（タブ）文字、それぞれは任意で WebVTT 行終端を伴う。
WebVTT キュースパン終了タグ "ruby"。

キューの位置指定は基底テキストの位置を制御し、ルビテキストの位置を制御するものではありません。

WebVTT のルビは HTML のルビ機能のサブセットです。将来的に HTML と CSS でこれらの機能がより成熟した際には、ルビ基底テキスト用のオブジェクトや複雑なルビ対応が追加される可能性があります。 [HTML51] [CSS3-RUBY]

A WebVTT キューボイススパンは、次のコンポーネントを与えられた順序で含みます：

WebVTT キュースパン開始タグ "v"（注釈を要求する；注釈は声の名前を表す）。
WebVTT キュー内部テキスト。
WebVTT キュースパン終了タグ "v"。この WebVTT キューボイススパンがその構成要素の唯一のものである場合、終了タグは省略してよい。

A WebVTT キューロケールスパンは、次のコンポーネントを与えられた順序で含みます：

WebVTT キュースパン開始タグ "lang"（注釈を要求する；注釈は次のコンポーネントの言語を表し、有効な BCP 47 言語タグでなければならない）。 [BCP47]
WebVTT キュー内部テキスト。
WebVTT キュースパン終了タグ "lang"。

上記の有効な BCP 47 言語タグに関する要件は作成者向けの要件であり、適合性チェッカーは言語タグの妥当性を検査しますが、他のユーザーエージェントはそうしないことがあります。

A WebVTT キュースパン開始タグは tag name を持ち、注釈を要求するか否かの指定があり、次のコンポーネントを与えられた順序で含みます：

U+003C LESS-THAN SIGN 文字 (<)。
tag name。
次のシーケンスをゼロ回以上繰り返す：
1. U+002E FULL STOP 文字 (.)
2. U+0009 CHARACTER TABULATION（タブ）、U+000A LINE FEED（LF）、U+000D CARRIAGE RETURN（CR）、U+0020 SPACE、U+0026 AMPERSAND (&)、U+003C LESS-THAN SIGN (<)、U+003E GREATER-THAN SIGN (>)、および U+002E FULL STOP (.) 以外の 1 文字以上で、クラスを表し、キュースパンの重要性を示す。
開始タグが注釈を要求する場合：U+0020 SPACE 文字または U+0009 CHARACTER TABULATION（タブ）文字と続き、次のコンポーネントの 1 つ以上が続き、それらの表現の連結は U+0020 SPACE および U+0009 CHARACTER TABULATION（タブ）以外の少なくとも 1 文字を含む値を持たなければなりません：
- WebVTT キュースパン開始タグ注釈テキスト、注釈のテキストを表す。
- HTML 文字参照（HTML に定義されたとおり）、注釈テキスト内の 1 または 2 の Unicode コードポイントを表す。 [HTML51]
U+003E GREATER-THAN SIGN 文字 (>)。

A WebVTT キュースパン終了タグは tag name を持ち、次のコンポーネントを与えられた順序で含みます：

U+003C LESS-THAN SIGN 文字 (<)。
U+002F SOLIDUS 文字 (/).
tag name。
U+003E GREATER-THAN SIGN 文字 (>)。

A WebVTT キュータイムスタンプは U+003C LESS-THAN SIGN 文字 (<)、続いて該当点がアクティブになる時間を表す WebVTT タイムスタンプ、および U+003E GREATER-THAN SIGN 文字 (>) から構成されます。該当する WebVTT タイムスタンプにより表される時間は、キュー内の以前の WebVTT キュータイムスタンプによって表される時間より大きく、かつキューの開始時刻オフセットより大きく、キューの終了時刻オフセットより小さくなければなりません。

A WebVTT キューテキストスパンは U+000A LINE FEED（LF）、U+000D CARRIAGE RETURN（CR）、U+0026 AMPERSAND (&)、および U+003C LESS-THAN SIGN (<) 以外の 1 文字以上から構成されます。

WebVTT キュースパン開始タグ注釈テキストは、U+000A LINE FEED（LF）、U+000D CARRIAGE RETURN（CR）、U+0026 AMPERSAND (&)、および U+003E GREATER-THAN SIGN (>) 以外の 1 文字以上で構成されます。

4.2.3. WebVTT チャプタタイトルテキスト

WebVTT チャプタタイトルテキストは cue text であり、次のコンポーネントを 0 個以上使用できます。それぞれは任意で次の要素と WebVTT 行終端で区切られます：

WebVTT キューテキストスパン
HTML 文字参照 [HTML51]

4.3. WebVTT リージョン設定

A WebVTT キュー設定リストは WebVTT リージョンへの参照を含むことができます。リージョンを定義するために、WebVTT リージョン定義ブロックが指定されます。

The WebVTT リージョン設定リストは、次のコンポーネントを任意の順序で 0 個以上含み、各コンポーネントは 1 個以上の U+0020 SPACE 文字、U+0009 CHARACTER TABULATION（タブ）文字、または WebVTT 行終端によって区切られます。ただし、文字列は 2 つの連続した WebVTT 行終端を含んではなりません。各コンポーネントは WebVTT リージョン設定リスト文字列ごとに複数回含めてはなりません。

A WebVTT リージョン識別子設定。
A WebVTT リージョン幅設定。
A WebVTT リージョン行数設定。
A WebVTT リージョンアンカー設定。
A WebVTT リージョンビューポートアンカー設定。
A WebVTT リージョンスクロール設定。

The WebVTT リージョン設定リストは、リージョンの寸法、位置決め、およびアンカリングに関する構成オプションを提供します。たとえば、リージョン内の一群のキューをリージョンの中央およびビデオビューポートの中央にアンカーすることができます。この場合、フォントサイズが大きくなると、リージョンは中心から全方向に均等に拡大します。

A WebVTT リージョン識別子設定は、次のコンポーネントを与えられた順序で含みます：

文字列 "id"。
U+003A コロン文字 (:)。
ASCII 空白以外の 1 文字以上からなる任意の文字列。文字列はサブストリング "-->" を含んではなりません。

A WebVTT リージョン識別子設定は、すべての WebVTT リージョン識別子設定の中で、同一の WebVTT リージョンを持つ WebVTT ファイル内で一意でなければなりません。

A WebVTT リージョン識別子設定は、各 WebVTT キュー設定リストに存在しなければなりません。識別子がなければ、構文上で WebVTT キューを WebVTT リージョンに関連付けることはできません。

The WebVTT リージョン識別子設定は、リージョンに名前を付け、リージョンに属するキューから参照できるようにします。

A WebVTT リージョン幅設定は、次のコンポーネントを与えられた順序で含みます：

文字列 "width"。
U+003A コロン文字 (:)。
WebVTT パーセンテージ。

The WebVTT リージョン幅設定は、キューがレンダリングされるリージョンの固定幅をビデオ幅に対するパーセンテージとして提供し、揃えの計算基準となります。

A WebVTT リージョン行数設定は、次のコンポーネントを与えられた順序で含みます：

文字列 "lines"。
U+003A コロン文字 (:)。
1 つ以上の ASCII 数字。

The WebVTT リージョン行数設定は、キューがレンダリングされるリージョンの高さを行数で固定します。したがって、スクロールリージョンであればロールアップ領域の高さを定義します。

A WebVTT リージョンアンカー設定は、次のコンポーネントを与えられた順序で含みます：

文字列 "regionanchor"。
U+003A コロン文字 (:)。
WebVTT パーセンテージ。
U+002C コンマ文字 (,)。
WebVTT パーセンテージ。

The WebVTT リージョンアンカー設定は、リージョンボックス内で位置が固定される点を指定する 2 つのパーセンテージのタプルを提供します。最初のパーセンテージはリージョンボックスの左上からの x 次元を、2 番目は y 次元を測ります。リージョンアンカー設定が与えられない場合、アンカーはデフォルトで 0%、100%（すなわち左下隅）になります。

A WebVTT リージョンビューポートアンカー設定は、次のコンポーネントを与えられた順序で含みます：

文字列 "viewportanchor"。
U+003A コロン文字 (:)。
WebVTT パーセンテージ。
U+002C コンマ文字 (,)。
WebVTT パーセンテージ。

The WebVTT リージョンビューポートアンカー設定は、リージョンアンカーポイントがアンカーされるビデオビューポート内の点を指定する 2 つのパーセンテージのタプルを提供します。最初のパーセンテージはビデオビューポートボックスの左上からの x 次元を、2 番目は y 次元を測ります。リージョンビューポートアンカーが与えられない場合、デフォルトは 0%、100%（すなわち左下隅）です。

ブラウザにおいては、リージョンはビデオビューポートに対して絶対配置された CSS ボックスにマップされます。すなわち、リージョンが絶対配置される基準となる相対配置されたボックスがビデオビューポートを表します。オーバーフローは隠されます。

A WebVTT リージョンスクロール設定は、次のコンポーネントを与えられた順序で含みます：

文字列 "scroll"。
U+003A コロン文字 (:)。
文字列 "up"。

The WebVTT リージョンスクロール設定は、リージョン内にレンダリングされたキューが初期の描画位置から移動してロールアップ（すなわちビデオビューポートの上方向へ移動）することを許可するかどうかを指定します。スクロール設定が省略された場合、キューはレンダリング位置から移動しません。

キューは既存のキュー行の下に一行ずつリージョンに追加されます。既にレンダリングされている行が削除され、それが他のレンダリング済みの行の上にあった場合、その行はそのスペースに移動し、指定された方向にスクロールします。リージョンに新しい行を追加するのに十分なスペースがない場合、最上部の行が表示領域から押し出され（overflow:hidden によって徐々に見えなくなり）、これにより新しい行を追加するためのスペースが確保されます。

スクロール方向がない場合、キュー行はリージョンの下端に最も近い空いている行に追加されます。空き行がない場合は、最も古い行が置き換えられます。

4.4. WebVTT キュー設定

A WebVTT キュー設定は WebVTT キュー設定リストの一部であり、キューボックスの位置と揃え、およびその内部のキューテキストに関する構成オプションを提供します。

たとえば、一連の WebVTT キュー設定により、キューボックスを左に揃えたり、右上に配置してキューテキストを中央揃えにしたりすることができます。

現在利用可能な WebVTT キュー設定で、WebVTT キュー設定リストに現れる可能性のあるものは次のとおりです：

A WebVTT センテンス縦書きキュー設定。
A WebVTT ラインキュー設定。
A WebVTT ポジションキュー設定。
A WebVTT サイズキュー設定。
A WebVTT 揃え（アライン）キュー設定。
A WebVTT リージョンキュー設定。

これらの各設定は、WebVTT キュー設定リストごとに複数回含めてはなりません。

A WebVTT 縦書きキュー設定は WebVTT キュー設定で、次のコンポーネントを与えられた順序で含みます：

文字列 "vertical" を WebVTT キュー設定名として。
U+003A コロン文字 (:)。
次の文字列のいずれかを WebVTT キュー設定値として："rl", "lr"。

A WebVTT 縦書きキュー設定は、キューに水平レイアウトではなく縦書きレイアウトを使用するよう設定します。縦書きレイアウトは日本語などで使用されることがあります。デフォルトは水平レイアウトです。

A WebVTT 行キュー設定は、次のコンポーネントを与えられた順序で含みます：

文字列 "line" を WebVTT キュー設定名として。
U+003A コロン文字 (:)。
以下を WebVTT キュー設定値として:
1. オフセット値、いずれか：
  ビデオビューポートに対する特定のオフセットを表す場合
  
  WebVTT パーセンテージ。
  
  または行番号を表す場合
  1. 任意で U+002D ハイフン文字 (-)。
  2. 1 つ以上の ASCII 数字。
2. 任意の揃え値、次のコンポーネントから構成される可能性があります：
  1. U+002C コンマ文字 (,)
  2. 次の文字列のいずれか："start"、"center"、"end"

A WebVTT 行キュー設定は、書字方向に直交する方向におけるビデオビューポート端からのキューボックスのオフセットを設定します。水平キューの場合、これはビデオビューポートの上端からの垂直オフセットを意味し、垂直キューの場合は水平方向のオフセットです。オフセットは開始、中央、または終了のどれに対するものであるかは WebVTT キュー行揃えの値によります（デフォルトは start）。オフセットは、関連する書字モード依存のビデオビューポート寸法のパーセンテージ、または行番号で指定できます。行番号はキューの最初の行のサイズに基づきます。正の行番号はビデオビューポートの開始から数え（最初の行は 0 番）、負の行番号はビデオビューポートの終端から数えます（最後の行は −1 番）。

A WebVTT ポジションキュー設定は、次のコンポーネントを与えられた順序で含みます：

文字列 "position" を WebVTT キュー設定名として。
U+003A コロン文字 (:)。
以下を WebVTT キュー設定値として:
1. 位置値：WebVTT パーセンテージ。
2. 任意の揃え値、次のコンポーネントから構成されます：
  1. U+002C コンマ文字 (,)
  2. 次の文字列のいずれか："line-left"、"center"、"line-right"

A WebVTT ポジションキュー設定は、WebVTT 行キュー設定に直交する方向でのキューボックスの位置（インデント）を設定します。水平キューではこれは水平方向の位置です。キュー位置はビデオビューポートのパーセンテージで与えられます。位置指定はキューボックスの line-left、center、または line-right に対して行われ、これはキューの計算済み位置揃え（computed position alignment）によって決まり、WebVTT ポジションキュー設定により上書きされます。

A WebVTT サイズキュー設定は、次のコンポーネントを与えられた順序で含みます：

文字列 "size" を WebVTT キュー設定名として。
U+003A コロン文字 (:)。
以下を WebVTT キュー設定値として：WebVTT パーセンテージ。

A WebVTT サイズキュー設定は、WebVTT ポジションキュー設定と同じ方向におけるキューボックスのサイズを設定します。水平キューの場合、これはキューボックスの幅です。ビデオビューポートの幅に対するパーセンテージで与えられます。

A WebVTT 揃え（アライン）キュー設定は、次のコンポーネントを与えられた順序で含みます：

文字列 "align" を WebVTT キュー設定名として。
U+003A コロン文字 (:)。
次の文字列のいずれかを WebVTT キュー設定値として："start", "center", "end", "left", "right"

A WebVTT 揃えキュー設定は、キュー内のテキストの揃えを設定します。"start" と "end" のキーワードは、キューテキスト行の基底方向に相対的です。左から右への英語テキストでは "start" は左揃えを意味します。

A WebVTT リージョンキュー設定は、次のコンポーネントを与えられた順序で含みます：

文字列 "region" を WebVTT キュー設定名として。
U+003A コロン文字 (:)。
以下を WebVTT キュー設定値として：WebVTT リージョン識別子。

A WebVTT リージョンキュー設定は、リージョンの識別子を参照することでキューをそのリージョンの一部にするよう構成します。ただし、キューに "vertical"、"line"、または "size" のキュー設定がある場合は除きます。キューがリージョンの一部である場合、その "position" および "align" のキュー設定は、ラインボックスをリージョンボックスに対して適用し、キューボックスの幅と高さはビューポート寸法ではなくリージョン寸法に対して計算されます。

4.5. キューシーケンスの特性

4.5.1. 入れ子のキューのみを使用する WebVTT ファイル

A WebVTT ファイルのすべてのキューが次の規則に従う場合、そのファイルは入れ子のキューのみを使用する WebVTT ファイルと呼ばれます：

任意の二つのキュー cue1 と cue2 が、それぞれ開始および終了時刻オフセット (x1, y1) および (x2, y2) を持つとき、

かつ cue1 が cue2 の完全に内側にある、すなわち x1 >= x2 かつ y1 <= y2
または cue1 が cue2 を完全に含む、すなわち x1 <= x2 かつ y1 >= y2。

次の例はこの定義に一致します：

WEBVTT

00:00.000 --> 01:24.000
Introduction

00:00.000 --> 00:44.000
Topics

00:44.000 --> 01:19.000
Presenters

01:24.000 --> 05:00.000
Scrolling Effects

01:35.000 --> 03:00.000
Achim’s Demo

03:00.000 --> 05:00.000
Timeline Panel

この WebVTT ファイルのキューをツリー構造として表現できることに注目してください：

WebVTT file
- Introduction
  - Topics
  - Presenters
- Scrolling Effects
  - Achim’s Demo
  - Timeline Panesl

ファイルにこのように表現できないキューが含まれている場合、それらは入れ子のキューのみを使用する WebVTT ファイルの定義に一致しません。例えば：

WEBVTT

00:00.000 --> 01:00.000
The First Minute

00:30.000 --> 01:30.000
The Final Minute

この 90 秒の例では、二つのキューは部分的に重なり、最初のキューが終了する前に 2 番目が開始し、2 番目が終了する前に最初が終了します。したがって、これは入れ子のキューのみを使用する WebVTT ファイルではありません。

4.6. WebVTT ファイルの種類

WebVTT ファイルの構文定義は、さまざまなキューを混在させた多様な WebVTT ファイルの作成を可能にします。しかし、通常作成されるのは WebVTT ファイル型のごく一部です。

適合性チェッカーは、WebVTT ファイルを検証する際に、これらの型を検証するために構文チェックを制限するオプションを提供することがあります。

4.6.1. メタデータコンテンツを使用する WebVTT ファイル

A WebVTT ファイル whose cues all have a cue payload that is WebVTT metadata text is said to be a WebVTT file using metadata content.

4.6.2. チャプタタイトルテキストを使用する WebVTT ファイル

A WebVTT file using chapter title text is a WebVTT file using only nested cues whose cues all have a cue payload that is WebVTT chapter title text.

4.6.3. キャプションまたは字幕キューテキストを使用する WebVTT ファイル

A WebVTT ファイル whose cues all have a cue payload that is WebVTT caption or subtitle cue text is said to be a WebVTT file using caption or subtitle cue text.

5. WebVTT キャプションまたは字幕のキュー構成要素のデフォルトクラス

多くのキャプション形式は、テキストの限られたサブセットの色や背景色を指定する簡易な方法を持っています。したがって、WebVTT 仕様は、著者が色付きテキストやテキスト背景を標準的な方法でマーキングできるように、キュー構成要素のクラス名のデフォルトセットを提供します。

CSS スタイルシートをサポートするユーザーエージェントは、ユーザーエージェントスタイルシートを追加することでこのセクションを実装することができます。

5.1. デフォルトのテキスト色

WebVTT キャプションまたは字幕のキュー構成要素が、下の表の各行の第1列にあるものと一致する 1 個以上のクラス名を持つ場合、それらは表の第2列にある値に従って、color プロパティをプレゼンテーショナルヒントとして設定しなければなりません：

クラス名	color 値
`white`	rgba(255,255,255,1)
`lime`	rgba(0,255,0,1)
`cyan`	rgba(0,255,255,1)
`red`	rgba(255,0,0,1)
`yellow`	rgba(255,255,0,1)
`magenta`	rgba(255,0,255,1)
`blue`	rgba(0,0,255,1)
`black`	rgba(0,0,0,1)

キャプション背景について混乱しないでください: クラス lime の色は、伝統的にキャプショニングで「green」と呼ばれて使われてきた色です（例: 608/708）。

デフォルトの暗い背景上では blue と black のクラスを使用しないでください。それらは読みづらいテキストになります。一般に、色のコントラストについては WCAG のガイダンスを参照し、テキスト色、背景色、そしてビデオの色を考慮してください [WCAG20]。

5.2. デフォルトのテキスト背景色

WebVTT キャプションまたは字幕のキュー構成要素が、下の表の各行の第1列にあるものと一致する 1 個以上のクラス名を持つ場合、それらは表の第2列にある値に従って、background-color プロパティをプレゼンテーショナルヒントとして設定しなければなりません：

クラス名	background 値
`bg_white`	rgba(255,255,255,1)
`bg_lime`	rgba(0,255,0,1)
`bg_cyan`	rgba(0,255,255,1)
`bg_red`	rgba(255,0,0,1)
`bg_yellow`	rgba(255,255,0,1)
`bg_magenta`	rgba(255,0,255,1)
`bg_blue`	rgba(0,0,255,1)
`bg_black`	rgba(0,0,0,1)

クラス bg_lime の色は、伝統的にキャプショニングで「green」として使われてきた色です（例: 608/708）。

色および背景クラスのカスケードを決定する目的では、出現順がクラスのカスケードを決定します。

この例はクラスの使用方法を示します。

WEBVTT

02:00.000 --> 02:05.000
<c.yellow.bg_blue>This is yellow text on a blue background</c>

04:00.000 --> 04:05.000
<c.yellow.bg_blue.magenta.bg_black>This is magenta text on a black background</c>

デフォルトクラスは著者により変更可能です。例えば ::cue(.yellow) {color:cyan} とすれば、すべての .yellow クラスのテキストをシアンに変更します。

6. 解析

WebVTT ファイルの解析は、キャプション、字幕、チャプター、メタデータなど、すべての種類の WebVTT ファイルで同じです。チャプターやメタデータのファイルではほとんどの手順がスキップされます。

6.1. WebVTT ファイルの解析

A WebVTT パーサーは、入力バイトストリーム、テキストトラックのキューリスト output、および CSS スタイルシートのコレクション stylesheets を受け取り、UTF-8 デコードアルゴリズムを使用してバイトストリームをデコードし、次に以下の WebVTT パーサーアルゴリズムに従って得られた文字列を解析しなければなりません。これにより、WebVTT キューが output に追加され、CSS スタイルシートが stylesheets に追加されます。[RFC3629]

特に変換および解析の手順は、通常非同期で実行され、リソースのダウンロードに応じて入力バイトストリームが段階的に更新されます。この動作はインクリメンタル WebVTT パーサーと呼ばれます。

A WebVTT パーサーは、提供されたバイトストリームを解析する前にファイル署名を検証します。ストリームにこの WebVTT ファイル署名が含まれていない場合、パーサーは中止します。

WebVTT パーサーアルゴリズムは次の通りです：

input を、Unicode に変換した後、次の変換を適用した解析対象の文字列とします：
- すべての U+0000 NULL 文字を U+FFFD REPLACEMENT CHARACTER に置き換える。
- 各 U+000D キャリッジリターン U+000A ラインフィード (CRLF) の文字ペアを、単一の U+000A ラインフィード (LF) 文字に置き換える。
- 残りのすべての U+000D キャリッジリターン文字を U+000A ラインフィード (LF) 文字に置き換える。
position を input 内を指すポインタとし、初期は文字列の先頭を指すものとします。インクリメンタル WebVTT パーサーでは、このアルゴリズム（またはそれが使用する他のアルゴリズム）が position ポインタを移動させるとき、ユーザーエージェントはアルゴリズムが input の末尾を越えて読み取らないよう、バイトストリームから適切な追加文字が input に追加されるのを待たなければなりません。バイトストリームが終了してすべての文字が input に追加された後は、アルゴリズムの指示に従って position ポインタを input の末尾以降に移動できるようになります。
seen cue を false とする。
input の長さが 6 文字未満であれば、これらの手順を中止します。ファイルは正しい WebVTT ファイル署名で始まっておらず、正常に処理されませんでした。
input の長さがちょうど 6 文字だが "WEBVTT" と完全に一致しない場合、これらの手順を中止します。ファイルは正しい WebVTT ファイル署名で始まっておらず、正常に処理されませんでした。
input が 6 文字より長い場合に、先頭 6 文字が "WEBVTT" と完全に一致しない、または 7 文字目が U+0020 スペース文字、U+0009 タブ文字、または U+000A ラインフィード (LF) 文字でない場合、これらの手順を中止します。ファイルは正しい WebVTT ファイル署名で始まっておらず、正常に処理されませんでした。
U+000A ラインフィード (LF) でないコードポイントの列を収集する。
position が input の末尾を過ぎている場合、これらの手順を中止します。ファイルは正常に処理されましたが、有用なデータが含まれていないため WebVTT キューは output に追加されませんでした。
position の指す文字は U+000A ラインフィード (LF) です。position を input の次の文字に進めます。
position が input の末尾を過ぎている場合、これらの手順を中止します。ファイルは正常に処理されましたが、有用なデータが含まれていないため WebVTT キューは output に追加されませんでした。
ヘッダー：もし position の指す文字が U+000A ラインフィード (LF) でない場合、in header フラグをセットして WebVTT ブロックを収集します。そうでなければ position を input の次の文字に進めます。
U+000A ラインフィード (LF) 文字の連続を収集する。
regions を空のテキストトラックのリージョンリストとする。
ブロックループ：position が input の末尾を過ぎていない間、次を繰り返す：
1. WebVTT ブロックを収集し、その戻り値を block とする。
2. block が WebVTT キューの場合、block をテキストトラックのキューリスト output に追加する。
3. それ以外で block が CSS スタイルシートの場合、block を stylesheets に追加する。
4. それ以外で block が WebVTT リージョンオブジェクトの場合、block を regions に追加する。
5. U+000A ラインフィード (LF) 文字の連続を収集する。
終了：ファイルは終了しています。これらの手順を中止します。WebVTT パーサーは終了しました。ファイルは正常に処理されました。

上のアルゴリズムで WebVTT ブロックを収集（オプションで in header フラグ付き）すると指示された場合、ユーザーエージェントは次の手順を実行しなければなりません：

input、position、seen cue、および regions は、この手順を呼び出したアルゴリズムの同名の変数と同じものとする。
line count をゼロとする。
previous position を position とする。
line を空文字列とする。
buffer を空文字列とする。
seen EOF を false とする。
seen arrow を false とする。
cue を null とする。
stylesheet を null とする。
region を null とする。
ループ：以下の副手順をループで実行する：
1. U+000A ラインフィード (LF) でないコードポイントの列を収集し、それを line とする（存在する場合）。
2. line count を 1 増やす。
3. position が input の末尾を過ぎている場合、seen EOF を true とする。そうでなければ、position の指す文字は U+000A ラインフィード (LF) なので、position を input の次の文字に進める。
4. line が三文字の部分文字列 "-->"（U+002D HYPHEN-MINUS, U+002D HYPHEN-MINUS, U+003E GREATER-THAN SIGN）を含む場合、次の副手順を実行する：
  1. in header が設定されておらず、次のいずれかの条件が true の場合：
    - line count が 1 である
    - line count が 2 で seen arrow が false である
    …次の副手順を実行する：
    1. seen arrow を true とする。
    2. previous position を position とする。
    3. キュー生成：cue を新しい WebVTT キューとし、次のように初期化する：
      1. cue のテキストトラックキュー識別子を buffer とする。
      2. cue の pause-on-exit フラグを false とする。
      3. cue の WebVTT キューリージョンを null とする。
      4. cue の書字方向を horizontal とする。
      5. cue の snap-to-lines フラグを true とする。
      6. cue の line を auto とする。
      7. cue の line alignment を start alignment とする。
      8. cue の position を auto とする。
      9. cue の position alignment を auto とする。
      10. cue の size を 100 とする。
      11. cue の text alignment を center alignment とする。
      12. cue の cue text を空文字列とする。
    4. WebVTT キューのタイミングと設定を収集を line から実行し、regions を cue のために使用する。失敗した場合は cue を null にする。そうでなければ buffer を空文字列にし、seen cue を true にする。
    それ以外の場合は、position を previous position に戻し、ループ を抜ける。
5. それ以外で line が空文字列の場合、ループ を抜ける。
6. それ以外の場合、次の副手順を実行する：
  1. in header が設定されておらず、かつ line count が 2 の場合、次の副手順を実行する：
    1. seen cue が false で buffer が "STYLE"（U+0053 LATIN CAPITAL LETTER S, U+0054 LATIN CAPITAL LETTER T, U+0059 LATIN CAPITAL LETTER Y, U+004C LATIN CAPITAL LETTER L, U+0045 LATIN CAPITAL LETTER E）という部分文字列で始まり、buffer の残りの文字がすべて ASCII 空白文字である場合、次の副手順を実行する：
      1. stylesheet を CSS スタイルシートを作成した結果とし、次のプロパティを持たせる：[CSSOM]
        
        location
        null
        parent CSS style sheet
        null
        owner node
        null
        owner CSS rule
        null
        media
        空文字列
        title
        空文字列
        alternate flag
        未設定
        origin-clean flag
        設定済み
      2. buffer を空文字列にする。
    2. それ以外で seen cue が false で buffer が "REGION"（U+0052 LATIN CAPITAL LETTER R, U+0045 LATIN CAPITAL LETTER E, U+0047 LATIN CAPITAL LETTER G, U+0049 LATIN CAPITAL LETTER I, U+004F LATIN CAPITAL LETTER O, U+004E LATIN CAPITAL LETTER N）という部分文字列で始まり、残りの文字がすべて ASCII 空白文字である場合、次の副手順を実行する：
      1. リージョン生成：region を新しい WebVTT リージョンとする。
      2. region の識別子を空文字列とする。
      3. region の幅を 100 とする。
      4. region の行数を 3 とする。
      5. region のアンカーポイントを (0,100) とする。
      6. region のビューポートアンカーポイントを (0,100) とする。
      7. region のスクロール値を none とする。
      8. buffer を空文字列にする。
  2. buffer が空文字列でない場合、U+000A ラインフィード (LF) 文字を buffer に追加する。
  3. line を buffer に追加する。
  4. previous position を position とする。
7. seen EOF が true の場合、ループ を抜ける。
cue が null でない場合、cue の cue text を buffer とし、cue を返す。
そうでなく、stylesheet が null でない場合、buffer からスタイルシートを解析する。もしルールのリストが返されたら、そのリストを stylesheet の CSS ルールとして割り当てる。そうでなければ stylesheet の CSS ルールを空リストにする。[CSSOM] [CSS-SYNTAX-3] 最後に stylesheet を返す。
そうでなく、region が null でない場合、buffer から WebVTT リージョン設定を収集し、結果を region に格納する。region から WebVTT Region Object を構築し、それを返す。
それ以外の場合、null を返す。

6.2. WebVTT リージョン設定の解析

WebVTT パーサーアルゴリズムが、文字列 input から WebVTT リージョン設定を収集すると指定した場合、ユーザーエージェントは次のアルゴリズムを実行しなければならない。

WebVTT リージョンオブジェクトは、WebVTT リージョンを表現する概念的な構造であり、WebVTT ノードオブジェクトのリストのルートノードとして使用される。このアルゴリズムは WebVTT リージョンオブジェクトのリストを返す。

settings を、 input を空白で分割した結果とする。
リスト settings の各トークン setting について、次の副手順を実行する：
1. setting に U+003A COLON 文字 (:) が含まれていない場合、または setting 内で最初の U+003A COLON 文字 (:) が先頭または末尾の文字である場合は、next setting でラベル付けされた手順にジャンプする。
2. name を、その文字列内で最初の U+003A COLON 文字 (:) の直前までの先頭部分文字列とする。
3. value を、その文字列内で最初の U+003A COLON 文字 (:) の直後からの末尾部分文字列とする。
4. name の値に応じて該当する副手順を実行する：
  name が "id" と大文字小文字を区別して一致する場合
  
  region の識別子を value とする。
  
  それ以外で name が "width" と大文字小文字を区別して一致する場合
  
  パーセンテージ文字列の解析を value に対して行い、percentage が得られた場合、region の領域幅を percentage とする。
  
  それ以外で name が "lines" と大文字小文字を区別して一致する場合
  1. value に ASCII 数字以外の文字が含まれる場合、next setting にジャンプする。
  2. value を整数として解釈し、その数値を number とする。
  3. region のリージョン行数を number とする。
  それ以外で name が "regionanchor" と大文字小文字を区別して一致する場合
  1. value に U+002C カンマ (,) が含まれていない場合、next setting にジャンプする。
  2. anchorX を value の最初の U+002C カンマ (,) の直前までの先頭部分文字列とする。
  3. anchorY を value の最初の U+002C カンマ (,) の直後からの末尾部分文字列とする。
  4. パーセンテージ文字列の解析を anchorX またはパーセンテージ文字列の解析を anchorY に対して行った結果 percentage を返さない場合、next setting にジャンプする。
  5. region のアンカーポイントを anchorX および anchorY から計算した percentage のタプルとする。
  それ以外で name が "viewportanchor" と大文字小文字を区別して一致する場合
  1. value に U+002C カンマ (,) が含まれていない場合、next setting にジャンプする。
  2. viewportanchorX を value の最初の U+002C カンマ (,) の直前までの先頭部分文字列とする。
  3. viewportanchorY を value の最初の U+002C カンマ (,) の直後からの末尾部分文字列とする。
  4. パーセンテージ文字列の解析を viewportanchorX またはパーセンテージ文字列の解析を viewportanchorY に対して行った結果 percentage を返さない場合、next setting にジャンプする。
  5. region のビューポートアンカーポイントを viewportanchorX および viewportanchorY から計算した percentage のタプルとする。
  それ以外で name が "scroll" と大文字小文字を区別して一致する場合
  1. value が "up" と大文字小文字を区別して一致する場合、region のスクロール値を up とする。
5. Next setting: 次の setting があれば続ける。

パーセンテージ文字列の解析の規則は次の通り。0 から 100 の範囲の数値、または何も返さない。アルゴリズムで「失敗する」とあるときは、その時点で中止して何も返さないことを意味する。

input を解析対象の文字列とする。
input が WebVTT パーセンテージの構文に一致しなければ、失敗する。
input の最後の文字を削除する。
percentage を浮動小数点数値のパース規則を用いて input から計算した結果とする。[HTML51]
percentage がエラーか、0 未満または 100 より大きい場合、失敗する。
percentage を返す。

6.3. WebVTT キューのタイミングおよび設定の解析

上記アルゴリズムで WebVTT キューのタイミングおよび設定の収集を、文字列 input からテキストトラックのリージョンリスト regions を使って WebVTT キュー cue のために実行すると指定された場合、ユーザーエージェントは次のアルゴリズムを実行しなければならない。

input を解析対象の文字列とする。
position を input の先頭を指すポインタとする。
空白をスキップする。
WebVTT タイムスタンプを収集する。そのアルゴリズムが失敗した場合、これらの手順を中止し、失敗を返す。そうでなければ、cue のテキストトラックキュー開始時刻を収集した時刻とする。
空白をスキップする。
position の指す文字が U+002D ハイフンマイナス（-）でなければ、これらの手順を中止し失敗を返す。そうでなければ position を 1 文字進める。
position の指す文字が U+002D ハイフンマイナス（-）でなければ、これらの手順を中止し失敗を返す。そうでなければ position を 1 文字進める。
position の指す文字が U+003E 大なり記号（>）でなければ、これらの手順を中止し失敗を返す。そうでなければ position を 1 文字進める。
空白をスキップする。
WebVTT タイムスタンプを収集する。そのアルゴリズムが失敗した場合、これらの手順を中止し、失敗を返す。そうでなければ、cue のテキストトラックキュー終了時刻を収集した時刻とする。
remainder を input の position から後ろの末尾部分文字列とする。
WebVTT キューの設定を解析を remainder から regions を使って cue のために実行する。

ユーザーエージェントが WebVTT キューの設定を解析を input からテキストトラックのリージョンリスト regions を使ってテキストトラックキュー cue のために実行するとき、次の手順を実行する：

settings を input を空白で分割した結果とする。
リスト settings の各トークン setting について、次の副手順を実行する：
1. setting に U+003A コロン (:) が含まれていない、または最初の U+003A コロンの位置が先頭または末尾であれば、next setting のラベルの手順にジャンプ。
2. name を最初の U+003A コロンの直前までの部分文字列とする。
3. value を最初の U+003A コロンの直後から末尾までの部分文字列とする。
4. name の値に応じて該当する副手順を実行する：
  name が "region" と大文字小文字を区別して一致する場合
  1. cue の WebVTT キューリージョンを regions 内で WebVTT リージョンのうち識別子 WebVTT リージョン識別子が value である最後のもの（なければ null）とする。
  name が "vertical" と大文字小文字を区別して一致する場合
  1. value が "rl" と大文字小文字区別で一致する場合、cue の書字方向を vertical growing left とする。
  2. それ以外で value が "lr" と大文字小文字区別で一致する場合、cue の書字方向を vertical growing right とする。
  3. cue の書字方向が横書きでない場合は、cue の WebVTT キューリージョンを null（縦書きリージョンはない）とする。
  name が "line" と大文字小文字を区別して一致する場合
  1. value に U+002C カンマ (,) があれば、linepos をその直前まで、linealign を直後から末尾までの部分文字列とする。
  2. それ以外なら linepos を value の全文字列、linealign を null とする。
  3. linepos に ASCII 数字が一つもなければ、next setting にジャンプ。
  4. linepos の末尾が U+0025 パーセント記号 (%) の場合
    
    パーセンテージ文字列の解析を linepos で行い、失敗しなければ返された値を number とする。失敗なら next setting にジャンプ。
    
    それ以外の場合
    
    linepos に U+002D（-）・ASCII数字・U+002E ドット (.) 以外の文字があれば next setting。
    
    linepos の 2 文字目以降に U+002D（-）があれば next setting。
    
    U+002E ドット (.) が2つ以上なら next setting。
    
    U+002E ドットの前後が ASCII数字でない、または先頭または末尾なら next setting。
    
    linepos を浮動小数点数値のパース規則で解釈し number とする。[HTML51]
    
    number がエラーなら next setting。
  5. linealign が "start" と大文字小文字区別で一致する場合、cue の line alignment を start alignment とする。
  6. それ以外で linealign が "center" なら cue の line alignment を center alignment とする。
  7. それ以外で linealign が "end" なら cue の line alignment を end alignment とする。
  8. 他に linealign が null でなければ next setting。
  9. cue の WebVTT キュー行を number とする。
  10. linepos の末尾が U+0025 パーセント記号 (%) なら cue の snap-to-lines フラグを false、それ以外は true。
  11. cue の WebVTT キュー行が auto でなければ cue の WebVTT キューリージョンを null（明示的 offset で region 脱落）とする。
  name が "position" と大文字小文字を区別して一致する場合
  1. value に U+002C カンマ (,) があれば colpos を直前まで、colalign を直後から末尾までとする。
  2. なければ colpos を全文字列、colalign を null とする。
  3. パーセンテージ文字列の解析を colpos で実行し失敗しなければ number に返し値を格納、失敗なら next setting（position の値は auto のまま）。
  4. colalign が "line-left" なら cue の position alignment を line-left alignment とする。
  5. そうでなく colalign が "center" なら cue の position alignment を center alignment とする。
  6. そうでなく colalign が "line-right" なら cue の position alignment を line-right alignment とする。
  7. 他に colalign が null でなければ next setting。
  8. cue の position を number とする。
  name が "size" と大文字小文字を区別して一致する場合
  1. パーセンテージ文字列の解析を value で行い、失敗しなければ number を返り値、失敗なら next setting。
  2. cue のサイズを number とする。
  3. cue のサイズが 100 でない場合、cue の WebVTT キューリージョンを null（明示的サイズ指定で region 脱落）とする。
  name が "align" と大文字小文字を区別して一致する場合
  1. value が "start" なら cue のテキストアラインメントを start alignment とする。
  2. value が "center" なら cue のテキストアラインメントを center alignment とする。
  3. value が "end" なら cue のテキストアラインメントを end alignment とする。
  4. value が "left" なら cue のテキストアラインメントを left alignment とする。
  5. value が "right" なら cue のテキストアラインメントを right alignment とする。
5. Next setting: 次のトークンがあれば続ける。

この仕様がユーザーエージェントに WebVTT タイムスタンプを収集させる場合、ユーザーエージェントは次の手順を実行しなければならない：

input および position は、これを呼び出したアルゴリズムの同名の変数を使う。
most significant units を分とする。
position が input の末尾を過ぎている場合、エラーを返し中止する。
position の指す文字が ASCII数字でなければエラーで中止。
ASCII 数字の連続を収集し string をその部分文字列とする。
string を 10 進整数として解釈し value₁ とする。
string の長さがちょうど 2 でない、または value₁ が 59 より大きければ most significant units を時とする。
position が input の末尾を越えている、または指す文字が U+003A コロン (:) でなければエラーで中止。そうでなければ position を 1 文字進める。
ASCII 数字の連続を収集し string をその部分文字列とする。
string の長さがちょうど 2 でない場合はエラーで中止。
string を 10 進整数として解釈し value₂ とする。
most significant units が時の場合、またはまだ position が input の末尾を越えず、指す文字が U+003A コロン (:) の場合、副手順を実行する：
1. position が input の末尾を越えている、または指す文字が U+003A コロン (:) でなければエラーで中止。そうでなければ position を 1 文字進める。
2. ASCII 数字の連続を収集し string をその部分文字列とする。
3. string の長さがちょうど 2 でないならエラーで中止。
4. string を 10 進整数として value₃ とする。
そうでなければ（most significant units が時でない、かつ position が input の末尾を越えているか指す文字が U+003A コロン (:) でない）、value₃ を value₂ の値、value₂ を value₁ の値、value₁ を 0 とする。
position が input の末尾を越えている、または指す文字が U+002E ピリオド (.) でなければエラーで中止。そうでなければ position を 1 文字進める。
ASCII 数字の連続を収集し string をその部分文字列とする。
string の長さがちょうど 3 でないならエラーで中止。
string を 10 進整数として解釈し value₄ とする。
value₂・value₃ が 59 より大きければエラーで中止。
result を value₁×60×60 + value₂×60 + value₃ + value₄/1000 とする。
result を返す。

6.4. WebVTT キューテキスト解析ルール

WebVTTノードオブジェクトは、キューテキストの構成要素を表すための概念的な構成要素であり、その処理が基礎となる構文に依存せずに記述できるようになります。

WebVTTノードオブジェクトには2つの大きなクラスがあります：WebVTT内部ノードオブジェクトと WebVTTリーフノードオブジェクトです。

WebVTT内部ノードオブジェクトは、更にWebVTTノードオブジェクトを含むことができます。これはHTMLやDOMの要素に概念的に似ています。WebVTT内部ノードオブジェクトは、子のWebVTTノードオブジェクトの順序付きリストを持ちます。WebVTT内部ノードオブジェクトはこれら子の親です。循環は発生せず、親子の関係が木構造となります。WebVTT内部ノードオブジェクトは、クラス名（適用クラス）の順序付きリストおよび適用言語（BCP 47 言語タグとして解釈する）も持ちます。 [BCP47]

ユーザーエージェントは、有効または正しい形式でなくても適用言語として言語タグを追加することがあります。[BCP47]

いくつかの具体的なWebVTT内部ノードオブジェクトのクラスがあります：

WebVTTノードオブジェクトのリスト: これはWebVTTノードオブジェクトの木のルートノードとして使われます。
WebVTTクラスオブジェクト: これはキューテキストにおけるWebVTT キュークラススパンのテキスト区間を表現し、太字や斜体などさらなる意味を持たせることなく、適用クラスの注釈を付与する用途で使われます。
WebVTTイタリックオブジェクト: これはWebVTT 字幕またはキャプションキューテキスト内のWebVTTキュー斜体スパン区間を表します。
WebVTTボールドオブジェクト: これはWebVTT 字幕またはキャプションキューテキスト内のWebVTTキュー太字スパン区間を表します。
WebVTT下線オブジェクト: これはWebVTT 字幕またはキャプションキューテキスト内のWebVTTキュー下線スパン区間を表します。
WebVTTルビオブジェクト: これはWebVTT 字幕またはキャプションキューテキスト内のWebVTTキュールビスパン区間を表します。
WebVTTルビテキストオブジェクト: これはWebVTT 字幕またはキャプションキューテキスト内のWebVTTキュールビテキストスパン区間を表します。
WebVTTボイスオブジェクト: これはWebVTT 字幕またはキャプションキューテキスト内の特定の声に紐付いたテキスト区間（WebVTT キュー声スパン）を表します。WebVTTボイスオブジェクトは声の名前を値として持ちます。
WebVTT言語オブジェクト: これはWebVTT 字幕またはキャプションキューテキスト内の一部で、周囲と異なる適用言語になる可能性があるキュー部分に注釈を付けるために使われます（斜体・太字等の意味付与ではない）。

WebVTTリーフノードオブジェクトは、データ（テキスト等）を含み、子のWebVTTノードオブジェクトは含めません。

WebVTTリーフノードオブジェクトには2つの具体的なクラスがあります：

WebVTTテキストオブジェクト: テキスト断片。WebVTTテキストオブジェクトは自分が表すテキスト値を持ちます。
WebVTTタイムスタンプオブジェクト: タイムスタンプ。WebVTTタイムスタンプオブジェクトは、そのタイムスタンプが表す秒および小数点以下の時刻値を持ちます。

WebVTTキューテキスト解析ルールは、次のアルゴリズムで構成されます。入力はinputという文字列（WebVTT字幕またはキャプションキューテキストを含むとみなす）と、任意のフォールバック言語languageです。このアルゴリズムはWebVTTノードオブジェクトのリストを返します。

inputを解析対象の文字列とする。
positionをinputの先頭を指すポインタとする。
resultを空のWebVTTノードオブジェクトのリストとする。
currentをWebVTT内部ノードオブジェクトのresultとする。
language stackを空の言語タグのスタックとする。
もしlanguageが設定されていれば、resultの適用言語をlanguageに設定し、さらにlanguageをlanguage stackにプッシュする。
Loop: positionがinputの末尾を過ぎていれば、resultを返してここで手順終了。
tokenにWebVTTキューテキストトークナイザの実行結果を入れる。
tokenの型に応じて：
もしtokenが文字列
1. 値がその文字列トークンtokenの値であるWebVTTテキストオブジェクトを作成する。
2. 新たに作成したWebVTTテキストオブジェクトをcurrentに追加する。
もしtokenが開始タグ
開始タグトークンtokenの処理方法はこのタグ名に応じて以下の通り：

タグ名が"c"なら

attachしWebVTTクラスオブジェクトを作成

タグ名が"i"なら

attachしWebVTTイタリックオブジェクトを作成

タグ名が"b"なら

attachしWebVTTボールドオブジェクトを作成

タグ名が"u"なら

attachしWebVTT下線オブジェクトを作成

タグ名が"ruby"なら

attachしWebVTTルビオブジェクトを作成

タグ名が"rt"なら

もしcurrentがWebVTTルビオブジェクトであればattachでWebVTTルビテキストオブジェクトを作成

タグ名が"v"なら

attachしWebVTTボイスオブジェクトを作成し、トークンの注釈文字列（またはなければ空文字）を値に設定

タグ名が"lang"なら

トークンの注釈文字列（またはなければ空文字）をlanguage stackにプッシュし、attachでWebVTT言語オブジェクトを作成

その他

このトークンは無視する。

上記手順で特定の具象クラスのWebVTT内部ノードオブジェクトをattachと指示された場合、ユーザーエージェントは：
1. 該当クラスの新しいWebVTT内部ノードオブジェクトを作成する。
2. 新オブジェクトの適用クラスリストを、トークンのクラス一覧（空文字列を除く）に設定する。
3. 新オブジェクトの適用言語を、language stackが空でなければそのトップエントリに設定する。
4. 新ノードオブジェクトをcurrentに追加する。
5. currentを新ノードオブジェクトにする。
もしtokenが終了タグ
次のいずれかの場合、currentをその親ノードへ：
- 終了タグトークンtokenのタグ名が"c"でcurrentがWebVTTクラスオブジェクトの時
- 終了タグトークンtokenのタグ名が"i"でcurrentがWebVTTイタリックオブジェクトの時
- 終了タグトークンtokenのタグ名が"b"でcurrentがWebVTTボールドオブジェクトの時
- 終了タグトークンtokenのタグ名が"u"でcurrentがWebVTT下線オブジェクトの時
- 終了タグトークンtokenのタグ名が"ruby"でcurrentがWebVTTルビオブジェクトの時
- 終了タグトークンtokenのタグ名が"rt"でcurrentがWebVTTルビテキストオブジェクトの時
- 終了タグトークンtokenのタグ名が"v"でcurrentがWebVTTボイスオブジェクトの時
また、終了タグトークンtokenのタグ名が"lang"でcurrentがWebVTT言語オブジェクトなら、currentをその親ノードにし、language stackからトップの値をポップする。

さらに、終了タグトークンtokenのタグ名が"ruby"でcurrentがWebVTTルビテキストオブジェクトなら、currentをその親ノードの親ノードにする。

それ以外の場合、このトークンは無視する。
もしtokenがタイムスタンプタグ
1. inputにタグ値を設定
2. positionをinputの先頭を指すポインタに
3. WebVTTタイムスタンプを収集実行
4. このアルゴリズムが失敗せず、かつpositionがinputの末尾を指していれば、収集した時刻を値とするWebVTTタイムスタンプオブジェクトを作成しcurrentに追加する。
  
  それ以外の場合、このトークンは無視する。
loopの指示へジャンプ。

WebVTT キューテキストトークナイザは次の通りです。トークンを出力します。トークンは、文字列（値は文字の並び）、開始タグ（タグ名、クラスのリスト、オプションで注釈）、終了タグ（タグ名）、またはタイムスタンプタグ（タグ値）のいずれかです。

input と position を、これを呼び出したアルゴリズムで使用されている同名の変数と同じものにする。
tokenizer state を WebVTT データステートにする。
result を空文字列にする。
classes を空リストにする。
ループ：position が input の末尾を過ぎていれば c を EOF マーカーにする。そうでなければ c を position が指す input 内の文字にする。

EOF マーカーは Unicode 文字ではなく、トークナイザを終了するために使用されます。
tokenizer state の示す状態へジャンプ：

WebVTTデータステート

c の値に従って分岐：

U+0026 アンパサンド (&)

tokenizer state をデータステート内のHTML文字参照にし、ラベルnextへジャンプ。

U+003C 不等号 (<)

result が空文字列なら、tokenizer state を WebVTTタグステートにし、next へ。

そうでなければ、値が result の文字列トークンを返し、この手順を中止。

EOFマーカー

値が result の文字列トークンを返し、この手順を中止。

その他

c を result に追加し、next へ。

データステート内のHTML文字参照

HTML 文字参照を消費しようとし、追加許可文字は指定しない。

何も返らなければ U+0026 アンパサンド (&) を result に追加。

返っていれば、返された文字トークンのデータを result に追加。

いずれにせよ、tokenizer state を WebVTTデータステートにしてnextへ。

WebVTTタグステート

c の値で分岐：

U+0009 タブ, U+000A LF, U+000C FF, U+0020 スペース

tokenizer state を WebVTT開始タグ注釈ステートにし、nextへ。

U+002E ピリオド (.)

tokenizer state を WebVTT開始タグクラスステートにし、nextへ。

U+002F スラッシュ (/)

tokenizer state を WebVTT終了タグステートにし、nextへ。

ASCII数字

result を c に、tokenizer state を WebVTTタイムスタンプタグステートにし、nextへ。

U+003E 大なり記号 (>)

position を input の次の文字に進め、次の "EOFマーカー" エントリへ。

EOFマーカー

タグ名が空、クラスなし、注釈なしの開始タグを返し、手順を中止。

それ以外

result を c にし、tokenizer state を WebVTT開始タグステートにしてnextへ。

WebVTT開始タグステート

c の値で分岐：

U+0009 タブ, U+000C FF, U+0020 スペース

tokenizer state を WebVTT開始タグ注釈ステートにし、nextへ。

U+000A LF

buffer を c に、tokenizer state を WebVTT開始タグ注釈ステートにし、nextへ。

U+002E ピリオド (.)

tokenizer state を WebVTT開始タグクラスステートにし、nextへ。

U+003E 大なり記号 (>)

position を input の次の文字に進め、次の "EOFマーカー" エントリへ。

EOFマーカー

タグ名が result の開始タグ（クラス、注釈無）を返し、手順を中止。

それ以外

c を result に追加し、next へ。

WebVTT開始タグクラスステート

c の値で分岐：

U+0009 タブ, U+000C FF, U+0020 スペース

buffer の値を classes に追加、buffer を空に、tokenizer state を WebVTT開始タグ注釈ステートにしてnextへ。

U+000A LF

buffer の値を classes に追加、buffer を c にし、tokenizer state を WebVTT開始タグ注釈ステートにしてnextへ。

U+002E ピリオド (.)

buffer の値を classes に追加、buffer を空にし、nextへ。

U+003E 大なり記号 (>)

position を input の次の文字に進め、次の "EOFマーカー" エントリへ。

EOFマーカー

buffer の値を classes に追加し、タグ名が result、クラスが classes、注釈なしの開始タグを返して手順を中止。

それ以外

c を buffer に追加し、next。

WebVTT開始タグ注釈ステート

c の値で分岐：

U+0026 アンパサンド (&)

tokenizer state を注釈ステート内のHTML文字参照にしてnextへ。

U+003E 大なり記号 (>)

position を input の次の文字に進め、次の "EOFマーカー" エントリへ。

EOFマーカー

buffer から先頭末尾のASCII空白を削除し、連続するASCII空白はU+0020 SPACE一つに置換して、タグ名が result、クラスclasses、注釈bufferの開始タグを返して手順中止。

それ以外

c を buffer に追加、next。

注釈ステート内のHTML文字参照

HTML 文字参照を消費しようとし、追加許可文字はU+003E大なり記号(>)。

何も返らなければU+0026アンパサンド(&)をbufferに追加。

返っていれば、返された文字トークンのデータをbufferに追加。

いずれにせよ、tokenizer state を WebVTT開始タグ注釈ステートにし、nextへ。

WebVTT終了タグステート

c の値で分岐：

U+003E 大なり記号 (>)

position を input の次の文字に進め、次の "EOFマーカー" エントリへ。

EOFマーカー

タグ名が result の終了タグを返し、この手順を中止。

それ以外

c を result に追加し、next。

WebVTTタイムスタンプタグステート

c の値で分岐：

U+003E 大なり記号 (>)

position を input の次の文字に進め、次の "EOFマーカー" エントリへ。

EOFマーカー

タグ名が result のタイムスタンプタグを返し、この手順を中止。

それ以外

c を result に追加し、nextへ。
next：position を input の次の文字に進める。
ラベルloopへジャンプ。

上記アルゴリズムで HTML 文字参照を消費しようとするとある場合は、HTMLで定義された文字参照の消費を試みることを意味します。[HTML51]

HTML 仕様が「文字を消費する」と指示する場合、この文脈では position を input の次の文字に進めることを意味します。「未消費に戻す(unconsume)」場合は、position を input の前の文字に戻すことを意味します。"EOF"は本仕様のEOFマーカーと同じです。なお、この文脈は「属性の一部として」ではありません（セミコロン省略時の扱いに関して）。

6.5. WebVTT キューテキストの DOM 構築規則

WebVTT キューの内容を getCueAsHTML() メソッド（VTTCue インターフェース）経由で取得する目的のために、それを DocumentFragment に解析する必要があります。本節ではその方法を説明します。

ある WebVTT ノードオブジェクトのリストを、Document owner の DOM ツリーに変換する際、ユーザーエージェントは WebVTT ノードオブジェクトのツリーと同型の DOM ノードのツリーを作成し、次のように WebVTT ノードオブジェクトを DOM ノードに対応付けなければなりません：

WebVTT ノードオブジェクト	DOM ノード
WebVTT ノードオブジェクトのリスト	`DocumentFragment` ノード。
WebVTT リージョンオブジェクト	`DocumentFragment` ノード。
WebVTT クラスオブジェクト	HTML の span 要素。
WebVTT イタリックオブジェクト	HTML の i 要素。
WebVTT ボールドオブジェクト	HTML の b 要素。
WebVTT 下線オブジェクト	HTML の u 要素。
WebVTT ルビオブジェクト	HTML の ruby 要素。
WebVTT ルビテキストオブジェクト	HTML の rt 要素。
WebVTT ボイスオブジェクト	HTML の span 要素で、title 属性に WebVTT ボイスオブジェクトの値を設定したもの。
WebVTT 言語オブジェクト	HTML の span 要素で、lang 属性に WebVTT 言語オブジェクトの適用言語を設定したもの。
WebVTT テキストオブジェクト	`Text` ノードで、その `data` が WebVTT テキストオブジェクトの値であるもの。
WebVTT タイムスタンプオブジェクト	`ProcessingInstruction` ノードで、その `target` が "`timestamp`"、および `data` が WebVTT タイムスタンプ（WebVTT タイムスタンプオブジェクトの値を表す）で、すべての省略可能な構成要素を含み、hours コンポーネントが 10 未満なら先頭に 1 桁のゼロを付け、その他の場合は先頭のゼロを付けない形式のもの。

上記の対応で作成される HTML 要素は、その namespaceURI を HTML 名前空間に設定し、HTML 仕様で定義された適切な IDL インターフェースを使用し、対応する WebVTT 内部ノードオブジェクトに適用クラスがある場合は、それらを単一の U+0020 SPACE 文字で区切って連結した文字列を class 属性に設定しなければなりません。

DOM ツリー内のすべてのノードの ownerDocument 属性は、与えられたドキュメント owner に設定されなければなりません。

上で説明されていない、あるいは上で説明された特性に依存しない DOM ノードのすべての特性は、初期値のままにしておくものとします。

6.6. チャプタータイトル抽出のための WebVTT 規則

チャプタータイトル抽出のための WebVTT 規則は、WebVTT キュー cue に対して次の通り定義されます：

nodes を、WebVTT ノードオブジェクトのリストとし、これは cue の WebVTT キューテキスト解析規則を cue の cue text に適用して得たものとする。
nodes 内の各 WebVTT テキストオブジェクトの値を、プレオーダーの深さ優先走査で連結した文字列を返す。ただし WebVTT ルビテキストオブジェクトおよびその子孫は除外する。

7. レンダリング

本節では、ユーザーエージェントが WebVTT のキャプションや字幕キューを視覚的にどのようにレンダリングするかを詳細に説明します。処理モデルは、CSS が利用可能な HTML のメディア要素に密接に結びついています。CSS をサポートしないユーザーエージェントは、スタイルや位置付け機能を伴わないプレーンテキストのみをレンダリングすると想定されます。完全な HTML/CSS エンジンをサポートしないユーザーエージェントは、完全な CSS エンジンを持つユーザーエージェントがレンダリングするものと等価な視覚表現をレンダリングすることが期待されます。

7.1. 処理モデル

WebVTT テキストトラックの表示を更新するための規則（rules for updating the display of WebVTT text tracks）は、HTML の text tracks を、（具体的には video 要素）や他の再生メカニズムに対して、以下の手順を適用してレンダリングします。指定されたメディア要素、または他の再生メカニズムについて、これらの規則を使うすべてのテキストトラックは、複数トラック間で字幕が重ならないように一緒にレンダリングされます。このアルゴリズムを呼ぶ際にフォールバック言語 language を設定できる場合があります。

HTML では audio 要素に視覚的なレンダリング領域がないため、このアルゴリズムは audio 要素については中止されます。音声リソース用に WebVTT のキャプションや字幕を作成する場合、ユーザーエージェントによるレンダリングのためにそれらを video 要素で公開する必要があります。

以下の手順の出力は、メディア要素または他の再生メカニズムのレンダリング領域を覆う一連の CSS ボックスであり、ユーザーエージェントはそれをユーザーに適した方法でレンダリングすることが期待されます。

規則は次のとおりです：

対象のメディア要素が audio 要素、またはレンダリング領域を持たない他の再生メカニズムであれば、これらの手順を中止します。
video を対象のメディア要素または他の再生メカニズムとする。
output を絶対配置された CSS ブロックボックスの空リストとする。
ユーザーエージェントが video のためのユーザーインターフェースを表示している場合、output にユーザーインターフェースと同じ領域を覆う、完全に透明な位置決めされた CSS ブロックボックスを一つ以上追加します。
前回これらの規則が実行された時、ユーザーエージェントが video のユーザーインターフェースを表示していなかったが、現在表示している場合は、任意で reset を true とする。それ以外は reset を false とする。
tracks を、video の text tracks のリストのうち、表示更新規則として本規則（rules for updating the display of WebVTT text tracks）を使用し、かつ text track mode が showing であるトラックの部分集合とする。
cues を空の text track cues のリストとする。
tracks の各トラック track について、track の cues のリストから text track cue active flag が設定されているすべての cue を cues に追加します。
regions を空の WebVTT リージョンのリストとします。
tracks の各トラック track について、track の regions のリストに識別子を持つすべての regions を regions に追加します。
reset が false の場合、regions 内の各 WebVTT region region について、その region に対応する WebVTT region object を regionNode とします。
各 regionNode に対して次の手順を適用します：
1. CSS プロパティを regionNode に適用するために、いくつかの変数を準備します：
  - regionWidth を WebVTT region width とする。width を regionWidth vw とする（vw は CSS 単位）。[CSS-VALUES]
  - lineHeight を 6vh とする（vh は CSS 単位）[CSS-VALUES]、および regionHeight を WebVTT region lines とする。lines を lineHeight と regionHeight の積とする。
  - viewportAnchorX を WebVTT region anchor の x 成分とし、regionAnchorX を同じくリージョンアンカーの x 成分とする。leftOffset を regionAnchorX × width ÷ 100.0 とする。left を viewportAnchorX vw から leftOffset を差し引いたものとする。
  - viewportAnchorY を WebVTT region anchor の y 成分とし、regionAnchorY をリージョンアンカーの y 成分とする。topOffset を regionAnchorY × lines ÷ 100.0 とする。top を viewportAnchorY vh から topOffset を差し引いたものとする。
2. 次の制約の下で CSS 仕様の条件を regionNode に適用し、初期包含ブロックに対して位置付けられた CSS ボックス box を得ます：
  1. regionNode にスタイルシートは関連付けられていません。（regionNodes は、そのボックスが生成された後に、下記で説明されるようにスタイルシートを使って再スタイリングされます。）
  2. regionNode のプロパティは次節で定義されるとおりに値が設定されます。（その節はいくつかの上で計算した変数を使用します。）
  3. ビデオのビューポート（および初期包含ブロック）は video のレンダリング領域です。
3. CSS ボックス box を output に追加します。
reset が false の場合、cues 内の各 WebVTT cue cue について：もし cue の text track cue display state が CSS ボックスの集合を持っているならば、次を行います：
- もし cue の WebVTT cue region が null でなければ、それらのボックスをそのリージョンの box に追加し、cues から cue を削除します。
- そうでなければ、それらのボックスを output に追加し、cues から cue を削除します。
まだ output に対応する CSS ボックスが追加されていない各 WebVTT cue cue について、text track cue order に従って、次の副手順を実行します：
1. nodes を、フォールバック言語 language（提供されていれば）を用いて cue の cue text に WebVTT キューテキスト解析規則を適用して得た WebVTT ノードオブジェクトのリストとします。
2. もし cue の WebVTT cue region が null であれば、次の副手順を実行します：
  1. WebVTT キュー設定の適用を行い、nodes から CSS ボックス群 boxes を得る。
  2. cue の text track cue display state に boxes の CSS ボックスを設定する。
  3. boxes の CSS ボックスを output に追加する。
3. そうでなければ、次の副手順を実行します：
  1. region を cue の WebVTT cue region とする。
  2. もし region の WebVTT region scroll 設定が up でかつ region に既に子が一つあるなら、region の transition-property を top に、transition-duration を 0.433s に設定します。
  3. offset を cue の computed position に region の WebVTT region width を掛けて 100 で割った値とします（つまりリージョン幅のパーセンテージとして解釈します）。
  4. offset を、cue の computed position alignment を使って次のように調整します：
    
    もし computed position alignment が center alignment の場合
    
    offset から region の WebVTT region width の半分を差し引きます。
    
    もし computed position alignment が line-right alignment の場合
    
    offset から region の WebVTT region width を差し引きます。
  5. left を offset % とします。
  6. CSS ボックス群の取得を行い、初期包含ブロックに対して位置付けられた boxes を得ます。
  7. もし boxes に行ボックスが存在しない場合、これらの副手順の残りを cue についてスキップします。該当のキューは無視されます。
  8. cue の text track cue display state に boxes の CSS ボックスを設定します。
  9. boxes の CSS ボックスを region に追加します。
  10. もし CSS ボックス群 boxes の合計高さが region ボックスの高さより小さい場合、その差の絶対値を diff とします。top を diff だけ増やし、再度 regionNode に適用します。
output を返します。

ユーザーエージェントは、上記アルゴリズムによるキューの位置決めをユーザーが上書きできるようにすることがあります。例えば、ユーザーがキューを video 上の別の位置にドラッグしたり、場合によっては完全に video の外に移動させたりすることを許容できます。

7.2. キュー設定の処理

上記の処理アルゴリズムで、ユーザーエージェントが WebVTT キュー設定の適用をおこない WebVTT ノードオブジェクトのリスト nodes から CSS ボックスを得るよう指定された場合、ユーザーエージェントは以下のアルゴリズムを実行しなければならない。

WebVTT キュー書字方向が横書きの場合 writing-mode を "horizontal-tb" とする。そうでなければ、WebVTT キュー書字方向が縦書き left の場合 writing-mode を "vertical-rl" とし、それ以外（縦書き right）の場合 writing-mode を "vertical-lr" とする。
cue の maximum size の値を、次の規則から適切なものに従って決定する：

position alignment が line-left の場合

maximum size を 100 から computed position を引いた値とする。

position alignment が line-right の場合

maximum size を computed position とする。

position alignment が center かつ computed position が 50 以下の場合

maximum size を computed position の 2 倍とする。

position alignment が center かつ computed position が 50 より大きい場合

maximum size を 100 から computed position を引き、その結果に 2 を掛けた値とする。
WebVTT キューサイズが maximum size より小さければ size を WebVTT キューサイズとし、そうでなければ size を maximum size とする。
WebVTT キュー書字方向が横書きの場合、width を size vw、height を auto とする。そうでなければ、width を auto、height を size vh とする。（これらは次節で描画用 CSS プロパティを設定する際に使用する CSS 値。vw および vh は CSS 単位。）[CSS-VALUES]
cue の x-position, y-position の値を以下の規則に従い決定する：

WebVTT キュー書字方向が横書きの場合

position alignment が line-left alignment の場合

x-position を computed position とする。

position alignment が center alignment の場合

x-position を computed position から size の半分を引いた値とする。

position alignment が line-right alignment の場合

x-position を computed position から size を引いた値とする。

WebVTT キュー書字方向が縦書き left または縦書き right の場合

position alignment が line-left alignment

y-position を computed position とする。

position alignment が center alignment

y-position を computed position から size の半分を引いた値とする。

position alignment が line-right alignment

y-position を computed position から size を引いた値とする。
まだ計算していない x-position または y-position の値も、下記の規則に沿って cue に対し決定する：

WebVTT キュー snap-to-lines フラグが false の場合

WebVTT キュー書字方向が横書きの場合

y-position を computed line とする。

WebVTT キュー書字方向が縦書き left または縦書き right の場合

x-position を computed line とする。

WebVTT キュー snap-to-lines フラグが true の場合

WebVTT キュー書字方向が横書きの場合

y-position を 0 とする。

WebVTT キュー書字方向が縦書き left または縦書き right の場合

x-position を 0 とする。

これらの値は最終位置ではなく、下記のボックス寸法計算のための一時的な値である。
left を x-position vw、top を y-position vh とする。（これらは次節で描画用 CSS プロパティを設定する際に使用する値；vw および vh は CSS 単位。）[CSS-VALUES]
CSS ボックスの取得をおこない、初期包含ブロック基準の boxes を得る。
もし boxes に行ボックスがひとつもなければ cue についてはこの手順の残りをスキップする。キューは無視される。
次の規則に従い boxes の位置調整を行う：
cue の snap-to-lines フラグが true の場合
このアルゴリズムの多くの手順は書字方向により分岐。「横」ラベルの手順は書字方向が横書きの時だけ、「縦」ラベルの手順は書字方向が縦書き left または縦書き right の時、「縦書き left」は書字方向が縦書き left の時のみ、「縦書き right」は書字方向が縦書き right の時のみ適用する。
1. 横: full dimension を video のレンダリング領域の高さとする。
  
  縦: full dimension を video のレンダリング領域の幅とする。
2. 横: step を boxes 内先頭行ボックスの高さとする。
  
  縦: step を boxes 内先頭行ボックスの幅とする。
3. step が 0 なら、下記 done positioning手順にジャンプ。
4. line を cue の computed line とする。
5. line に 0.5 を加え、床関数で整数にする。
6. 縦書き left: line に 1 を加えて負にする。
7. position を step × line の値とする。
8. 縦書き left: boxes のバウンディングボックス幅を position から減算し、さらに step を加算。
9. line が負なら position に max dimension を加算、step を正負反転。
10. 横: boxes 全体を position 下方に移動。
  
  縦: boxes 全体を position 右へ移動。
11. boxes 全体位置を specified position として記憶。
12. title area を video のレンダリング領域全体を覆うボックスとする。
13. step loop: boxes いずれも output のいずれにも重ならず、すべて title area ボックス内であれば done positioning手順へ。
14. 横: step が負、かつ boxes 先頭行ボックスの上端が title area より上、または step が正で下端が下超なら switch direction手順へ。
  
  縦: step が負で先頭行ボックス左端が title area より左、または step が正で右端が右超の場合も switch directionへ。
15. 横: boxes 全体を step 下方へ移動（負なら上方）。
  
  縦: boxes 全体を step 右へ移動（負なら左へ）。
16. step loop に戻る。
17. switch direction: switched が true なら boxes を全て削除し、done positioning へ。
18. それ以外はすべての boxes を以前記憶した specified position に戻す。
19. step の符号を反転。
20. switched を true に設定。
21. step loop に戻る。
cue の snap-to-lines フラグが false の場合
1. bounding box を boxes のバウンディングボックスとする。
2. 次の規則から適切なものを実行：
  
  書字方向が横書きの場合
  
  line alignment が center alignment の場合
  
  boxes 全体を bounding box 高さの半分分、上方向へ移動。
  
  line alignment が end alignment の場合
  
  boxes 全体を bounding box 高さ分、上方向へ移動。
  
  書字方向が縦書き left または縦書き right の場合
  
  line alignment が center alignment
  
  boxes 全体を bounding box 幅の半分分、左方向へ移動。
  
  line alignment が end alignment
  
  boxes 全体を bounding box 幅分、左方向へ移動。
3. boxes のいずれも output のいずれとも重ならず、すべて video のレンダリング領域内であれば、done positioning手順へ進む。
4. boxes 全体が互いの相対位置を保ったまま output のいずれとも重ならず、すべて video のレンダリング領域内に収まる位置が存在する場合、今の位置から最も近いその位置へ移動し done positioning手順へ進む。同じ距離で複数候補がある場合は最も高いもの、さらに複数ある場合は最も左のものとする。
5. それ以外は done positioning手順へ（重なりが生じる）。
done positioning: boxes を返す。

7.3. CSSボックスの取得

上記の処理アルゴリズムによってユーザーエージェントが CSSボックス集合の取得 boxes を要求された場合、次の制約内で nodes に対してCSS仕様の規定を適用すること：[CSS22]

文書ツリーは、nodes をルートとした WebVTTノードオブジェクトのツリーである。
WebVTTファイルのSTYLEブロック内のセレクタのため、このスタイルシートは、明示的な名前、名前空間、属性、クラス、IDを持たず、主要言語が不明な空の要素一つのみを持つ仮想文書に適用されなければならず、その要素は指定WebVTTファイルから取得されたメディア要素のテキストトラックを表す振る舞いをする。他のテキストトラックにはマッチしてはならない。また、この仮想要素自身にマッチするセレクタにも一致しないものとする。

この要素は ::cue, ::cue(), ::cue-region, ::cue-region() 疑似要素の originating element となるためだけに存在する。
WebVTTファイルのSTYLEブロック内の宣言カスケード順決定のため、スタイルシートの追加順序をそのコレクションへの追加順とし、このコレクション全体の順序をvideo要素文書や所属メディア要素のスタイルシート後としなければならない。
たとえば次の(不正な)HTML文書の場合：
```
<!doctype html>
<title>Invalid cascade example</title>
<video controls autoplay src="video.webm">
 <track default src="track.vtt">
</video>
<style>
 ::cue { color:red }
</style>
```
...このとき"track.vtt"ファイルの内容：
```
WEBVTT

STYLE
::cue { color:lime }

00:00:00.000 --> 00:00:25.000
Red or green?
```
color:lime の宣言が最終的に適用される。なぜならカスケード順で最後になるからである(たとえ style 要素が video 要素のあとに記述されていても)。
WebVTTファイル内STYLEブロックやそこから参照されるリソース内URL解決のため、スキームが"data"以外の場合、ユーザーエージェントはそのURLが解決失敗したものと取り扱う。

@import や background-image で外部リソースをサポートすると、動画再生時にメディア要素や track 要素からネットワークリクエストが行われることになりプライバシー上の懸念となる。
CSS仕様において、WebVTT内部ノードオブジェクトは同内容の要素と等価と扱う。
CSS仕様において、WebVTTテキストオブジェクトは Text ノードと等価。
nodes にスタイルシートは関連付けられない（ボックス生成後、下記の通り再スタイリングされる）。
nodes の子は、display プロパティ値inline の匿名ボックスにラップされる。これを WebVTTキュー背景ボックスと呼ぶ。
WebVTTルビオブジェクトの子のうち WebVTTルビテキストオブジェクトでないものは、 display プロパティ値ruby-base の匿名ボックスでラップする。[CSS3-RUBY]
WebVTTノードオブジェクト上のプロパティの値は次節で定義。そこでは、このアルゴリズム内で以前に計算された変数を用いる。
テキストランはCSSの改行規則に従いラップされる。
ビデオのビューポート（初期包含ブロック）はvideo のレンダリング領域。

boxes を、初期包含ブロックの子孫として生成されたボックス集合（位置情報を含む）とする。

7.4. WebVTTノードオブジェクトへのCSSプロパティ適用

WebVTTテキストトラック表示更新規則に従う場合、ユーザーエージェントは本節で規定する通りCSSユーザーエージェントカスケードレイヤにおいて WebVTTノードオブジェクトのプロパティを設定しなければならない。[CSS22]

（ルート）WebVTTノードオブジェクトのリストには次のCSS設定を初期化する：

position プロパティは absolute に設定
unicode-bidi プロパティは plaintext に設定
writing-mode プロパティは writing-mode に設定
top プロパティは top に設定
left プロパティは left に設定
width プロパティは width に設定
height プロパティは height に設定
overflow-wrap プロパティは break-word に設定
text-wrap プロパティは balance に設定 [CSS-TEXT-4]

変数 writing-mode, top, left, width, height は WebVTTテキストトラック表示更新規則で該当 WebVTTキューの text から構築された WebVTTノードオブジェクトのリスト用に決定された値である。

（ルート）WebVTTノードオブジェクトのリストの text-align プロパティは、テーブル下段の左欄が該当するキューの WebVTTキューテキストアライメントの値である行の右欄値に設定：

WebVTTキューテキストアライメント	text-align 値
開始アライメント	start
中央アライメント	center
終了アライメント	end
左アライメント	left
右アライメント	right

（ルート）font ショートハンドプロパティは 5vh sans-serif に設定。[CSS-VALUES]

（ルート）color プロパティは rgba(255,255,255,1) に設定。[CSS3-COLOR]

background ショートハンドプロパティは、WebVTTキュー背景ボックスおよび WebVTTルビテキストオブジェクトに対し rgba(0,0,0,0.8) に設定。[CSS3-COLOR]

（ルート）white-space プロパティは pre-line に設定。[CSS22]

font-style プロパティは WebVTTイタリックオブジェクトに対し italic に設定。

font-weight プロパティは WebVTTボールドオブジェクトに対し bold に設定。

text-decoration プロパティは WebVTT下線オブジェクトに対し underlineに設定。

display プロパティは WebVTTルビオブジェクトに対し ruby に設定。[CSS3-RUBY]

display プロパティは WebVTTルビテキストオブジェクトに対し ruby-text に設定。[CSS3-RUBY]

すべての WebVTTリージョンオブジェクトは次のCSS設定で初期化する：

position プロパティは absolute に設定
writing-mode プロパティは horizontal-tb に設定
background ショートハンドは rgba(0,0,0,0.8) に設定
overflow-wrap プロパティは break-word に設定
font ショートハンドは 5vh sans-serif に設定
color プロパティは rgba(255,255,255,1) に設定
overflow プロパティは hidden に設定
width プロパティは width に設定
min-height プロパティは 0px に設定
max-height プロパティは height に設定
left プロパティは left に設定
top プロパティは top に設定
display プロパティは inline-flex に設定
flex-flow プロパティは column に設定
justify-content プロパティは flex-end に設定

変数 width, height, top, left は WebVTTテキストトラック表示更新規則で該当 WebVTTリージョンから構築された WebVTTリージョンオブジェクト用に決定された値である。

各 WebVTTリージョンオブジェクトの子は更に次のCSS設定で初期化される：

position プロパティは relative に設定
unicode-bidi プロパティは plaintext に設定
width プロパティは auto
height プロパティは height
left プロパティは left
text-align プロパティは、リージョン外ルート WebVTTノードオブジェクトのリストの場合と同じ値

その他の非継承プロパティはすべて初期値とし、ルート WebVTTノードオブジェクトのリストの継承プロパティはレンダリング先メディア要素から継承される（もし存在する場合）。メディア要素（つまり text track が別再生メカニズムで描画される場合）がなければルート WebVTTノードオブジェクトのリストおよび WebVTTリージョンオブジェクトの継承プロパティは初期値を使用。

メディア要素または他の再生メカニズムに適用されるスタイルシートがある場合は、次節の規定通り解釈されなければならない。

8. CSS拡張

このセクションでは、いくつかのCSS疑似要素および疑似クラスと、それらがWebVTTにどのように適用されるかを規定します。このセクションは CSSをサポートしないユーザーエージェントには適用されません。

8.1. はじめに

このセクションは規範的ではありません。

::cue 疑似要素は、キューを表します。

::cue(selector) 疑似要素は、指定されたセレクタに一致するキュー内またはキュー内の要素を表します。

::cue-region 疑似要素は、リージョンを表します。

::cue-region(selector) 疑似要素は、指定されたセレクタに一致するリージョンまたはリージョン内の要素を表します。

他のすべての疑似要素と同様、これらの疑似要素は video 要素のドキュメントツリーに直接存在するわけではありません。

:past および :future 疑似クラスは、::cue(selector) 内で使用し、WebVTT内部ノードオブジェクトを現在の再生位置に基づきマッチさせることができます。

次の表は、特定のセレクタで何が選択できるかと、それに対応するWebVTT構文例を示します。

セレクタ（CSS構文例）	一致するもの（WebVTT構文例）
::cue video::cue { color: yellow; }	任意の WebVTTノードオブジェクトのリスト。 WEBVTT 00:00:00.000 --> 00:00:08.000 Yellow! 00:00:08.000 --> 00:00:16.000 Also yellow!
IDセレクタ in ::cue() video::cue(#cue1) { color: yellow; }	cue のテキストトラックキュー識別子が指定IDと一致する WebVTTノードオブジェクトのリスト。 WEBVTT cue1 00:00:00.000 --> 00:00:08.000 Yellow!
型セレクタ in ::cue() video::cue(c), video::cue(i), video::cue(b), video::cue(u), video::cue(ruby), video::cue(rt), video::cue(v), video::cue(lang) { color: yellow; }	指定名の WebVTT 内部ノードオブジェクト（ルート WebVTT ノードオブジェクトのリスト以外）。 WEBVTT 00:00:00.000 --> 00:00:08.000 <c>Yellow!</c> <i>Yellow!</i> <u>Yellow!</u> <b>Yellow!</b> <u>Yellow!</u> <ruby>Yellow! <rt>Yellow!</rt></ruby> <v Kathryn>Yellow!</v> <lang en>Yellow!</lang>
クラスセレクタ in ::cue() video::cue(.loud) { color: yellow; }	指定された適用クラスを持つ WebVTT内部ノードオブジェクト（ルート WebVTTノードオブジェクトのリスト以外）。 WEBVTT 00:00:00.000 --> 00:00:08.000 <c.loud>Yellow!</c> <i.loud>Yellow!</i> <u.loud>Yellow!</u> <b.loud>Yellow!</b> <u.loud>Yellow!</u> <ruby.loud>Yellow! <rt.loud>Yellow!</rt></ruby> <v.loud Kathryn>Yellow!</v> <lang.loud en>Yellow!</lang>
属性セレクタ in ::cue() video::cue([lang="en-US"]) { color: yellow; } video::cue(lang[lang="en-GB"]) { color: cyan; } video::cue(v[voice="Kathryn"] { color: lime; }	"lang" に対しては、指定適用言語のルート WebVTTノードオブジェクトのリストまたは WebVTT言語オブジェクト。 "voice" に対しては指定ボイスの WebVTTボイスオブジェクト。 WEBVTT 00:00:00.000 --> 00:00:08.000 Yellow! 00:00:08.000 --> 00:00:16.000 <lang en-GB>Cyan!</lang> 00:00:16.000 --> 00:00:24.000 <v Kathryn>I like lime.</v> WebVTTノードオブジェクトのリストの適用言語は、HTMLの `srclang` 属性で指定できる。 <video ...> <track src="example-attr.vtt" srclang="en-US" default> </video>
:lang() 疑似クラス in ::cue() video::cue(:lang(en)) { color: yellow; } video::cue(:lang(en-GB)) { color: cyan; }	指定言語範囲に一致する適用言語を持つ WebVTT内部ノードオブジェクト。 WEBVTT 00:00:00.000 --> 00:00:08.000 Yellow! 00:00:08.000 --> 00:00:16.000 <lang en-GB>Cyan!</lang> 同様に、WebVTTノードオブジェクトのリストの適用言語も HTMLの `srclang` 属性で指定できる。
:past および :future 疑似クラス in ::cue() video::cue(:past) { color: yellow; } video::cue(:future) { color: cyan; }	WebVTTタイムスタンプオブジェクトを持つキューに対し、WebVTT内部ノードオブジェクトが再生位置に応じて。 WEBVTT 00:00:00.000 --> 00:00:08.000 <c>No match (no timestamps)</c> 00:00:08.000 --> 00:00:16.000 No match <00:00:12.000> (no elements) 00:00:16.000 --> 00:00:24.000 <00:00:16.000> <c>This</c> <00:00:18.000> <c>can</c> <00:00:20.000> <c>match</c> <00:00:22.000> <c>:past/:future</c> <00:00:24.000>
::cue-region video::cue-region { color: yellow; }	任意のリージョン（WebVTTリージョンオブジェクトのリスト）。 WEBVTT REGION id:editor-comments regionanchor:0%,0% viewportanchor:0%,0% 00:00:00.000 --> 00:00:08.000 No match (normal cue) 00:00:08.000 --> 00:00:16.000 region:editor-comments Yellow!
IDセレクタ in ::cue-region() video::cue-region(#scroll) { color: cyan; }	指定IDに一致するWebVTTリージョン識別子を持つ任意のリージョン（WebVTTリージョンオブジェクトのリスト）。 WEBVTT REGION id:editor-comments width: 40% regionanchor:0%,100% viewportanchor:10%,90% REGION id:scroll width: 40% regionanchor:100%,100% viewportanchor:90%,90% scroll:up 00:00:00.000 --> 00:00:08.000 No match (normal cue) 00:00:08.000 --> 00:00:16.000 region:editor-comments Yellow! 00:00:10.000 --> 00:00:16.000 region:scroll Over here it’s Cyan!

8.2. 処理モデル

ユーザーエージェントが WebVTT テキストトラック表示更新規則に従って一つ以上の WebVTTキューをレンダリングする場合、そのレンダリングに用いられる WebVTTノードオブジェクトのリスト内の WebVTTノードオブジェクトは、以下で定義する特定の擬似セレクタによりマッチされうる。こうしたセレクタは、個々の WebVTT ノードオブジェクトが（cue のレンダリング中であっても）（アクティブキュー集合の変更時だけでなく）途中でマッチしたり解除されたりすることがある。下記の疑似要素に対応した環境では描画も随時動的に更新する必要がある。white-space や font ショートハンド（line-height を含む）の値が変更された場合、該当 WebVTT キューの text track cue display state はクリアされ、text track の text track rendering 表示更新ルールが即座に再実行される必要がある。

疑似要素はセレクタが一致した要素に適用される。このセクションではその要素を一致要素と呼ぶ。下で定義する疑似要素は、一致要素 のためにレンダリングされる WebVTT キューの一部のスタイルに影響を与える。

一致要素 が video 要素でない場合、本仕様で定義される以下の疑似要素は効果を持たない。

CSSユーザーエージェントで text tracks モデルを実装する場合、::cue、::cue(selector)、::cue-region、::cue-region(selector) 疑似要素および :past および :future 疑似クラスを実装しなければならない。

8.2.1. ::cue 疑似要素

::cue 疑似要素（引数なし）は、一致要素 のために構築されたWebVTTノードオブジェクトのリストすべてに一致します。ただし、background ショートハンドに該当するプロパティはWebVTTノードオブジェクトのリストでなくWebVTTキュー背景ボックスに適用する点を除きます。

引数なし ::cue 疑似要素には以下のプロパティが適用されます。それ以外のプロパティ指定は無視されます：

color
opacity
visibility
text-decoration ショートハンドに対応するプロパティ
text-shadow
background ショートハンドに対応するプロパティ
outline ショートハンドに対応するプロパティ
font ショートハンドに対応するプロパティ（line-height を含む）
white-space
text-combine-upright
ruby-position

::cue(selector) 疑似要素（引数あり）は、引数としてCSSセレクタ[SELECTORS4]を指定する必要があります。これは、一致要素 のために構築されたWebVTT内部ノードオブジェクトのうち、指定されたCSSセレクタに一致するものをマッチします。処理上の各ノードは以下のように扱われます：

セレクタを照合する文書ツリーは、キューのWebVTTノードオブジェクトのリストをルートに持つWebVTTノードオブジェクトツリーとする。
WebVTT内部ノードオブジェクトはツリー内の要素として扱う。
WebVTTリーフノードオブジェクトはマッチしない。

型セレクタ判定用の各要素の名称は以下の表の通り。1列目の具象クラスのオブジェクトは2列目の名前として扱う：

具体クラス	名称
WebVTTクラスオブジェクト	`c`
WebVTTイタリックオブジェクト	`i`
WebVTTボールドオブジェクト	`b`
WebVTT下線オブジェクト	`u`
WebVTTルビオブジェクト	`ruby`
WebVTTルビテキストオブジェクト	`rt`
WebVTTボイスオブジェクト	`v`
WebVTT言語オブジェクト	`lang`
その他（具体的には WebVTTノードオブジェクトのリスト）	名称なし

型セレクタ・全称セレクタ用に、WebVTT内部ノードオブジェクトの名前空間は空文字列（""）とみなす。
属性セレクタ判定用に、WebVTT内部ノードオブジェクトは属性を持たない。ただし、WebVTTボイスオブジェクトは voice 属性だけを、その値はオブジェクトの値とする。WebVTT言語オブジェクトは lang 属性だけを、その値は適用言語とする。非空の適用言語を持つWebVTTノードオブジェクトのリストも lang 属性だけを、その値は適用言語とする。
クラスセレクタ判定用に、WebVTT内部ノードオブジェクトは適用クラスとして記述されたクラスを持つ。
:lang() 疑似クラス用には、WebVTT内部ノードオブジェクトは適用言語を持つ。
IDセレクタ判定用に、WebVTTノードオブジェクトのリストはキューのテキストトラックキュー識別子（あれば）をIDとする。

引数あり ::cue() 疑似要素には次のプロパティが適用されます：

color
opacity
visibility
text-decoration ショートハンドに対応するプロパティ
text-shadow
background ショートハンドに対応するプロパティ
outline ショートハンドに対応するプロパティ
トランジション・アニメーション関連プロパティ

さらに、引数あり ::cue() 疑似要素でセレクタに :past や :future 疑似クラスが含まれていない場合、以下も適用：

font ショートハンドに対応するプロパティ（line-height を含む）
white-space
text-combine-upright
ruby-position

適用されないプロパティは無視されなければならない。

特例として、background ショートハンドは、WebVTTノードオブジェクトのリストに本来適用される場合でもWebVTTキュー背景ボックスに適用されなければならない。

8.2.2. :past および :future 疑似クラス

:past および :future 疑似クラスは、場合によりWebVTTノードオブジェクトにマッチします。[SELECTORS4]

:past 疑似クラスは、過去であるWebVTTノードオブジェクトだけに一致します。

WebVTTノードオブジェクト c が過去であるとは、そのWebVTTキューの WebVTTノードオブジェクトのリストをプレオーダ深さ優先走査したときに、 WebVTTタイムスタンプオブジェクトで、その値が一致要素 たるメディア要素の再生位置より小さいものが c より完全に後ろに存在する場合を指します。

:future 疑似クラスは、未来であるWebVTTノードオブジェクトだけに一致します。

WebVTTノードオブジェクト c が未来であるとは、そのWebVTTキューの WebVTTノードオブジェクトのリストをプレオーダ深さ優先走査したときに、 WebVTTタイムスタンプオブジェクトで、その値が一致要素 たるメディア要素の再生位置より大きいものが c の完全に前に存在する場合を指します。

8.2.3. ::cue-region 疑似要素

疑似要素は、セレクタがマッチする要素に適用されます。このセクションではこの要素を一致要素と呼びます。下記疑似要素は、その一致要素のためにレンダリングされるテキストトラックリージョンのスタイルに影響します。

一致要素が video 要素でない場合、本仕様で定義される以下の疑似要素は効果を持ちません。

::cue-region 疑似要素（引数なし）は、一致要素のために構築されたWebVTTリージョンオブジェクトのリストすべてに一致します。

::cue-region(selector) 疑似要素（引数あり）は、引数としてCSSセレクタ[SELECTORS4]を指定する必要があります。これは、一致要素のために構築されかつ、次基準で与えた CSS セレクタにマッチするWebVTTリージョンオブジェクトのリストに一致します：

指定IDに一致するWebVTTリージョン識別子を持つ任意のリージョン（WebVTTリージョンオブジェクトのリスト）。

::cue-region(selector) については他のセレクタマッチ規定無し。

::cue に適用されるものと同じプロパティが ::cue-region 疑似要素にも適用されます。それ以外は無視されます。

ユーザーエージェントがWebVTT テキストトラック表示更新規則に従い１つ以上のテキストトラックリージョンをレンダリングする場合、上記疑似要素で WebVTTリージョンオブジェクトがマッチします。対応疑似要素をサポートする場合、描画も随時動的に更新する必要があります。white-space や font ショートハンド（line-height を含む）の値が変更された場合、そのリージョン内の全てのWebVTTキューのtext track cue display stateをクリアし、当該text trackのtext track rendering 表示更新ルールを即時に再実行すること。

9. API

9.1. `VTTCue` インターフェース

次のインターフェースはDOM APIでWebVTTキューを公開するために使用されます：

enum AutoKeyword { "auto" };
typedef (double or AutoKeyword) LineAndPositionSetting;
enum DirectionSetting { "" /* horizontal */, "rl", "lr" };
enum LineAlignSetting { "start", "center", "end" };
enum PositionAlignSetting { "line-left", "center", "line-right", "auto" };
enum AlignSetting { "start", "center", "end", "left", "right" };
[Exposed=Window,
 Constructor(double startTime, double endTime, DOMString text)]
interface VTTCue : TextTrackCue {
  attribute VTTRegion? region;
  attribute DirectionSetting vertical;
  attribute boolean snapToLines;
  attribute LineAndPositionSetting line;
  attribute LineAlignSetting lineAlign;
  attribute LineAndPositionSetting position;
  attribute PositionAlignSetting positionAlign;
  attribute double size;
  attribute AlignSetting align;
  attribute DOMString text;
  DocumentFragment getCueAsHTML();
};

cue = new VTTCue( startTime, endTime, text )

新しい VTTCue オブジェクトを返します。これは addCue() メソッドで使用します。

startTime 引数はテキストトラックキュー開始時刻を設定します。

endTime 引数はテキストトラックキュー終了時刻を設定します。

text 引数はキューテキストを設定します。

cue . region

このキューに関連付けられた VTTRegion オブジェクトを返し、なければ null を返します。

設定可能です。

cue . vertical [ = value ]

WebVTTキュー書字方向を次のような文字列で返します：

横書きの場合: 空文字列。
縦書き左方向の場合: 文字列 "rl"。
縦書き右方向の場合: 文字列 "lr"。

設定可能です。

cue . snapToLines [ = value ]

WebVTTキューsnap-to-linesフラグが true なら true、それ以外は false を返します。

設定可能です。

cue . line [ = value ]

WebVTTキューラインを返します。値が auto の場合、文字列 "auto" を返します。

設定可能です。

cue . lineAlign [ = value ]

WebVTTキューラインアライメントを次のような文字列で返します：

開始アライメントの場合: 文字列 "start"。
中央アライメントの場合: 文字列 "center"。
終了アライメントの場合: 文字列 "end"。

設定可能です。

cue . position [ = value ]

WebVTTキューポジションを返します。値が auto の場合、文字列 "auto" を返します。

設定可能です。

cue . positionAlign [ = value ]

WebVTTキューポジションアライメントを次のような文字列で返します：

line-left アライメントの場合: 文字列 "line-left"。
中央アライメントの場合: 文字列 "center"。
line-right アライメントの場合: 文字列 "line-right"。
自動アライメントの場合: 文字列 "auto"。

設定可能です。

cue . size [ = value ]

WebVTTキューサイズを返します。

設定可能です。

cue . align [ = value ]

WebVTTキューテキストアライメントを次のような文字列で返します：

start アライメントの場合: 文字列 "start"。
center アライメントの場合: 文字列 "center"。
end アライメントの場合: 文字列 "end"。
left アライメントの場合: 文字列 "left"。
right アライメントの場合: 文字列 "right"。

設定可能です。

cue . text [ = value ]

未解析のキューテキストを返します。

設定可能です。

fragment = cue . getCueAsHTML()

キューテキストを DocumentFragment （HTML要素や他のDOMノード）として返します。

VTTCue(startTime, endTime, text) コンストラクタが呼び出されたとき、次の手順を実行しなければならない：

新しいWebVTTキューを作成する。cueをそのWebVTTキューとする。
cueのテキストトラックキュー開始時刻を、引数startTimeの値（秒として解釈）にする。
cueのテキストトラックキュー終了時刻を、引数endTimeの値（秒として解釈）にする。
cueのキューテキストをtext引数の値にし、チャプタータイトル抽出規則はWebVTTチャプタータイトル抽出規則とする。
cueのテキストトラックキュー識別子を空文字列にする。
cueのpause-on-exitフラグをfalseにする。
cueのWebVTTキュリージョンをnullにする。
cueのWebVTTキュー書字方向を横書きにする。
cueのWebVTTキューsnap-to-linesフラグをtrueにする。
cueのWebVTTキューラインをautoにする。
cueのWebVTTキューラインアライメントをstartアライメントにする。
cueのWebVTTキューポジションをautoにする。
cueのWebVTTキューポジションアライメントをautoにする。
cueのWebVTTキューサイズを100にする。
cueのWebVTTキューテキストアライメントをcenterアライメントにする。
cueを表すVTTCueオブジェクトを返す。

region属性は、取得時、VTTRegionオブジェクト（対応のWebVTTキュリージョン）を返す。なければnull。設定時にはWebVTTキュリージョンに新しい値を設定する。

vertical属性は、取得時、下記テーブル上段セルがWebVTTキュー書字方向に一致する行の2列目を返す：

WebVTTキュー書字方向	`vertical` 値
横書き	""（空文字列）
縦書き左方向	"`rl`"
縦書き右方向	"`lr`"

設定時は、下段セルが新設定値に大文字小文字一致する行の上段に該当するWebVTTキュー書字方向とする。

snapToLines属性は、取得時に対応WebVTTキューsnap-to-linesフラグがtrueならtrue、それ以外はfalseを返す。設定時は新しい値を設定する。

line属性は取得時、WebVTTキューラインを返す。特別な値autoは文字列"auto"で表される。設定時は新値を設定。文字列"auto"なら autoと解釈する。

snapToLines および line 属性は任意の順で設定できる。APIは snapToLines がfalseのとき line が0〜100以外でも、またはその逆でも設定を拒否しない。

lineAlign属性は取得時、下表上段セルと一致するWebVTTキューラインアライメントの下段文字列を返す：

WebVTTキューラインアライメント	`lineAlign` 値
開始アライメント	"`start`"
中央アライメント	"`center`"
終了アライメント	"`end`"

設定時は、下段セルが新値と大文字小文字一致する行の上段セルのWebVTTキューラインアライメントに設定する。

position属性は取得時、WebVTTキューポジションを返す。特別な値autoは文字列"auto"で表される。設定時、新値が負または100超であればIndexSizeError例外を投げる。そうでなければ新値を設定。"auto"はautoとして扱う。

positionAlign属性は取得時、下表上段セルに一致するWebVTTキューポジションアライメントの下段セルを返す：

WebVTTキューポジションアライメント	`positionAlign` 値
line-leftアライメント	"`line-left`"
中央アライメント	"`center`"
line-rightアライメント	"`line-right`"
自動アライメント	"`auto`"

設定時は、下段セルが新値と大文字小文字一致する行の上段セルのWebVTTキューポジションアライメントに設定する。

size属性は取得時、WebVTTキューサイズを返す。設定時、新値が負または100超であればIndexSizeError例外を投げる。そうでなければ新値に設定。

align属性は取得時、下表上段セルがWebVTTキューテキストアライメントに一致する行の下段文字列を返す：

WebVTTキューテキストアライメント	`align` 値
開始アライメント	"`start`"
中央アライメント	"`center`"
終了アライメント	"`end`"
左アライメント	"`left`"
右アライメント	"`right`"

設定時は、下段セルが新値と大文字小文字一致する行の上段セルのWebVTTキューテキストアライメントに設定する。

text属性は取得時、対応キューテキスト（未解析）を返す。設定時は新値をセット。

getCueAsHTML() メソッドは、キューテキストを、DocumentFragment に変換しなければなりません。変換は、責任あるドキュメント（エントリ設定オブジェクトで指定）に対して行われ、キューテキストに対してまず WebVTT キューテキスト解析規則を適用し、その結果に WebVTT キューテキスト DOM 構築規則を適用することによって得られる DocumentFragment を作成しなければなりません。

getCueAsHTML()にはフォールバック言語が提供されない。DocumentFragmentは言語情報を公開できないため。

9.2. `VTTRegion` インターフェース

次のインターフェースは、DOM APIでWebVTTリージョンを公開するために使用されます：

enum ScrollSetting { "" /* none */, "up" };
[Exposed=Window,
 Constructor]
interface VTTRegion {
  attribute DOMString id;
  attribute double width;
  attribute unsigned long lines;
  attribute double regionAnchorX;
  attribute double regionAnchorY;
  attribute double viewportAnchorX;
  attribute double viewportAnchorY;
  attribute ScrollSetting scroll;
};

region = new VTTRegion()

新しい VTTRegion オブジェクトを返します。

region . id

テキストトラックリージョンの識別子を返す。設定可能。

region . width

WebVTTリージョンの幅（ビデオ幅に対するパーセンテージ）を返す。設定可能。新しい値が0〜100の範囲外なら IndexSizeError 例外。

region . lines

テキストトラックリージョンの高さ（行数）を返す。設定可能。新しい値が負の場合、IndexSizeError 例外。

region . regionAnchorX

WebVTTリージョンのアンカーXオフセット（リージョン幅に対するパーセンテージ）を返す。設定可能。新しい値が0〜100範囲外なら IndexSizeError 例外。

region . regionAnchorY

WebVTTリージョンのアンカーYオフセット（リージョン高さに対するパーセンテージ）を返す。設定可能。新しい値が0〜100範囲外なら IndexSizeError 例外。

region . viewportAnchorX

WebVTTリージョンのビューポートアンカーXオフセット（ビデオ幅に対するパーセンテージ）を返す。設定可能。新しい値が0〜100範囲外なら IndexSizeError 例外。

region . viewportAnchorY

WebVTTリージョンのビューポートアンカーYオフセット（ビデオ高さに対するパーセンテージ）を返す。設定可能。新しい値が0〜100範囲外なら IndexSizeError 例外。

region . scroll

WebVTTリージョンスクロールを次のように示す文字列を返す：

未設定の場合: 空文字列。
upの場合: 文字列 "up"。

設定可能。

VTTRegion() コンストラクタが呼ばれた場合、次の手順に従う：

新しいWebVTTリージョンを生成し、それをregionとする。
regionのWebVTTリージョン識別子を空文字列にする。
regionのWebVTTリージョン幅を100にする。
regionのWebVTTリージョン高さ（行数）を3にする。
regionのregionAnchorXを0にする。
regionのregionAnchorYを100にする。
regionのviewportAnchorXを0にする。
regionのviewportAnchorYを100にする。
regionのWebVTTリージョンスクロールを空文字列にする。
regionを表すVTTRegion オブジェクトを返す。

id属性は取得時、WebVTTリージョン識別子を返し、設定時は新しい値をセットする。

width属性は取得時、WebVTTリージョン幅を返す。設定時、新しい値が負または100超ならIndexSizeError例外。それ以外は新しい値をセット。

lines属性は取得時、WebVTTリージョン行数を返す。設定時は新しい値をセット。

regionAnchorX属性は取得時、WebVTTリージョンアンカーXを返す。設定時、新しい値が負または100超ならIndexSizeError例外。それ以外は新しい値をセット。

regionAnchorY属性は取得時、WebVTTリージョンアンカーYを返す。設定時、新しい値が負または100超ならIndexSizeError例外。それ以外は新しい値をセット。

viewportAnchorX属性は取得時、WebVTTリージョンビューポートアンカーXを返す。設定時、新しい値が負または100超ならIndexSizeError例外。それ以外は新しい値をセット。

viewportAnchorY属性は取得時、WebVTTリージョンビューポートアンカーYを返す。設定時、新しい値が負または100超ならIndexSizeError例外。それ以外は新しい値をセット。

scroll属性は取得時、下記表の1列目がWebVTTリージョンスクロール設定値に一致する行の2列目文字列を返す：

WebVTTリージョンスクロール	`scroll`値
なし	""（空文字列）
up	"`up`"

設定時、下段セルが新値に大文字小文字一致する行の上段セルのWebVTTリージョンスクロール設定値にセットする。

10. IANA に関する考慮事項

10.1. `text/vtt`

この登録はコミュニティレビューのためのものであり、IESGによるレビュー、承認、およびIANAへの登録に提出されます。

タイプ名:

text

サブタイプ名:

vtt

必須パラメータ:

パラメータなし

オプションパラメータ:

パラメータなし

エンコーディング考慮事項:

8bit（常にUTF-8）

セキュリティ考慮事項:

テキストトラックファイル自体は、データに機密情報が含まれていない限り即座にリスクをもたらすものではありません。ただし、実装はテキストトラックを処理する際に特定の規則に従い、起源ベースの制限が尊重されるようにする必要があります。これらの規則が正しく実装されない場合、情報漏洩やクロスサイトスクリプティング攻撃などが発生する可能性があります。

相互運用性に関する考慮事項:

準拠・非準拠コンテンツ双方の処理規則は本仕様で定義されています。

公開仕様:

この文書が関連仕様です。

このメディア型を使用するアプリケーション:

ウェブブラウザおよびその他の動画プレーヤー。

追加情報:

マジックナンバー:

WebVTTファイルは、次のいずれかのバイト列（"EOF"はファイル末尾を意味する）で始まります：

EF BB BF 57 45 42 56 54 54 0A
EF BB BF 57 45 42 56 54 54 0D
EF BB BF 57 45 42 56 54 54 20
EF BB BF 57 45 42 56 54 54 09
EF BB BF 57 45 42 56 54 54 EOF
57 45 42 56 54 54 0A
57 45 42 56 54 54 0D
57 45 42 56 54 54 20
57 45 42 56 54 54 09
57 45 42 56 54 54 EOF

（UTF-8 BOM（省略可能）、ASCII文字列 "WEBVTT"、最後にスペース、タブ、改行、またはファイル末尾）

ファイル拡張子:

"vtt"

Macintoshファイルタイプコード:

この型固有のMacintoshファイルタイプコードは推奨されていません。

追加情報・連絡先:

Silvia Pfeiffer <silviapfeiffer1@gmail.com>

対象用途:

一般的

使用制限:

制限はありません。

著者:

Silvia Pfeiffer <silviapfeiffer1@gmail.com>, Simon Pieters <simonp@opera.com>, Philip Jägenstedt <philipj@opera.com>, Ian Hickson <ian@hixie.ch>

変更管理者:

W3C

text/vttリソースにはフラグメント識別子は意味を持ちません。

プライバシーとセキュリティに関する考察

テキストベース形式のセキュリティ

他のテキストベース形式同様、バッファオーバーランや値のオーバーフロー（例：整数表現がビット幅を超える等）を引き起こす悪意ある内容を作ることが可能です。パーサ実装時は長すぎる行や値、エンコード値がセキュリティ問題を引き起こさないよう注意してください。

スタイリング関連のプライバシーとセキュリティ

WebVTTはCSSスタイルシートを埋め込むことができ、CSSをサポートするユーザーエージェントでは適用されます。この場合、CSSのプライバシー・セキュリティ上の注意点が該当しますが、以下の注意が追加されます。

そのようなスタイルシートは外部リソースの取得はできません。プライバシーの観点からユーザーエージェントがこれを許可しないことが重要です。許可されるとWebVTTファイルが第三者への通知や、特定動画の視聴タイミングを外部に送る用途に利用される恐れがあります。

ユーザースタイルシートは提供可能ですが、その有無や内容は同じユーザーエージェント内で動くスクリプト（例：ブラウザ）からは検出できません。CSSオブジェクトモデルがスクリプトに公開されず、::before・::after以外の疑似要素のcomputed styleをgetComputedStyle()APIで取得できないためです。[CSSOM]

スクリプト関連のセキュリティ

WebVTTはスクリプトを含まず、有効化もしません。WebVTTファイルに埋め込んだスクリプトが実行される方法をユーザーエージェントが提供しないことが重要です。

ただしキャプション表示以外にタイミング付き入力「トリガー」としてscriptシステム向けに設計されたファイルを作ることは可能です。不完全なscriptやシステムの設計によっては、それがセキュリティやプライバシー、リソース消費などの問題になる場合もあります。とはいえ、WebVTTは各トリガーをタイムスタンプで供給するだけなので、悪意あるファイルでは極めて短い間隔で多数トリガーを発し負荷をかける可能性もあります。

利用者選好のプライバシー

WebVTTファイルの選択・DLや解釈を行うユーザーエージェントは、ユーザーが字幕を必要としていることや、字幕等の言語選好といった情報をオリジンサーバーに伝える可能性があります。これはユーザーに関する（小さな）情報ではありますが、キャプションを用意し取得・利用の可否を選ぶのは主に書式やプロトコル（例：HTML要素）の特徴であって、キャプションフォーマット自身の仕様ではありません。[HTML51]

謝辞

SubRip コミュニティ（特に Zuggy と ai4spam）に感謝します。SubRip ソフトウェアの SRT ファイル形式は WebVTT テキストトラックファイル形式の基礎となりました。

WebVTTが最初に定義されたHTML標準の作成や、これに貢献したIan Hickson他多くの方々にも感謝します。[HTML51]

また次の方々にも有用なコメントをいただきました。Addison Phillips, Alastor Wu, Andreas Tai, Anna Cavender, Anne van Kesteren, Benjamin Schaaf, Brian Quass, Caitlin Potter, Courtney Kennedy, Cyril Concolato, Dae Kim, David Singer, Eric Carlson, fantasai, Frank Olivier, Fredrik Söderquist, Giuseppe Pascale, Glenn Adams, Glenn Maynard, John Foliot, Kyle Huey, Lawrence Forooghian, Loretta Guarino Reid, Ms2ger, Nigel Megitt, Ralph Giles, Richard Ishida, Rick Eyre, Ronny Mennerich, Theresa O’Connor, Victor Cărbune に感謝いたします。

WebVTT：ウェブビデオテキストトラック形式

W3C 候補勧告 2019年4月4日

概要

この文書の位置付け

1. はじめに

1.1. シンプルなキャプションファイル

1.2. 複数行のキャプションキュー

1.3. キャプションのスタイリング

1.4. その他のキャプション・字幕機能

1.5. WebVTTのコメント

1.6. チャプター例

1.7. メタデータ例

2. 適合性

2.1. 適合クラス

2.2. Unicode 正規化

3. データモデル

3.1. 概要

3.2. WebVTT キュー

3.3. WebVTT キャプションまたは字幕キュー

3.4. WebVTT キャプションまたは字幕のリージョン

3.5. WebVTT チャプターキュー

3.6. WebVTT メタデータキュー

4. 構文

4.1. WebVTT ファイル構造

4.2. WebVTT キューペイロードの種類

4.2.1. WebVTT メタデータテキスト

4.2.2. WebVTT キャプションまたは字幕キューテキスト

4.2.3. WebVTT チャプタタイトルテキスト

4.3. WebVTT リージョン設定

4.4. WebVTT キュー設定

4.5. キューシーケンスの特性

4.5.1. 入れ子のキューのみを使用する WebVTT ファイル

4.6. WebVTT ファイルの種類

4.6.1. メタデータコンテンツを使用する WebVTT ファイル

4.6.2. チャプタタイトルテキストを使用する WebVTT ファイル

4.6.3. キャプションまたは字幕キューテキストを使用する WebVTT ファイル

5. WebVTT キャプションまたは字幕のキュー構成要素のデフォルトクラス

5.1. デフォルトのテキスト色

5.2. デフォルトのテキスト背景色

6. 解析

6.1. WebVTT ファイルの解析

6.2. WebVTT リージョン設定の解析

6.3. WebVTT キューのタイミングおよび設定の解析

6.4. WebVTT キュー テキスト解析ルール

6.5. WebVTT キュー テキストの DOM 構築規則

6.6. チャプタータイトル抽出のための WebVTT 規則

7. レンダリング

7.1. 処理モデル

7.2. キュー設定の処理

7.3. CSSボックスの取得

7.4. WebVTTノードオブジェクトへのCSSプロパティ適用

8. CSS拡張

8.1. はじめに

8.2. 処理モデル

8.2.1. ::cue 疑似要素

8.2.2. :past および :future 疑似クラス

8.2.3. ::cue-region 疑似要素

9. API

9.1. VTTCue インターフェース

9.2. VTTRegion インターフェース

10. IANA に関する考慮事項

10.1. text/vtt

プライバシーと セキュリティに関する考察

テキストベース形式のセキュリティ

スタイリング関連のプライバシーと セキュリティ

スクリプト関連のセキュリティ

利用者選好のプライバシー

謝辞

索引

本仕様で定義される用語

参照によって定義される用語

参考文献

規範的な参考文献

参考情報

IDL索引

6.4. WebVTT キューテキスト解析ルール

6.5. WebVTT キューテキストの DOM 構築規則

9.1. `VTTCue` インターフェース

9.2. `VTTRegion` インターフェース

10.1. `text/vtt`

プライバシーとセキュリティに関する考察

スタイリング関連のプライバシーとセキュリティ