HTMLにおける音声提示の仕様

概要

テキスト読み上げ（TTS）合成による正確な発音は、多くの文脈で非常に重要であり、教育、出版、コミュニケーション、エンターテインメント、その他の分野では不可欠です。TTSは、Web上のデジタルコンテンツへのアクセスを提供するための重要な技術となっています。しかし、現在、一般的に使用されているTTSエンジンや動作環境全体で、TTSが生成した出力を正しく提示できるようにコンテンツをマークアップする方法はありません。

本公開文書では、ユーザーが使用することを選択する可能性のある動作環境（または支援技術）に関係なく、コンテンツ作者がHTMLコンテンツの信頼できる発音を実現できるようにするための2つのマークアップ手法を示します。各手法は、一貫した結果をもたらすことが実証されています。どちらの手法を W3Cによる規範的な勧告ステータスへ進めるべきかを判断するため、作者および実装者からのフィードバックを求めています。

各候補手法は、Speech Synthesis Markup Language（SSML）のサブセットに基づいています。選択したサブセットは、あらゆる支援技術および動作環境全体で、音声提示に一貫性と予測可能性をもたらすよう慎重に選定されています。本公開文書で説明する2つの技術的手法はいずれも、SSMLがネイティブHTML技術になることを妨げてきた行き詰まりを慎重に回避しているため、一般に適用可能であるはずです。ここで説明するいずれの手法も、支援技術に関する要件を満たし、HTMLコンテンツを音声形式で消費し提示する音声アシスタントにも有用です。 Webコンテンツの音声提示のあらゆる応用にわたって、どの手法が最も実装しやすいかについてフィードバックを求めています。

1. 導入

このセクションは非規範的です。

このFirst Public Working Draft（FPWD）公開文書では、すべての動作環境にわたり、併用される支援技術の有無に関係なく、 Text-to-Speech（TTS）エンジンによる正確で一貫性があり、信頼できる発音を実現するための2つの独立した手法を定義します。これら2つの手法のどちらがより望ましいと考えられるか、そしてその理由について、より広いコミュニティからフィードバックを得るため、現在2つの手法を公開しています。

Text-to-speechは障害のある人にとって必要であり、すべての人にとって有用です。正確な発音は、教育や教育評価（学生のテスト）など、多くの状況で不可欠です。現在、多くのコンピューターやモバイルデバイスにはTTS機能が組み込まれており、障害のない人々にも、運転中や個人用データアシスタントとのやり取りなど、さまざまな状況で一般的に使用されています。

W3CのWeb Content Accessibility Guidelines（WCAG）は、正しい発音の重要性を強調しています。

たとえば英語では、heteronymとは同じつづりでありながら発音と意味が異なる単語であり、 desert（放棄する）とdesert（乾燥地域）などがあります。… さらに、一部の言語では特定の文字がさまざまな方法で発音されることがあります。たとえば日本語には、複数の発音を持つ漢字のような文字があります。 … 誤って読み上げられると、コンテンツはユーザーにとって意味をなさなくなります。達成基準 3.1.6: 発音を理解する

WCAGは正しい発音を示すための多数の回避策を提供していますが、信頼できる技術的解決策を示すことができないため、成功基準 3.1.6をAAAとして分類せざるを得ません。

W3Cには、発音に関連する成熟した仕様が2つあります:

Speech Synthesis Markup Language（SSML）
Pronunciation Lexicon Specification（PLS）

これらは、作者がHTML 文書に発音（および関連する音声提示）マークアップを埋め込めるようにする技術的方法を長年提供してきましたが、SSMLの手法は複数の技術的理由により採用されていません。また、さまざまなブラウザおよび支援技術ベンダーからのフィードバックは、これが有望または実行可能な手法ではないことを示しています。したがって本仕様では、この車輪を再発明しようとはせず、むしろSSMLをHTMLで使用することを妨げてきた長年の技術的障壁を橋渡しします。私たちの手法は両方の仕様に直接依存し、HTML検証で受け入れられる属性としてそれらを包み込みます。

前述のように、2つの候補手法を特定しました:

複数属性 — 1つ以上の要素属性を文字列値とともに使用し、各SSML関数およびプロパティを伝達します。
単一属性 — 単一の要素属性を JavaScriptオブジェクト表記（JSON）文字列とともに使用し、すべてのSSML関数およびプロパティを伝達します。

タスクフォースは、実装者および作者に対し、これらの手法についてフィードバックを提供することを奨励します。分析後、そのフィードバックはどの手法が最終的な規範的W3C勧告になるかを判断する助けとなります。

以下のセクションには、各手法のサンプルコードが含まれます。既存のTTS技術との比較については、音声ファイルを含むサンプルコンテンツの例を参照してください。

編集者注

属性名にdata-プレフィックスを使用することは、編集者の推奨または選好ではありません。むしろ、これはHTML 5.x仕様で定義されている、HTMLへの拡張を開発するための標準的な手法です。この標準に基づく開発手法により、実験的な実装が可能になり、それがさらにこの仕様の発展に役立ちます。

発音の問題および関連するW3C 文書についてのより詳細な導入は、Pronunciation Overviewを参照してください。

2. HTMLにSSMLを含めるための複数属性手法

SSMLタグおよび属性をHTML属性へ変換することにより、作者はHTML文書に発音（および関連する音声提示）を埋め込むことができます。作者は、サポートされるほとんどのタグを相互に組み合わせて、複数の音声効果を適用できます。

SSMLに含まれるマークアップの大部分は、多くのコンテンツ開発者にとって使用に適しています。ただし、phonemeや prosodyなど一部の機能には専門知識が必要になる場合があります。日本の出版社は、SSMLのphoneme要素について、EPUB 3の類似した技法を使用しています。

Edgar Allen PoeのThe Raven:

例 1

<p data-ssml-prosody-rate="slow" data-ssml-prosody-pitch="low">
    Once upon a midnight 
    <span data-ssml-phoneme-alphabet="ipa" data-ssml-phoneme-ph="ˈdrɪəri">dreary</span>
    <span data-ssml-break-time="500ms"></span>,
    while I pondered, weak
    <span data-ssml-break-time="150ms"></span> and weary,<br data-ssml-break-time="500ms" />
    Over many a quaint and curious volume of forgotten
    <span data-ssml-prosody-rate="x-slow" data-ssml-prosody-pitch="low"> lore—</span><br />
    While I nodded, nearly napping, suddenly there came a tapping,
    <br data-ssml-audio-src="/soundlibrary/wood/hits/hits_11" />
    As of some one gently rapping,
    <span data-ssml-audio-src="/soundlibrary/wood/hits/hits_11"></span>
    rapping at my chamber door.
    <span data-ssml-audio-src="/soundlibrary/wood/hits/hits_11"></span>
    <br data-ssml-audio-src="/soundlibrary/wood/hits/hits_11" />
    <span data-ssml-prosody-volume="x-soft" data-ssml-prosody-rate="medium">
      "'Tis some visitor,"
    </span>
    I muttered, <span data-ssml-prosody-volume="x-soft" data-ssml-prosody-rate="x-slow">
    <span data-ssml-phoneme-alphabet="ipa" data-ssem-phoneme-ph="tæpɪŋ">"tapping</span>
    at my chamber door—</span><br data-ssml-break-time="750ms" />
    Only this <span data-ssml-break-strength="weak"></span> and nothing
    <span data-ssml-break-strength="none"></span>
    <span data-ssml-prosody-volume="soft" data-ssml-prosody-rate="75%"> more."</span>
</p>

2.1 `data-ssml-*` 複数属性セット

これらの属性は、対応するSSMLと機能的に等価なものを提供します。これらの属性は、次のHTML要素で有効です:

2.1.1 `data-ssml-say-as(-*)`

作者が要素のテキストコンテンツを分類できるようにします。属性は、SSML say-as要素および関連するプロパティから派生しています。

編集者注

interpret-asは余分であり、暗黙的であるべきと思われます

`data-ssml-say-as`

`data-ssml-say-as-format`（任意）

値: W3C Note、 SSMLの say-as属性値で定義される時刻/日付形式。SSML 1.0 say-as 属性

`data-ssml-say-as-detail`（任意）

値: W3C Note、SSML say-as 属性値で定義されるdetail。SSML 1.0 say-as属性

編集者注

data-ssml-say-as-detail属性により、作者は実装固有のTTSエンジンの機能または挙動を対象にできます。

例 2

According the 2010 US Census, the population of <span data-ssml-say-as='characters'>90274</span>
increased to 25209 from 24976 over the past 10 years.

2.1.2 `data-ssml-phoneme-*`

音素/音声的な発音のための2つの必須属性を定義します。 phoneme属性を持つ要素は、テキストのみを含むことができます（要素は含められません）。これらの属性は、SSML phoneme要素および関連するプロパティから派生しています。

`data-ssml-phoneme-ph`

値: 音素文字列。

`data-ssml-phoneme-alphabet`

値: 使用される音声記号体系。ipa | x-sampa

例 3

Once upon a midnight <span data-ssml-alphabet="ipa" data-ssml-phoneme-ph="ˈdrɪəri">dreary</span>

2.1.3 `data-ssml-sub-alias`

発音のためにテキストコンテンツを置き換える文字列値です。 aria-labelと似ていますが、aliasはつづり（すなわち点字ディスプレイ）を変更しません。さらに、alias属性はアクセシビリティツリーにアクセスしないTTS技術でも使用できます。プロセッサーはalias 値にテキスト正規化を適用するべきです。この属性は、SSML sub要素および関連するプロパティから派生しています。

値: 置換され、提示のためにTTSへ渡されるテキスト文字列。

例 4

<span data-ssml-sub-alias="Sodium Chloride">NaCL</span>

2.1.4 `data-ssml-voice-*`

話者音声の変更を要求する生成値を定義する属性の集合です。voice要素には2種類の属性があります。 1つは音声の望ましい特徴を示す属性、もう1つは挙動を制御する属性です。これらの属性は、SSML voice要素および関連するプロパティから派生しています。

`data-ssml-voice-gender`（任意）

値: female | male | neutral

`data-ssml-voice-age`（任意）

値: 年齢（年単位）に対応するinteger

`data-ssml-voice-variant`（任意）

値: 数値の音声バリアントを示すinteger

`data-ssml-voice-name`（任意）

値: 現在のTTSエンジンに要求する特定の音声名（例: "David"）。

`data-ssml-voice-languages`（任意）

値: この音声で読み上げられる1つ以上の言語を空白区切りで列挙したstring。

編集者注

data-ssml-voice-languages属性は、 TTSエンジンが適切な音声を選択するのを支援するだけです。コンテンツの言語を示すものではありません。言語を指定するには、 HTMLの lang属性を使用してください。

例 5

She said, "<span data-ssml-voice-gender="female">My name is Marie</span>".

2.1.5 `data-ssml-emphasis-level`

テキストコンテンツを強調して（prominenceまたはstressとも呼ばれます）読み上げるよう要求します。これは単一の属性であり、 SSML emphasis要素および関連するプロパティから派生しています。

値: strong | moderate | none | reduced

例 6

Please use <span data-ssml-emphasis-level="strong">extreme caution.</span>

2.1.6 `data-ssml-break-*`

トークン間のポーズまたはその他の韻律的境界を制御するため、空要素に関連付けられるタイミングを記述します。任意のトークン対の間でbreak属性を使用することは任意です。要素がトークン間に存在しない場合、合成プロセッサーは、言語的文脈に基づいて自動的にbreakを判断することが期待されます。これらの属性は、SSML break要素および関連するプロパティから派生しています。

`data-ssml-break-strength`

`data-ssml-break-time`

値: "250ms"、"1s"など、数値形式で表された時間継続時間を含むstring。

例 7

Take a deep breath,<span data-ssml-break-time="1s"></span> and exhale.

2.1.7 `data-ssml-prosody-*`

音声出力のピッチ、読み上げ速度、音量の制御を許可します。これらの属性は、SSML prosody要素および関連するプロパティから派生しています。

`data-ssml-prosody-pitch`（任意）

`data-ssml-prosody-contour`（任意）

値: SSML 1.1勧告で定義される輪郭変化パラメーターの string。

`data-ssml-prosody-range`（任意）

値: SSML 1.1 勧告で定義されるrange値のstring。

`data-ssml-prosody-rate`（任意）

`data-ssml-prosody-duration`（任意）

値: 時間継続時間（例: "250ms"、 "1s"など）を含むstring。

`data-ssml-prosody-volume`（任意）

例 8

The tortoise, said (slowly) "<span data-ssml-prosody-rate="x-slow">
I am almost at the finish line</span>."

2.1.8 `data-ssml-audio-*`

合成音声出力と組み合わせた録音済み音声ファイルの挿入をサポートします。要素は空でもかまいません。要素が空でない場合、音声文書が利用できないときには、その内容が読み上げられるべきです。これらの属性は、SSML audio要素および関連するプロパティから派生しています。

`data-ssml-audio-src`

値: 適切なメディアファイルを持つ文書のURI。

`data-ssml-audio-fetchtimeout` （任意）

値: 時間継続時間（例: "250ms"、 "1s"など）を含むstring。

`data-ssml-audio-fetchint`（任意）

値: safe | prefetch

`data-ssml-audio-maxage`（任意）

値: string

`data-ssml-audio-maxstale`（任意）

値: string

`data-ssml-audio-clipBegin`（任意）

値: 時間継続時間（例: "250ms"、 "1s"など）を含むstring。

`data-ssml-audio-clipEnd`（任意）

値: 時間継続時間（例: "250ms"、 "1s"など）を含むstring。

`data-ssml-audio-repeatCount`（任意）

値: 音声クリップを繰り返す回数を示す integer。

`data-ssml-audio-repeatDur`（任意）

値: 時間継続時間（例: "250ms"、 "1s"など）を含むstring。

例 9

You will hear a brief chime <span data-ssml-audio-src="/audio/chime.ogg"></span> 
when your time is up.

3. HTMLにSSMLを含めるための単一属性手法

SSMLタグおよび属性をJSON文字列値を持つ単一のHTML属性に変換することにより、作者はHTML文書に発音（および関連する音声提示）を埋め込むことができます。作者は、サポートされるほとんどのタグを相互に組み合わせて、複数の音声効果を適用できます。

SSMLに含まれるマークアップの大部分は、多くのコンテンツ開発者にとって使用に適しています。ただし、phonemeや prosodyなど一部の機能には専門知識が必要になる場合があります。この手法は、 IMS Question & Test Interoperability（QTI）Specificationに準拠するコンテンツを変換する手段として生まれました。QTI 標準は、教育評価で使用されるTTSツールのために、HTMLにSSMLを含めることをサポートしています。

Edgar Allen PoeのThe Raven:

例 1

<p data-ssml='{"prosody":{"rate":"slow","pitch":"low"}}'>
	Once upon a midnight
        <span data-ssml='{"phoneme":{"alphabet":"ipa","ph":"ˈdrɪəri"}}'>dreary</span>
	<span data-ssml='{"break":{"time":"500ms"}'></span>,
	while I pondered, weak
	<span data-ssml='{"break":{"time":"150ms"}'></span> and weary,
        <br data-ssml='{"break":{"time":"500ms"}' />
	Over many a quaint and curious volume of forgotten 
	<span data-ssml='{"prosody":{"rate":"x-slow","pitch":"low"}}'>lore—</span><br />
	While I nodded, nearly napping, suddenly there came a tapping,
	<br data-ssml='{"audio":{"src":"/soundlibrary/wood/hits/hits_11"}}'/>
	As of some one gently rapping,
	<span data-ssml='{"audio":{"src":"/soundlibrary/wood/hits/hits_11"}}'></span>
	rapping at my chamber door.
	<span data-ssml='{"audio":{"src":"/soundlibrary/wood/hits/hits_11"}}'></span>
	<br data-ssml='{"audio":{"src":"/soundlibrary/wood/hits/hits_11"}}' />
	<span data-ssml='{"prosody":{"volume":"x-soft","rate":"medium"}}'>
          "'Tis some visitor,"
        </span>
	I muttered, <span data-ssml='{"prosody":{"volume":"x-soft","rate":"x-slow"}}'>
	<span data-ssml='{"phoneme":{"alphabet":"ipa","ph":"tæpɪŋ"}}'>"tapping</span>
	at my chamber door—</span><br data-ssml='{"break":{"time":"750ms"}'/>
	Only this<span data-ssml='{"break":{"strength":"weak"}'></span>
	and nothing<span data-ssml='{"break":{"strength":"none"}'> </span>
	<span data-ssml='{"prosody":{"volume":"soft","rate":"75%"}}'>more."</span>
</p>

3.1 `data-ssml` 属性、プロパティ、および値

以下のプロパティが定義され、対応するSSMLと機能的に等価なものを提供します。

data-ssmlは、SSMLと機能的に等価なものを提供します。この属性は、次のHTML要素で有効です:

data-ssml属性の値は、単一引用符（'）で囲まれた JSON文字列であり、特定のSSML関数を表す単一のJSONオブジェクトを 1つ以上のプロパティ/値ペアとともに含みます。有効なオブジェクト、プロパティ、および関連する値は、以下のセクションで定義されます。 JSONスキーマは付録Aに示されています。

3.1.1 `say-as`

作者が要素のテキストコンテンツを分類できるようにします。JSON 定義は、SSML say-as要素および関連するプロパティから派生しています。

`interpret-as`

`format`（任意）

値: W3C Note SSML say-as属性値で定義される時刻/日付形式。

`detail`（任意）

値: W3C Note SSML say-as 属性値で定義されるdetail。

編集者注

detailプロパティにより、作者は実装固有のTTSエンジンの機能または挙動を対象にできます。

例 2

According the 2010 US Census, the population of 
<span data-ssml='{"say-as":{"interpret-as":"characters"}}'>90274</span>
increased to 25209 from 24976 over the past 10 years.

3.1.2 `phoneme`

音素/音声的な発音のための2つの必須属性を定義します。 phoneme属性を持つ要素は、テキストのみを含むことができます（要素は含められません）。 JSON定義は、SSML phoneme要素および関連するプロパティから派生しています。

`ph`

値: 読み上げられるコンテンツに対応する音声文字を含むstring

`data-ssml-phoneme-alphabet`

値: ipa | x-sampa。ph文字列で使用される音声記号体系を定義します

例 3

Once upon a midnight 
<span data-ssml='{"phoneme":{"alphabet":"ipa","ph":"ˈdrɪəri"}}'>dreary</span>

3.1.3 `sub`

alias属性値内のテキストが、発音のためにテキストコンテンツを置き換えることを示します。必須のalias プロパティは、テキストコンテンツの代わりに読み上げられる文字列を指定します。プロセッサーはalias値にテキスト正規化を適用するべきです。 JSON定義は、SSML sub要素および関連するプロパティから派生しています。

`alias`

値: subが適用される要素のテキストコンテンツの代替として読み上げられるテキストを含むstring。

例 4

<span data-ssml='{"sub":{"alias":"Sodium Chloride"}}'>NaCL</span>

3.1.4 `voice`

話者音声の変更を要求します。voiceには 2種類の属性があります。1つは音声の望ましい特徴を示すもの、もう1つは挙動を制御するものです。JSON定義は、 SSML voice要素および関連するプロパティから派生しています。

`gender`（任意）

値: female | male | neutral

`age`（任意）

値: 年齢（年単位）に対応するinteger

`variant`（任意）

値: 数値の音声バリアントを示すinteger

`name`（任意）

値: 現在のTTSエンジンに要求する特定の音声名を定義するstring。例: "Microsoft David (English)"

`languages`（任意）

値: この音声で読み上げられる1つ以上の言語を空白区切りで列挙したstring。

編集者注

voice > languagesプロパティは、 TTSエンジンが適切な音声を選択するのを支援するだけです。コンテンツの言語を示すものではありません。言語を指定するには、 HTMLのlang属性を使用してください。

例 5

She said, "<span data-ssml='{"voice":{"gender":"female"}}'>My name is Marie</span>".

3.1.5 `emphasis`

emphasisが適用される要素のテキストコンテンツを強調して（prominenceまたはstressとも呼ばれます）読み上げるよう要求します。JSON定義は、SSML emphasis要素および関連するプロパティから派生しています。

`level`

値: strong | moderate | none | reduced

例 6

Please use <span data-ssml='{"emphasis":{"level":"strong"}}'>extreme caution.</span>

3.1.6 `break`

トークン間のポーズまたはその他の韻律的境界を制御するため、空要素に関連付けられるタイミングを記述します。任意のトークン対の間でbreakを使用することは任意です。要素がトークン間に存在しない場合、合成プロセッサーは言語的文脈に基づいて自動的にbreakを判断することが期待されます。JSON 定義は、SSML break要素および関連するプロパティから派生しています。

`strength`

`time`

値: "250ms"、"1s"など、数値形式で表された時間継続時間を含むstring（s=秒、ms=ミリ秒）

例 7

Take a deep breath,<span data-ssml='{"break":{"time":"1s"}}'></span> and exhale.

3.1.7 `prosody`

音声出力のピッチ、読み上げ速度、音量の制御を許可します。このオブジェクトには6つのプロパティがあります。JSON定義は、 SSML prosody要素および関連するプロパティから派生しています。

`pitch`

`contour`

値: SSML 1.1勧告で定義される輪郭変化パラメーターのstring

`range`

値: SSML 1.1勧告で定義されるrange値の string

`rate`

`duration`

値: "250ms"、"1s"など、数値形式で表された時間継続時間を含むstring。

`volume`

例 8

The tortoise, said (slowly) "
<span data-ssml='{"prosody":{"rate":"x-slow"}}'>I am almost at the finish line</span>."

3.1.8 `audio`

合成音声出力と組み合わせた録音済み音声ファイルの挿入をサポートします。要素は空でもかまいません。要素が空でない場合、音声文書が利用できないときには、その内容は読み上げられるテキストであるべきです。JSON定義は、SSML audio要素および関連するプロパティから派生しています。

`src`

値: 適切なメディアファイルを持つ文書のURI。

`fetchtimeout`

値: "250ms"、"1s"など、数値形式で表された時間継続時間を含むstring。

`fetchint`

値: safe | prefetch

`maxage`

値: string

`maxstale`

値: string

`clipBegin`

値: "250ms"、"1s"など、数値形式で表された時間継続時間を含むstring。

`clipEnd`

値: "250ms"、"1s"など、数値形式で表された時間継続時間を含むstring。

`repeatCount`

値: 音声クリップを繰り返す回数を示す integer。

`repeatDur`

値: "250ms"、"1s"など、数値形式で表された時間継続時間を含むstring。

例 9

You will hear a brief chime 
<span data-ssml='{"audio":{"src":"/audio/chime.ogg"}}'></span> when your time is up.

HTMLにおける音声提示の仕様

W3C作業草案 2021年9月23日

概要

この文書のステータス

1. 導入

2. HTMLにSSMLを含めるための複数属性手法

2.1 data-ssml-* 複数属性セット

2.1.1 data-ssml-say-as(-*)

data-ssml-say-as

data-ssml-say-as-format（任意）

data-ssml-say-as-detail（任意）

2.1.2 data-ssml-phoneme-*

data-ssml-phoneme-ph

data-ssml-phoneme-alphabet

2.1.3 data-ssml-sub-alias

2.1.4 data-ssml-voice-*

data-ssml-voice-gender（任意）

data-ssml-voice-age（任意）

data-ssml-voice-variant（任意）

data-ssml-voice-name（任意）

data-ssml-voice-languages（任意）

2.1.5 data-ssml-emphasis-level

2.1.6 data-ssml-break-*

data-ssml-break-strength

data-ssml-break-time

2.1.7 data-ssml-prosody-*

data-ssml-prosody-pitch（任意）

data-ssml-prosody-contour（任意）

data-ssml-prosody-range（任意）

data-ssml-prosody-rate（任意）

data-ssml-prosody-duration（任意）

data-ssml-prosody-volume（任意）

2.1.8 data-ssml-audio-*

data-ssml-audio-src

data-ssml-audio-fetchtimeout （任意）

data-ssml-audio-fetchint（任意）

data-ssml-audio-maxage（任意）

data-ssml-audio-maxstale（任意）

data-ssml-audio-clipBegin（任意）

data-ssml-audio-clipEnd（任意）

data-ssml-audio-repeatCount（任意）

data-ssml-audio-repeatDur（任意）

3. HTMLにSSMLを含めるための単一属性手法

3.1 data-ssml 属性、プロパティ、および値

3.1.1 say-as

interpret-as

format（任意）

detail（任意）

3.1.2 phoneme

ph

data-ssml-phoneme-alphabet

3.1.3 sub

alias

3.1.4 voice

gender（任意）

age（任意）

variant（任意）

name（任意）

languages（任意）

3.1.5 emphasis

level

3.1.6 break

strength

time

3.1.7 prosody

pitch

contour

range

rate

duration

volume

3.1.8 audio

src

fetchtimeout

fetchint

maxage

maxstale

clipBegin

clipEnd

repeatCount

2.1 `data-ssml-*` 複数属性セット

2.1.1 `data-ssml-say-as(-*)`

`data-ssml-say-as`

`data-ssml-say-as-format`（任意）

`data-ssml-say-as-detail`（任意）

2.1.2 `data-ssml-phoneme-*`

`data-ssml-phoneme-ph`

`data-ssml-phoneme-alphabet`

2.1.3 `data-ssml-sub-alias`

2.1.4 `data-ssml-voice-*`

`data-ssml-voice-gender`（任意）

`data-ssml-voice-age`（任意）

`data-ssml-voice-variant`（任意）

`data-ssml-voice-name`（任意）

`data-ssml-voice-languages`（任意）

2.1.5 `data-ssml-emphasis-level`

2.1.6 `data-ssml-break-*`

`data-ssml-break-strength`

`data-ssml-break-time`

2.1.7 `data-ssml-prosody-*`

`data-ssml-prosody-pitch`（任意）

`data-ssml-prosody-contour`（任意）

`data-ssml-prosody-range`（任意）

`data-ssml-prosody-rate`（任意）

`data-ssml-prosody-duration`（任意）

`data-ssml-prosody-volume`（任意）

2.1.8 `data-ssml-audio-*`

`data-ssml-audio-src`

`data-ssml-audio-fetchtimeout` （任意）

`data-ssml-audio-fetchint`（任意）

`data-ssml-audio-maxage`（任意）

`data-ssml-audio-maxstale`（任意）

`data-ssml-audio-clipBegin`（任意）

`data-ssml-audio-clipEnd`（任意）

`data-ssml-audio-repeatCount`（任意）

`data-ssml-audio-repeatDur`（任意）

3.1 `data-ssml` 属性、プロパティ、および値

3.1.1 `say-as`

`interpret-as`

`format`（任意）

`detail`（任意）

3.1.2 `phoneme`

`ph`

`data-ssml-phoneme-alphabet`

3.1.3 `sub`

`alias`

3.1.4 `voice`

`gender`（任意）

`age`（任意）

`variant`（任意）

`name`（任意）

`languages`（任意）

3.1.5 `emphasis`

`level`

3.1.6 `break`

`strength`

`time`

3.1.7 `prosody`

`pitch`

`contour`

`range`

`rate`

`duration`

`volume`

3.1.8 `audio`

`src`

`fetchtimeout`

`fetchint`

`maxage`

`maxstale`

`clipBegin`

`clipEnd`

`repeatCount`

`repeatDur`