MediaStreamTrack コンテンツヒント

概要

この仕様は MediaStreamTrack を拡張し、完全な再現に十分なリソースを利用できない場合にメディアをどのように扱うべきかについてのユーザーの選好を示す任意のヒントを提供します。

この任意のヒントにより、 MediaStreamTrack のシンク、たとえば RTCPeerConnection ([webrtc] で定義) または MediaRecorder ([mediastream-recording] で定義) のように、トラックの音声または映像コンテンツを処理するものが、ユーザーの選好に適した処理パラメーターを選択できるようになります。

音声および音楽を処理するために使用されるアルゴリズムは大きく異なります。音声タイプのコンテンツ向けに開発されたエコーキャンセルアルゴリズムは、音楽ではうまく機能しない可能性があり、ノイズ抑制アルゴリズムはドラムのスネアやその他の「ノイズの多い」コンテンツを除去してしまう可能性があります。これは音声をより明瞭にしますが、音楽信号にはあまり適していません。

映像については、Web カメラのコンテンツは多くの場合ノイズ除去を必要とし、ダウンスケールされた場合や高い量子化レベルの場合でも、多くの場合判別可能です。テキストコンテンツが多いプレゼンテーションまたは Web ページのスクリーンキャストコンテンツは、量子化レベルが高すぎる場合、またはコンテンツがダウンスケールされるか、その他の方法でぼやける場合、完全に判別不能になります。

メディアコンテンツの自動検出がない場合、MediaStreamTrack コンシューマーは、経験に基づく推測しかできません。この推測は、 chrome.desktopCapture のようなスクリーンキャストコンテンツにはテキストコンテンツが含まれており、低い量子化レベルを使用し、ビットレート要件を満たすために大幅にフレームをドロップする必要がある、という仮定に基づく場合があります。別の仮定として、通常の USB 映像デバイスは Web カメラ映像を提供し、より高い量子化レベルとダウンスケーリングが許容可能である、というものがあります。

この経験に基づく推測は通常は適切ですが、誤っている場合には最適でない設定につながります。これは、映画やビデオゲームのストリーミングなどの高モーションコンテンツをスクリーンキャストし、それをテキストとして扱う場合に、高いフレームドロップとして現れます。一方で、非常に詳細なコンテンツを通常の Web カメラ映像として扱うと、ビットレート要件を満たすために可読性を超えて量子化またはダウンスケールされたときに、コンテンツがぼやけすぎます。この不一致は、HDMI 映像キャプチャカードが USB Web カメラとして認識されるが、実際には Web ページのテキストをスクリーンキャストしている場合にも発生する可能性があります。

ダウンスケーリング時に失われるテキストの判読性。 — 図 1 ダウンスケーリングは低ビットレートのシナリオで動きを保持するために行うことができますが、この例は詳細なコンテンツに誤って適用された場合にテキストの判読性が失われることを示しています。この例は、HD から VGA および QVGA 解像度へそれぞれダウンスケーリングすることに対応する、100%、50%、25% の cubic ダウンスケールを示しています。

場合によっては、Web アプリケーションがより精度の高い推測を行うか、ユーザー入力を受け取って、どの種類のコンテンツがエンコードされているかをコンシューマーに通知できます。ビデオゲームコンテンツをストリーミングする Web アプリケーションは、個々のフレームの詳細を犠牲にして、デスクトップキャプチャの動きを保持できます。音楽スタジオアプリケーションは、ノイズ抑制が音楽トラックからスネアを除去することを防ぐことができます。

これらの設定は、エンコーダーレベルの設定を完全に置き換えることを意図したものではなく、映像エンコーダー、音声処理ステップ、またはより広範なチューニングについての幅広い知識を必要としない、より単純なヒントで補完することを意図しています。

この仕様の別のセクションでは、MediaStreamTrack を処理する特定のコンポーネントに期待される動作を説明します。

WebIDLpartial interface MediaStreamTrack {
  attribute DOMString contentHint;
};

この仕様は MediaStreamTrack を拡張し、[GETUSERMEDIA] で定義されるその kind 属性を利用します。

各 MediaStreamTrack には、関連付けられたアプリケーション設定コンテンツヒントがあり、これは初期状態では "" であり、未設定であることを示します。このアプリケーション設定コンテンツヒントは、 MediaStreamTrack の contentHint 属性に対応し、トラック内に含まれるコンテンツの種類についてのヒントを提供し、 MediaStreamTrack コンシューマーによってどのように扱われるべきかを導くために、 Web アプリケーションによって使用できます。

アプリケーション設定コンテンツヒントの有効な値は、含まれる MediaStreamTrack の kind に依存します。 contentHint を value に設定する際は、

この MediaStreamTrack の kind 属性が "audio" であり、かつ value が ""、 "speech"、"speech-recognition"、または "music" のいずれでもない場合、これらの手順を中止します。
この MediaStreamTrack の kind 属性が "video" であり、かつ value が ""、 "motion"、"detail" または "text" のいずれでもない場合、これらの手順を中止します。
この MediaStreamTrack のアプリケーション設定コンテンツヒントを value に設定します。
実装は、この MediaStreamTrack のコンテンツをどのように扱うかについての判断を、そのアプリケーション設定コンテンツヒントの新しい値に従って適応させるべきです。この適応は、合理的に可能な限り迅速に、たとえば次の数個のキャプチャされた映像フレームまたは音声バッファー内で行われるべきです。

contentHint を取得する際は、

この MediaStreamTrack のアプリケーション設定コンテンツヒントを返します。

アプリケーション設定コンテンツヒントの初期値は "" であり、これはヒントが提供されていないことに対応する点に注意してください。含まれるコンテンツの種類についての実装の最善の推測が既定値になるわけではありません。

音声コンテンツヒントは、MediaStreamTrack が音声トラックを含む場合にのみ適用されます。

音声コンテンツヒント
`""`	ヒントは提供されていません。実装は、含まれる音声データをどのように扱うかについて最も情報に基づいた推測を行うべきです。これは、トラックがどのように開かれたか、またはコンテンツ分析を行うことから推論される場合があります。
`"speech"`	トラックは、音声データを含むものとして扱われるべきです。この信号を消費する際には、ノイズ抑制を適用したり、入力信号の明瞭性を高めたりすることが適切な場合があります。
`"speech-recognition"`	トラックは、機械による音声認識を目的としたデータを含むものとして扱われるべきです。この信号を消費する際には、文字起こしのために入力信号の明瞭性を高め、人間による聴取に使用される音声処理コンポーネントをオフにすることが適切な場合があります。
`"music"`	トラックは、音楽データを含むものとして扱われるべきです。一般にこれは、音声データを処理するために使用される音声処理コンポーネントをチューニングする、またはオフにして、音声が歪まないようにすることを意味する場合があります。

映像コンテンツヒントは、MediaStreamTrack が映像トラックを含む場合にのみ適用されます。

映像コンテンツヒント
`""`	ヒントは提供されていません。実装は、含まれる映像コンテンツをどのように扱うべきかについて、最も情報に基づいた推測を行うべきです。これは、たとえばトラックがどのように開かれたか、またはコンテンツ分析を行うことから推論できます。
`"motion"`	トラックは、動きが重要な映像を含むものとして扱われるべきです。これは通常、Web カメラ映像、映画、またはビデオゲームです。対象ビットレートを維持しながら可能な限り動きを保持するために、量子化アーティファクトおよびダウンスケーリングは許容可能です。妥協が必要な低ビットレート時には、エッジ品質および詳細よりも、フレームレートの保持により多くの労力が費やされます。
`"detail"`	トラックは、映像の詳細が特に重要であるかのように扱われるべきです。これは一般に、テキストコンテンツを含むプレゼンテーションまたは Web ページ、絵画、または線画に適用できます。この設定は通常、滑らかな再生よりも、結果として得られる個々のフレームの詳細に最適化します。小さなテキストまたは線画を判読不能にする量子化またはダウンスケーリングによるアーティファクトは避けるべきです。
`"text"`	トラックは、映像の詳細が特に重要であり、重要な鋭いエッジと一貫した色の領域が頻繁に発生しうるものとして扱われるべきです。これは一般に、テキストコンテンツを含むプレゼンテーションまたは Web ページに適用できます。この設定は通常、滑らかな再生よりも、結果として得られる個々のフレームの詳細に最適化し、テキストレンダリングに最適化するエンコーダーツールを利用する場合があります。小さなテキストまたは線画を判読不能にする量子化またはダウンスケーリングによるアーティファクトは避けるべきです。判読性を達成するためにレンダリングがどれほど詳細である必要があるかは文字体系によって異なることに注意してください。この制約は、レンダリングされたテキストが特定の文字体系で判読可能であるという保証を生成しません。

contentHint 値を MediaStreamTrack に設定する場合、 UA は、次のように MUST デフォルトを適用する:

値 "music" を持つ音声トラックについて、かつ制約 echoCancellation、autoGainControl および noiseSuppression については、デフォルトとして "false" を適用します。
値 "speech" を持つ音声トラックについて、かつ制約 echoCancellation および autoGainControl については、デフォルトとして "true" を適用します。
値 "speech-recognition" を持つ音声トラックについて、かつ制約 echoCancellation、autoGainControl、および noiseSuppression については、デフォルトとして "false" を適用します。

制約 c に値 t でデフォルトを適用するには、次の手順を実行します:

値 t が適用された制約を満たす場合、 c に対応する設定を t に設定します。
そうでなければ、適用された制約を満たす、c に対応する設定の値を選択します。
値 t を記憶します。
並列に、新しい設定でトラックを更新します。

その後「apply constraints」アルゴリズムが実行されるたびに、 UA は、現在許可された値である場合、記憶された値 t を MUST 選択する。

"" の contentHint 値を設定する場合、記憶されたすべての t の値は削除されます。

映像をエンコードする際、エンコーダーは多数のパラメーターで構成されます。このテキストでは、解像度、フレームレート、および「エンコードパラメーター」を取り上げます。後者は実装定義ですが、結果として得られる映像の品質、エンコードに必要なリソース、および映像が消費するビットレートの両方に影響を与える可能性があります。ここでは、値が高いほど品質が高くなるが、ビットレートも高くなるものとして扱います。通常、UA は最適なユーザー体験を提供するために、それらすべてを最大化しようとします。

何らかの制約（帯域幅、CPU）により最良のパラメーターでのエンコードが妨げられる場合、エンコーダーはエンコードパラメーターをどのように変更するかを選択しなければなりません。制限のないシナリオでは、より高い解像度とフレームレートによってより高い品質が可能になりますが、帯域幅が制限されている場合、フレームレートと解像度を下げることで、多くの場合、指定された目標ビットレートに対して全体的な映像品質が向上するようにエンコードパラメーターを調整できます。

このセクションでは、その選択を説明する用語と、 API でその選択を示すために使用できる enum を定義します。

WebIDLenum RTCDegradationPreference {
  "maintain-framerate",
  "maintain-resolution",
  "balanced",
  "maintain-framerate-and-resolution"
};

`RTCDegradationPreference` 列挙型の説明
Enum 値	説明
`maintain-framerate`	フレームレートを維持するために解像度を劣化させます。ユーザーエージェントは、ネットワーク制約内で映像品質およびパフォーマンスを最適化するために、解像度を下げることを SHOULD 優先する。
`maintain-resolution`	解像度を維持するためにフレームレートを劣化させます。ユーザーエージェントは、ネットワーク制約内で映像品質およびパフォーマンスを最適化するために、フレームレートを下げることを SHOULD 優先する。
`balanced`	フレームレートと解像度をバランスよく劣化させます。ユーザーエージェントは、ネットワーク制約内で映像品質およびパフォーマンスを最適化するために、フレームレートと解像度をバランスよく下げることを SHOULD 優先する。
`maintain-framerate-and-resolution`	映像品質にかかわらず、フレームレートと解像度を維持します。ユーザーエージェントは、品質およびパフォーマンス上の理由でフレームレートまたは解像度を下げることを SHOULD NOT 優先するが、ネットワークおよびエンコーダーリソースを過剰使用しないために必要であれば、エンコード前にフレームをドロップしても MAY よい。

RTCRtpSendParameters には、これを RTCRtpSender に対して明示的に示すことを可能にする属性が定義されています:

WebIDLpartial dictionary RTCRtpSendParameters {
        RTCDegradationPreference degradationPreference;
       };

degradationPreference 型は RTCDegradationPreference。: 帯域幅が制約され、 RTCRtpSender が解像度を劣化させるかフレームレートを劣化させるかを選択する必要がある場合、 degradationPreference はどちらが優先されるかを示します。

MediaStreamTrack を送信する RTCRtpSender は、その contentHint 属性が設定されている場合、送信者のパラメーターで明示的な degradationPreference 属性が設定されていない限り、次の劣化選好を MUST 使用する:

属性値 "motion" を持つ映像トラックについては、 "maintain-framerate" を使用します。
属性値 "detail" を持つ映像トラックについては、 "maintain-resolution" を使用します。
属性値 "text" を持つ映像トラックについては、 "maintain-resolution" を使用します。さらに、エンコードコーデックが AV1 である場合、"text" モード用のエンコードツールを有効化します。

属性値 "text" を持つ映像トラックについて、エンコードコーデックが AV1 である場合、"text" モード用のエンコードツールを有効化します。

MediaStreamTrack コンテンツヒント

概要

この文書のステータス

1. はじめに

2. 適合性

3. MediaStreamTrack への拡張

3.1 音声コンテンツヒント

3.2 映像コンテンツヒント

4. content-hint に基づく他のコンポーネントの動作

4.1 MediaStreamTrack の動作

4.2 エンコード時の劣化選好

4.2.1 辞書 `RTCRtpSendParameters` の新しいメンバー

4.3 RTCPeerConnection の動作

4.4 MediaStreamRecorder の動作

5. セキュリティおよびプライバシーに関する考慮事項

A. 参考文献

A.1 規範的参考文献

A.2 参考情報文献

MediaStreamTrack コンテンツヒント

概要

この文書のステータス

1. はじめに

2. 適合性

3. MediaStreamTrack への拡張

3.1 音声コンテンツヒント

3.2 映像コンテンツヒント

4. content-hint に 基づく他のコンポーネントの動作

4.1 MediaStreamTrack の動作

4.2 エンコード時の劣化選好

4.2.1 辞書 RTCRtpSendParameters の新しいメンバー

4.3 RTCPeerConnection の動作

4.4 MediaStreamRecorder の動作

5. セキュリティおよびプライバシーに関する 考慮事項

A. 参考文献

A.1 規範的参考文献

A.2 参考情報文献

4. content-hint に基づく他のコンポーネントの動作

4.2.1 辞書 `RTCRtpSendParameters` の新しいメンバー

5. セキュリティおよびプライバシーに関する考慮事項