要約

{{MediaDevices/getDisplayMedia()}} などの既存のメカニズムは、Webアプリケーションが画面キャプチャを開始することを可能にします。ユーザーがタブをキャプチャすることを選択した場合、 [[mediacapture-region|Region Capture]] などのメカニズムは、結果として得られるビデオトラックを変化させ、それ以降に生成されるすべてのフレームに対して操作を実行します。([[mediacapture-region|Region Capture]] の例では、その操作は、対象要素のバウンディングボックスとフレームの交差部分にフレームを切り抜くことから成ります。)

Element Capture は、私たちが「制限 (restriction)」と名付ける新しい変化メカニズムを導入します。アプリケーションがビデオトラックを特定の対象要素に「制限」すると、制限されたビデオトラックで生成されるフレームは、その対象要素とその子孫からの情報のみで構成されます。言い換えれば、トラックは対象要素をルートとするDOMサブツリーのキャプチャになります。

ユースケース

一般的なユースケース

[[mediacapture-region|Region Capture]] は、アプリケーションがキャプチャを切り抜くことを可能にします。ある要素 TARGET が制限対象であると仮定します。 TARGET のDOM子孫ではない他の要素が、TARGET の前面に描画される場合はどうなるでしょうか。[[mediacapture-region|Region Capture]] を使用すると、これらの他の要素もキャプチャされてしまいますが、これは必ずしも望ましいことではありません。 TARGET のバウンディングボックスに切り抜きつつ、DOM子孫ではないコンテンツをキャプチャから除外できるメカニズムが求められています。

実践的なユースケース #1: アプリの一部を記録する

「エディタ」Webアプリケーション (テキストエディタ、画像エディタ、スライドエディタ、またはビデオエディタ) を考えてみましょう。このようなアプリケーションは多くの場合、メインコンテンツ領域を含み、その周囲にはローカルユーザーがメインコンテンツ領域のコンテンツを編集できるようにするさまざまなツールバー、ドロップダウンメニュー、ウィジェットが配置されています。

Webアプリケーションがメインコンテンツ領域のみを記録し、それをリモート参加者に「ライブ」で送信したり、ディスクに記録したりしたい場合があります。このようなアプリケーションは、メインコンテンツ領域以外のものに、ストレージ、帯域幅、またはリモート参加者の画面領域を必ずしも費やしたくはないでしょう。

[[mediacapture-region|Region Capture]] などのメカニズムは、対象要素のバウンディングボックスへの切り抜きに役立ちますが、ドロップダウンリストが一時的にその上に描画される場合はどうなるでしょうか。

実践的なユースケース #2: ビデオ会議中の共同作業ツール

ビデオ会議アプリケーションは、しばしば「タイル」を使用して自身を配置します。各リモート参加者のビデオはタイルに表示されます。テキストエディタや画像編集アプリケーションのような共同作業Webアプリケーションが別のiframeに読み込まれ、このiframeもタイルとして表示されると仮定します。

一部のリモート参加者も同様に、専用のタイルに同じツールを読み込むでしょう。しかし、一部のユーザーがそのツールを読み込むために必要な権限を持っていない場合はどうなるでしょうか。あるいは、そのツールをサポートしていないプラットフォームから参加している場合はどうでしょうか。

その場合、ビデオ会議ソリューションは、ツールを正常に読み込んだ参加者の一人に、ツールを読み込めないユーザーに対してそのツールのタイルを画面共有させることを選択し、彼らが少なくともそれを閲覧できるようにするかもしれません (操作はできませんが)。これは、 {{MediaDevices/getDisplayMedia()}} と [[mediacapture-region|Region Capture]] による自己キャプチャを使用して行うことができます。

しかし、このようなソリューションにはいくつかの問題があります。他の要素が、一時的にせよ恒久的にせよ、ツールタイルの上に描画される場合はどうなるでしょうか。例としては次のものが挙げられます:

ビデオ会議アプリケーション内で送信されるプライベートメッセージ。
新しいユーザーからの参加リクエスト。
タイルレイアウト変更中の他のタイル。
ビデオ会議アプリケーションの他の要素からのドロップダウンリスト。

RestrictionTarget Production

RestrictionTarget を定義する動機

本文書で提示される [=restriction mechanism=] ({{BrowserCaptureMediaStreamTrack/restrictTo}}) は、直接のノード参照ではなく {{RestrictionTarget}} トークンに依存しています。これにより、ある文書による、別の文書で指定された対象要素への制限が可能になります。

{{BrowserCaptureMediaStreamTrack/cropTo()}} と {{BrowserCaptureMediaStreamTrack/restrictTo()}} はそれぞれ異なるトークン型 - {{CropTarget}} と {{RestrictionTarget}} - を使用するため、文書は自身をキャプチャする文書に付与する能力を制限することが可能です。

RestrictionTarget の定義

RestrictionTarget は、意図的に空の不透明な識別子です。その目的は、 {{BrowserCaptureMediaStreamTrack/restrictTo}} に入力として渡されることです。

          [Exposed=(Window,Worker), Serializable]
          interface RestrictionTarget {
            [Exposed=Window, SecureContext] static Promise<RestrictionTarget> fromElement(Element element);
          };

fromElement()

サポートされている型の {{Element}} を指定して {{RestrictionTarget/fromElement}} を呼び出すと、その {{Element}} が {{RestrictionTarget}} に関連付けられます。この {{RestrictionTarget}} は {{BrowserCaptureMediaStreamTrack/restrictTo}} への入力として使用できます。私たちは、まだアクティブな文書内での {{RestrictionTarget.fromElement()}} の呼び出しによって返されたものを、有効な RestrictionTarget として定義します。

指定された |element| を伴って {{RestrictionTarget/fromElement}} が呼び出されると、ユーザーエージェントは |element| を入力として [=create a RestrictionTarget|RestrictionTarget を作成=] します。ユーザーエージェントは {{Promise}} |p| を返さなければなりません (MUST)。ユーザーエージェントは、新しい {{RestrictionTarget}} に関連付けられた状態の必要な内部伝播をすべて完了した後にのみ |p| を解決しなければならず (MUST)、その時点でユーザーエージェントは新しい {{RestrictionTarget}} を {{BrowserCaptureMediaStreamTrack/restrictTo}} への有効なパラメータとして受け取る準備ができていなければなりません (MUST)。

以前に {{RestrictionTarget/fromElement}} が呼び出された {{Element}} を複製する場合、その複製はいかなる {{RestrictionTarget}} にも関連付けられません。後で複製に対して {{RestrictionTarget/fromElement}} が呼び出された場合、新しい {{RestrictionTarget}} がそれに割り当てられます。

|element| を入力として create a RestrictionTarget するには、以下の手順を実行します:

|restrictionTarget| を型 {{RestrictionTarget}} の新しいオブジェクトとします。
|restrictionTarget|.[[\Element]] を |element| に設定します。

{{RestrictionTarget}} オブジェクトはシリアライズ可能です。|value|、|serialized|、およびブール値 |forStorage| が与えられた場合の [=serialization steps=] は次のとおりです:

|forStorage| が true の場合、{{DOMException/name}} 属性が {{"DataCloneError"}} の値を持つ新しい {{DOMException}} オブジェクトをスローします。
|serialized|.[[\RestrictionTargetElement]] を |value|.{{RestrictionTarget/[[Element]]}} に設定します。

|serialized| および |value| が与えられた場合の [=deserialization steps=] は次のとおりです:

|value|.{{RestrictionTarget/[[Element]]}} を |serialized|.[[\RestrictionTargetElement]] に設定します。

Restriction Mechanism

定義

制限可能なトラック

私たちは、{{MediaStreamTrack}} |T| が以下のすべての条件を満たす場合に限り、それを制限可能な MediaStreamTrack (restrictable MediaStreamTrack) と呼びます:

|T|.{{MediaStreamTrack/[[Restrictable]]}} が true である。
|T| がブラウザディスプレイサーフェスに関連付けられている。(つまり、|T|.{{MediaStreamTrack/getSettings()}} が呼び出された場合、キー {{MediaTrackSettings/displaySurface}} が値 {{DisplayCaptureSurfaceType/"browser"}} にマッピングされた {{MediaTrackSettings}} ディクショナリを返したであろうということ。)
|T|.[[\Kind]] が "video" である。
|T|.[[\ReadyState]] が "live" である。

制限の対象となる資格を持つ要素

私たちは、{{Element}} |E| が以下のすべての条件を満たす場合に限り、それが制限の対象となる資格を持つ (eligible for restriction) と言います:

|E| がスタッキングコンテキストを形成する。
|E| が 3Dで平坦化されている。
|E| がバックドロップルートを形成する。
|E| がちょうど1つのボックスフラグメントを持つ。
|E| がレンダリングされている。

これらの条件が成り立つことを保証するために、開発者は次のスニペットのようなCSSを使用できます:

              #target {
                isolation: isolate;     /* Forms a stacking context. */
                transform-style: flat;  /* Flattened. */
              }

有効な制限対象

私たちは、{{Element}} |E| が、以下のすべての条件が成り立つ場合に限り、{{MediaStreamTrack}} |T| に対する有効な制限対象 (valid restriction target) であると言います:

|T| が [=restrictable MediaStreamTrack=] である。
|E| が [=eligible for restriction=] である。
|T| のソースであるディスプレイサーフェスの [=top-level browsing context=] が、|E| の [=shadow-including root=] である。

非公式には、これは |T| がタブキャプチャに関連付けられたアクティブなビデオトラックであり、 |E| がキャプチャされたタブ内のDOMに [=connected=] された要素であることを意味します。

{{Element}} |E| が {{MediaStreamTrack}} |T| に対する [=valid restriction target=] であるかどうかは、キャプチャの開始前または開始後、ならびに制限の開始前または開始後のいずれにおいても変化する可能性があることに注意してください。例としては次のものが挙げられます:

|T| がプログラム的に停止される。
|T| がユーザーによって停止される。
ユーザーエージェントおよび/またはオペレーティングシステムとのユーザーの操作により、 |T|.[[\Source]] が変化する。
|E| のCSS属性のセットが変化し、|E| がもはや [=eligible for restriction=] でなくなる。

無効性は、有効性が回復するまで追加のフレームを抑制します。

BrowserCaptureMediaStreamTrack 拡張

[[mediacapture-region|Region Capture]] は {{BrowserCaptureMediaStreamTrack}} インターフェースを導入しました。私たちはそれを新しいメソッド {{BrowserCaptureMediaStreamTrack/restrictTo}} で拡張します。

          [Exposed = Window]
          partial interface BrowserCaptureMediaStreamTrack {
            Promise<undefined> restrictTo(RestrictionTarget? RestrictionTarget);
          };

以下でキューに入れられるすべてのタスクは、{{BrowserCaptureMediaStreamTrack}} と同じグローバルオブジェクトに関連付けられたレンダリングタスクソースを使用します。

restrictTo()

このメソッドの呼び出しは、ビデオトラックの制限を開始/停止するようユーザーエージェントに指示します。

|restrictionTarget| を最初のパラメータとして呼び出された場合、ユーザーエージェントは以下のアルゴリズムを実行しなければなりません (MUST):

[=this=] が [=restrictable MediaStreamTrack=] でない場合、新しい {{NotSupportedError}} で [=rejected=] された {{Promise}} を返します。
|p| を新しい {{Promise}} とします。
以下の手順を並行して実行します:
1. |E| を |restrictionTarget|.{{RestrictionTarget/[[Element]]}} とします。
2. [=this=] ビデオトラックの crop-state を uncropped に更新します。
3. |restrictionTarget| に応じて [=this=] ビデオトラックの [=restriction-state=] を更新します:
  1. |restrictionTarget| が {{undefined}} でない場合、ユーザーエージェントは [=this=] ビデオトラックの [=restriction-state=] を [=restricted=] に設定し、 |restrictionTarget| を対象として [=this=] ビデオトラックに配信されるすべてのフレームに対して [=applying the restriction transformation=] を開始しなければなりません (MUST)。
  2. |restrictionTarget| が {{undefined}} に設定されている場合、ユーザーエージェントは [=this=] ビデオトラックの [=restriction-state=] を [=unrestricted=] に設定し、 [=this=] ビデオトラックに配信されるフレームに対して [=applying the restriction transformation=] を停止しなければなりません (MUST)。
4. このメソッド呼び出し前のトラックの状態を |preState| と呼び、このメソッド呼び出し後の状態を |postState| と呼びます。ユーザーエージェントは、 |preState| に従って [=restricted=] (または [=unrestricted=]) されたこれ以上のフレームがアプリケーションに配信されないことが保証され、かつアプリケーションに配信される追加のフレームがすべて、|postState| またはそれ以降の状態に従って [=restricted=] (または [=unrestricted=]) されることになる場合に、|p| を解決するためにグローバルタスクをキューに入れなければなりません (MUST)。
|p| を返します。

Applying the restriction transformation

|E| を |restrictionTarget|.{{RestrictionTarget/[[Element]]}} とします。
|E| が |T| に対する [=valid restriction target=] でない場合、新しいフレームを生成せずに中止します。
|intersection| を、|E| のバウンディングボックスと、キャプチャされたサーフェスの [=top-level browsing context=] のビューポートとの交差部分とします。
|intersection| が空の場合、新しいフレームを生成せずに中止します。
これまでの手順の帰結として、|E| はスタッキングコンテキストを形成します。そのスタッキングコンテキストの独立したレンダリングを |intersection| にクリップしたものから成るフレームを生成して配信します。

最終ステップで生成されるフレームは、|E| とその子孫を無限の透明なキャンバスの上にレンダリングし、装飾されたバウンディングボックスの端がフレームの端とぴったり一致するように配置することで構築されます。

一部の実装では、フレームデータの基礎となるピクセルフォーマットがアルファチャンネル情報を保持できない場合があります。この場合、実装はレンダリングされたフレームを黒 (`rgb(0,0,0)`) の無限のキャンバスとブレンドできます。

実装は、|E| のために生成された既存のビットマップデータを再利用するか、フレームのサイズで品質を最大化するために要素の表示を再生成するかのいずれかを行うことができます (例えば、参照される要素が SVGフラグメントであることを実装が検出した場合)。ただし、フレームは、ラスタライズ品質の違いを別として、上記でレンダリングされた |E| と同一に見えなければなりません。

プライバシーとセキュリティに関する考慮事項

このAPIの利点

悪意のないアプリケーションにとって、本仕様によって導入されるAPIは純粋にプラスとなるはずです。なぜなら、責任あるアプリケーションが記録される情報を削減することを可能にするからです。これには好ましい特性があります。

例えば、既存のメカニズムを使用すると、ビデオ会議アプリケーションは次のことができます:

コンテンツをiframeに埋め込む。
現在のタブをキャプチャするようユーザーに促す。({{MediaDevices/getDisplayMedia()}} を使用して。)
結果として得られるキャプチャを、キャプチャを意図したiframeだけに切り抜く。 ({{BrowserCaptureMediaStreamTrack/cropTo()}} を使用して。)
結果として得られるピクセルをリモート参加者に送信する。 (RTCPeerConnection を使用して。)

しかし、これはリスクを伴います。なぜなら、キャプチャを意図したコンテンツの前面に偶然描画されるあらゆるコンテンツも、リモートに送信されてしまうからです。これがほんの一瞬であっても、リモートユーザーが気づくかもしれません。そして、そのようなコンテンツは非常にプライベートなものである可能性があります - 例えば、チャット通知、リマインダー、スピーカーノートなど。

本仕様で導入されるメカニズムは、責任あるアプリケーションが、そのような問題が起こり得ないことを完全に保証する方法で自身を構成することを可能にします。そのようなアプリケーションは、ユーザーに対するプライバシーの保証をより簡単に行い、維持することができます。

このAPIに関する懸念

クロスオリジンのピクセルの読み取り

本仕様で導入されるメカニズムはすべて、自己キャプチャが他の何らかの手段 - 通常は {{MediaDevices/getDisplayMedia()}} - によって提供されることに依存しています。これらに関する主な懸念は、アプリケーションにクロスオリジンコンテンツへの読み取りアクセスを許可することです。

悪意のあるアプリケーションがユーザーを騙して自己キャプチャを承認させると、その後、目に見えない iframeにクロスオリジンコンテンツを読み込み、そのコンテンツを前面に持ってくることができ、ユーザーが反応する前に攻撃者がコンテンツを読み取ることを可能にします。このような攻撃は、本仕様で導入されるメカニズムがなくても、すでに可能です。

古い攻撃ベクトルの悪化

主な懸念は、本仕様で導入するメカニズムが、上記で説明した古い攻撃ベクトルを 悪化させる べきではないということです。私たちが導入するメカニズムが、古い攻撃を ひそかに 実行することを可能にするのではないかと、当然ながら懸念されます。私たちは、ここで導入されるメカニズムが攻撃者の攻撃を隠す能力を増大させるものではないと主張します。そのような攻撃の隠蔽は、以下のいずれかの手法を使用して常に可能でした:

コンテンツを短時間表示する。 攻撃者は常に、単一フレームの時間幅だけコンテンツを画面に一瞬表示することができました。これは記録するには十分な長さですが、ユーザーが理解するには十分な長さではありません。
コンテンツを断片的に表示する。 攻撃者は常に、コンテンツを複数の小さな断片、さらには各1ピクセルにまで分割し、それらを異なる場所と時間に表示することができました。ユーザーはこの操作を観察できませんが、ソフトウェアがこれらのピクセルを収集してそこから画像を再構築するのは簡単なことです。
コンテンツを低い不透明度で表示する。 攻撃者は常に、ユーザーには知覚できないが機械はまだ読み取れる不透明度でコンテンツを表示することができました。

これらの手法のいずれもそれ単体で十分ですが、それらを組み合わせることで、悪意のあるアプリケーションは常に攻撃を効果的に隠蔽し、なおかつコンテンツを効率的に読み取ることができました。

遮蔽されたコンテンツの読み取り

悪意のあるアプリが、そのコンテンツからのオプトインなしに、クロスオリジンiframe内の遮蔽物を除去できるのではないかと懸念されるかもしれません。APIの形状はそのような攻撃を防ぎます - クロスオリジンiframeは {{RestrictionTarget}} を生成し、それを攻撃者となり得る者に渡さなければなりません。{{RestrictionTargets}} は本仕様で導入されるAPIの一部としての目的以外には役立たないため、{{RestrictionTarget}} の発行と受け渡しは、その遮蔽物の除去に対するクロスオリジンiframeの許可を証明します。

Region Capture との相互作用

本仕様で導入されるAPIの設計において、{{CropTarget}} を再利用せず、代わりに専用のトークン ({{CropTarget}}) を定義するという意識的な決定がなされました。これにより、以前に {{BrowserCaptureMediaStreamTrack/cropTo()}} を念頭に置いて設計および実装されたが、 {{BrowserCaptureMediaStreamTrack/restrictTo()}} は念頭に置いていなかった既存のWeb アプリケーションが、前のセクションで説明したように、遮蔽物の除去を許可することへ実質的にオプトインしてしまうことがないようにしています。

要約