文字列検索

概要

この文書は、より高い相互運用性を可能にするため、Web における文字列検索操作について説明します。文字列検索とは、Web ブラウザーの "検索" コマンドのような自然言語の文字列照合を指します。この文書は、Character Model for the World Wide Web 1.0: Fundamentals [CHARMOD] および Character Model for the World Wide Web 1.0: String Matching [CHARMOD-NORM] に含まれる概念に基づき、仕様の著者、ソフトウェア開発者、およびコンテンツ開発者が、グローバルな利用者に適した検索機能を記述し実装するために必要な情報を提供します。

Web の利用者は、行ごとに読むことなく、文書または文書集合内の特定のテキストを検索したいと考えることがよくあります。仕様では、この要望を支援するため、Web プラットフォームにおいてテキスト検索を公開しようとすることがあります。

文書検索にはさまざまな種類があります。その 1 つは全文検索と呼ばれ、検索エンジンのようなアプリケーションで最もよく見られる種類の検索です。この種類の検索は複雑で、リソースを多く消費する場合があり、しばしば特定の検索要求の範囲外にある処理に依存します。

より限定的な形式のテキスト検索（そしてこの文書の主題）は、部分文字列照合です。部分文字列照合の身近な形式の 1 つは、ブラウザーやその他の種類のユーザーエージェントの検索機能です。物理キーボードを備えたユーザーエージェントでは、この機能は多くの場合、 Cmd+F や Ctrl+F のようなキーの組み合わせで利用されます。このような機能は、現在まだ完全には標準化されていない API window.find、または提案されている [SCROLL-TO-TEXT-FRAGMENT] のような機能を通じて Web に公開される可能性があります。

注記

find 操作は、照合動作を改善または調整するための任意の仕組みを提供できます。たとえば、大文字小文字の区別を追加（または削除）する機能、ワイルドカード文字など正規表現言語のさまざまな側面をその機能がサポートするかどうか、または照合を単語全体に限定するかどうかなどです。

部分文字列照合が通常全文検索と異なる点の 1 つは、テキスト上の変異を抑制または無視しようとしてさまざまなアルゴリズムを使用する場合はあるものの、通常は、ステミングやその他のNLP処理から生じるような、追加または未指定の文字列、単語、または句を含む一致を生成しないことです。

部分文字列照合を標準化しようとするとき、仕様の著者は、コンピューターシステムにおける自然言語の符号化に内在する複雑さにしばしば苦労します。これには、[Unicode] 標準で文字を符号化するために用いられるさまざまな仕組みが含まれます。

非常によくあることですが、利用者の入力は、検索対象の文書で使用されている符号位置の並びと完全には同じでないにもかかわらず、利用者は一致が起こることを期待します。これはさまざまな理由で起こりえます。検索対象のテキストが、利用者には予測できない形で変化しているためである場合もあります。別の場合には、利用者のキーボードまたは入力方式が、必要なテキスト上の変異へすぐにアクセスできる手段を提供していないためです。さらに、利用者がテキストを正確に入力する手間をかけたくないだけである場合さえあります。

この節では、部分文字列照合 API または機構を仕様化する際に仕様の著者が考慮する必要のある、私たちが把握しているさまざまな一般的な事例を検討します。

検索語が文書またはコーパスの特定部分に一致するかどうかに関する利用者の期待は、ときに利用者の言語、文書の言語、またはその両方に依存します。また、特定のデバイスでどのキーボードまたは入力方式が利用可能かといった、その他の要因が関係することもあります。これは、大文字小文字の畳み込みなど、検索の一部であるさまざまな操作がロケールの影響を受けるため、または、人間の言語と文化の複雑さを考えると、一致に関する期待や、さまざまな文字列の使用および解釈に関する期待が、特定の用字系の内部でさえ異なるためである可能性があります。同様に、アクセント、代替の用字系、または文字符号化（書記素クラスターの形成における変異など）の扱いは、対象となるテキストの特定の言語に結び付いています。

ここで私たちが意味しているのは用字系ではなく、言語であることを強調しておくことが重要です。同じ用字系を共有する多くの異なる言語が、それぞれ異なる処理を適用したり、異なる期待を含意したりします。

"検索" 機能の実装は、多くの場合、利用者の入力だけ、または実行時環境におけるさまざまな "手がかり"、たとえばオペレーティング環境のロケール、ユーザーエージェントのローカライズ、アクティブなキーボードの言語などに基づいて、利用者が意図した言語を推測しなければなりません。これらの手がかりは、よくても利用者の意図の代用にすぎず、特に利用者がこれらのいずれにも一致しない文書を検索している場合や、検索対象の文書に複数の言語が含まれている場合にはそうです。

例 1: 利用者の言語と利用者の期待との相互作用

言語が異なれば、文字の組み合わせ a、ae、および ä の扱いも異なります。英語話者は、ae が a および ä と異なることを期待します。ä は外国語の文字であるため、通常は記号のない a に一致することを期待します。ドイツ語話者は、ae と ä が等価である（そして a とは異なる）ことを期待します。フィンランド語話者は、3 つすべてが別々であることを期待します。

ここで、フィンランド語の文があるとします: Haen Han Solon. Hän on salakuljettaja.

（興味のある人向けに訳すと、これは I’ll go get Han Solo. He is a smuggler. という意味です。）

上記の文はフィンランド語（lang="fi"）としてタグ付けされています。 Han Solo の名前の末尾に付いている文字 "n"（Han Solon）は、フィンランド語の文法の一部であることに注意してください。

以下は、英語、ドイツ語、およびフィンランド語の話者が、このテキストに対して "検索" 操作を行う際に入力する可能性のある綴りの変異です。(ヒント: このページを表示しているときに、ブラウザーの "検索" コマンドで試してみてください。)

Han
Hän
Haen
han
hän
haen

フィンランド語話者は、上記の各例が異なる単語であることを期待します。Hän と hän の間の大文字小文字の違いは無視されるかもしれない、と期待する可能性があります。ドイツ語話者は、Hän と Haen が等価であると期待するかもしれません。英語話者は、Han が Hän に一致すると期待するかもしれません（ただし、おそらくその逆は期待しないでしょう。 ä は英語に固有ではないためです）。しかし、文書の言語タグ付けは、多くの検索操作に影響していないように見えます。また、検索語にどの言語を適用するかを利用者が指定する方法も通常はありません。

これはトルコ語で warm marrow を意味すると私たちが考えている句です: ılık ilik.

英語話者およびトルコ語話者が入力する可能性のある綴りの変異を次に示します:

検索語	符号位置
ILIK	U+0049 U+004C U+0049 U+004B
İLİK	U+0130 U+004C U+0130 U+004B
ilik	U+0069 U+006C U+0069 U+006B
ılık	U+0131 U+006C U+0131 U+006B

ブラウザーと実行時ロケールによっては、これらの語で異常な一致が発生することがあります。一部のブラウザーでは、上記の最初の 3 つの語が、ASCII の点付き i を含む ilik には一貫して一致しますが、ıU+0131 LATIN SMALL LETTER DOTLESS I を含む ılık という語には一致しません。

これはトルコ語利用者が期待するものではありません。なぜなら、彼らは "I"/"ı" と "İ"/"i" が大文字小文字を持たない対になるものだと期待するからです。この副作用として、検索語 "ılık" は小文字の等価形にのみ一致し、大文字の変異は、点付き文字 i を含む小文字版（"ilik"）に一致する場合でさえ、その語には一致しません。このような変異は、英語話者およびトルコ語話者の双方が、検索で語が見落とされることに気付くことを意味します。

利用者は、小文字で入力した語が大文字の等価形に一致することを期待する場合があります（また、その逆も期待するかもしれません）。ブラウザーの "検索" コマンドのような部分文字列照合機能は、多くの場合、入力の大文字小文字をテキストのものと一致させるかどうかについて、利用者が選択できるオプションを提供します。

大文字小文字の畳み込みに関する概観については、[CHARMOD-NORM] のこちらの議論を参照してください。

Unicode は文字間の正準関係および互換関係を定義しており、それが文字列検索に対する利用者の認識に影響することがあります。 Unicode 正規化形式に関する詳細な議論については、[CHARMOD-NORM] の 2.2 節、および Unicode Normalization Forms [UAX15] にある定義を参照してください。

例 2

たとえば、文字 "K" を考えてください。 U+004B LATIN CAPITAL LETTER K を含む正規化を持つ文字には次のものが含まれます。これらの多くは、論理的な "letter K" を含んでいるように見えるため、部分文字列検索要求において利用者が文字 "K" に一致すると期待する可能性があります:

Ķ U+0136 LATIN CAPITAL LETTER K WITH CEDILLA
Ǩ U+01E8 LATIN CAPITAL LETTER K WITH CARON
ᴷ U+1D37 MODIFIER LETTER CAPITAL K
Ḱ U+1E30 LATIN CAPITAL LETTER K WITH ACUTE
Ḳ U+1E32 LATIN CAPITAL LETTER K WITH DOT BELOW
Ḵ U+1E34 LATIN CAPITAL LETTER K WITH LINE BELOW
K U+212A KELVIN SIGN
Ⓚ U+24C0 CIRCLED LATIN CAPITAL LETTER K
㎅ U+3385 SQUARE KB
㏍ U+33CD SQUARE KK
㏎ U+33CE SQUARE KM CAPITAL
Ｋ U+FF2B FULLWIDTH LATIN CAPITAL LETTER K
𝐊 U+1D40A MATHEMATICAL BOLD CAPITAL K
𝐾 U+1D43E MATHEMATICAL ITALIC CAPITAL K
𝑲 U+1D472 MATHEMATICAL BOLD ITALIC CAPITAL K
𝒦 U+1D4A6 MATHEMATICAL SCRIPT CAPITAL K
𝓚 U+1D4DA MATHEMATICAL BOLD SCRIPT CAPITAL K
𝔎 U+1D50E MATHEMATICAL FRAKTUR CAPITAL K
𝕂 U+1D542 MATHEMATICAL DOUBLE-STRUCK CAPITAL K
𝕶 U+1D576 MATHEMATICAL BOLD FRAKTUR CAPITAL K
𝖪 U+1D5AA MATHEMATICAL SANS-SERIF CAPITAL K
𝗞 U+1D5DE MATHEMATICAL SANS-SERIF BOLD CAPITAL K
𝘒 U+1D612 MATHEMATICAL SANS-SERIF ITALIC CAPITAL K
𝙆 U+1D646 MATHEMATICAL SANS-SERIF BOLD ITALIC CAPITAL K
𝙺 U+1D67A MATHEMATICAL MONOSPACE CAPITAL K
🄚 U+1F11A PARENTHESIZED LATIN CAPITAL LETTER K
🄺 U+1F13A SQUARED LATIN CAPITAL LETTER K

多くの複雑な用字系では、文字または母音記号を複数の方法で符号化できる場合がありますが、それらの代替形は正準等価です。

一部の言語は複数の用字系で書かれます。文書を検索する利用者は、ある用字系でテキストを入力しても、両方の用字系で等価なテキストを見つけたいと思う場合があります。

例 3

日本語は、hiragana と katakana という 2 つの音節文字を使用します。これらの用字系は同じ音素を符号化します。そのため、利用者は検索語を hiragana で入力すると、katakana で綴られたまったく同じ語を見つけられると期待するかもしれません。

ここに示す例では、nihongo（Japanese を表す日本語）が、ひらがなとカタカナの両方で示されています。この語は通常、kanji（漢字）で日本語と表されることに注意してください。

説明	例
ひらがな	にほんご
ひらがな	U+306B U+307B U+3093 U+3054
カタカナ	ニホンゴ
カタカナ	U+30CB U+30DB U+30F3 U+30B4

一部の互換文字は、レガシー文字エンコーディングにおける単一バイトまたは複数バイト表現を考慮するため、または東アジアの言語における特定のレイアウト動作との互換性のために Unicode に符号化されました。

例 4: 東アジア幅の変異の例

説明	例
全角カタカナ	ニホンゴ
全角カタカナ	U+30CB U+30DB U+30F3 U+30B4
半角カタカナこれらは互換文字です	ﾆﾎﾝｺﾞ
半角カタカナこれらは互換文字です	U+FF86 U+FF83 U+FF9D U+FF7A U+FF9E
半角ラテン文字これらは ASCII 文字です!	abcXYZ
半角ラテン文字これらは ASCII 文字です!	U+0061 U+0062 U+0063 U+0058 U+0059 U+005A
全角ラテン文字これらは互換文字です。	ａｂｃＸＹＺ
全角ラテン文字これらは互換文字です。	U+FF41 U+FF42 U+FF43 U+FF38 U+FF39 U+FF3A

多くの用字系は、0 から 9 までの数字について独自の数字文字を持っています。一部の Web アプリケーションでは、表示目的のために、見慣れた ASCII 数字がローカルな数字の字形に置き換えられます。別の場合には、テキストが実際にローカルな数字の Unicode 文字を含んでいることがあります。文書を検索しようとする利用者は、ある形式の数字を入力すれば、等価な数字を見つけられることを期待するかもしれません。

例 5: 4 つの用字系における数字字形の例

以下は、4 つの用字系における、0 から 9 までの異なる数字字形の選択例です。多くの用字系には、形状が異なる等価な数字の集合があります。

用字系	数字
用字系	0	1	2	3	4	5	6	7	8	9
ラテン	0	1	2	3	4	5	6	7	8	9
グジャラーティー	૦	૧	૨	૩	૪	૫	૬	૭	૮	૯
タイ	๐	๑	๒	๓	๔	๕	๖	๗	๘	๙
アラビア	٠	١	٢	٣	٤	٥	٦	٧	٨	٩

一部の言語には、地域または方言によって異なる正書法の伝統があったり、同じ語の異なる綴りを許容したりします。検索およびスペルチェックは、これらの変異について知る必要がある場合があります。

例 6

米国英語（言語タグ en-US）と英国英語（言語タグ en-GB）には異なる綴りの伝統があり、それはさまざまな形で現れます。たとえば、color と colour の違いや、 internationaliZation と internationaliSation のように文字 s と z を入れ替えることです。 jail と gaol のように、さらに大きく綴りが分かれる語もいくつかあります。

米国英語と英国英語の綴りの変異はほぼ標準化されていますが、綴りが個人の好み（または知識不足）による場合もあります。たとえば、米国英語の語 'through' は 'thru' と綴ることができます。

インド系文字の言語には、この種の問題が多く存在します。これらは綴りの誤りである場合もありますが、別の場合には複数の綴りが許容されます。

たとえば、ベンガル語（言語タグ bn）は、言語によって許される綴りの変異が非常に多いことで知られています。ベンガル語の単語のほぼ 80% には、少なくとも 2 つの綴りがあります。多くの語には 3、4、またはそれ以上の変異があり、少なくとも 1 つの語には 16 の異なる有効な綴りがあります。

例 7

一例は、ラテン文字へ転写すると rani となる語ですが、利用者はこれを異なる文字や母音記号で綴る可能性があります。現代ベンガル語では、ণ [U+09A3 BENGALI LETTER NNA] と ন [U+09A8 BENGALI LETTER NA] は /n/ と発音され、ি [U+09BF BENGALI VOWEL SIGN I ] と ী [U+09C0 BENGALI VOWEL SIGN II ] はどちらも /i/ と発音されます。したがって、異なる利用者は、同じ語について次の代替符号位置列のいずれかを選ぶ可能性があります:

	U+09A8 BENGALI LETTER NA	U+09A3 BENGALI LETTER NNA
U+09BF BENGALI VOWEL SIGN I	রানি	রাণি
U+09BF BENGALI VOWEL SIGN I	U+09B0 U+09BE U+09A8 U+09BF	U+09B0 U+09BE U+09A3 U+09BF
U+09C0 BENGALI VOWEL SIGN II	রানী	রাণী
U+09C0 BENGALI VOWEL SIGN II	U+09B0 U+09BE U+09A8 U+09C0	U+09B0 U+09BE U+09A3 U+09C0

他のインド系文字は、特定の音を表すための代替機構を提供しており、多くの場合、どちらの表現も同等に有効と見なされます。この最も一般的な例は、音節末鼻音の表現に関係します。

たとえば、ヒンディー語で snake を表す語に含まれる /n/ 音は、 ँ [U+0901 DEVANAGARI SIGN CANDRABINDU] または ं [U+0902 DEVANAGARI SIGN ANUSVARA] のいずれかを使って書くことができます。次の 2 つはいずれも有効な綴りとして可能です:

例 8

説明	例
ँ [U+0901 DEVANAGARI SIGN CANDRABINDU] を伴うもの	साँप
ँ [U+0901 DEVANAGARI SIGN CANDRABINDU] を伴うもの	U+0938 U+093E U+0901 U+092A
ं [U+0902 DEVANAGARI SIGN ANUSVARA] を伴うもの	सांप
ं [U+0902 DEVANAGARI SIGN ANUSVARA] を伴うもの	U+0938 U+093E U+0902 U+092A

この話にさらにひねりを加えると、ここでは異なる符号位置を持つ 2 つの発音区別記号を使用できます。前の例では、鼻音を表すために ं [U+0902 DEVANAGARI SIGN ANUSVARA ] を使用しました。これは、付随する母音記号が吊り下げ基線より上に上がるためです。もし母音記号が吊り下げ基線より上に上がらないものであれば、通常は代わりに ँ [U+0901 DEVANAGARI SIGN CANDRABINDU ] を使用します。これら 2 つの発音区別記号の機能は同じですが、符号位置は異なります。

音節末鼻音に対して文字または発音区別記号のいずれかを代替的に使用することは、ほかのいくつかのインド系言語にも共通しています。ヒンディー語（言語タグ hi）やマラーティー語（言語タグ mr）などの言語を書くために使われるデーヴァナーガリーに加えて、マラヤーラム文字、グジャラーティー文字、オディア文字などの用字系も同様の綴りの選択肢を提供します。

例 9: 別のインド系文字における綴りの変異の例

これは、同じ語の代替綴りを示すマラヤーラム語（ml）の例です。

説明	例
U+0D03 MALAYALAM SIGN VISARGA を伴うもの	ദുഃഖം
U+0D03 MALAYALAM SIGN VISARGA を伴うもの	U+0D26 U+0D41 U+0D03 U+0D16 U+0D02
U+0D03 MALAYALAM SIGN VISARGA を伴わないもの	ദുഖം
U+0D03 MALAYALAM SIGN VISARGA を伴わないもの	U+0D26 U+0D41 U+0D16 U+0D02

一部の言語では空白を使って単語、文、または段落を分離しますが、そうしない言語もあります。部分文字列照合を行う際には、[Unicode] にあるさまざまな形式の空白を正規化して、一致が成功するようにしなければなりません。

利用者は、検索語を入力する際に、ラテン文字のようなさまざまな発音区別記号を使用する用字系で、アクセントや発音区別記号を含む文字を扱うとき、自分の入力を変えることがあります。これは、検索対象のテキストには追加の記号が含まれている場合であっても起こります。これは特にモバイルキーボードで当てはまり、これらの文字を入力するには追加の手間が必要になることがあります。このような場合、利用者は一般に、必要な追加の手間をかけなかったことを補うために、検索操作がより "寛容" であることを期待します。

例 11

ドイツ語では、ö [U+00F6 LATIN SMALL LETTER O WITH DIERISIS] や ü [U+00FC LATIN SMALL LETTER U WITH DIERISIS] のように、 ウムラウトアクセントを持ついくつかの文字を使用します。利用者は検索時にこれらのアクセントを入力することもありますが、ときにはウムラウトを文字 e に置き換えることもあります。たとえば、Dürst と入力する代わりに、 Duerst と入力するかもしれません。どちらの綴りも認識可能で、同じ意味を持ちます。ウムラウトの方が e を用いた綴りよりおそらく "よりよい" ものですが、ドイツ語話者はその違いに戸惑いません。

注記

他の言語では、これら同じ文字をドイツ語とは異なる目的で使用します。 Unicode における "umlaut" 発音区別記号の正式名称は diaeresis であり、おおよそ "分離" または "休止" を意味します。フランス語、スペイン語、英語などの言語では、スペイン語の "ambigüedad" という語や英語の "Zoë" のような名前において、特定の文字を発音する必要があることを示すために、分音記号をときどき使用します。

この効果は文脈によっても異なる場合があります。たとえば、物理キーボードを使っている人はアクセント付き文字へ直接アクセスできる場合がありますが、仮想キーボードまたはオンスクリーンキーボードでは、同じ文字へアクセスして選択するために追加の手間が必要になることがあります。

一部の正書法では、異なる文字数を持つ文字列を一致させる必要があります。

この代表的な例は、アブジャドにおける母音発音区別記号に関係します。たとえば、アラビア文字およびヘブライ文字を使用する一部の言語では、利用者が短母音を入力することは必須ではありません（ただし任意で許可されます）。（これらの用字系を使う他の一部の言語では、短母音を含めることは任意ではありません。）入力されるテキストまたは検索対象のテキストに母音が存在するかどうかは、利用者がそれらを入力しない、または入力すべきことを知らない場合に、一致を妨げる可能性があります。

場合によっては、視覚的に類似または同一の字形パターンが、異なる符号位置列から作られることがあります。これは意図的な場合もあり、変異は Unicode 正規化によって除去できます。しかし、類似して見える書記素が正規化によって同一にならず、意味的にも等価ではない場合もあります。

例 13

たとえば、以下はマラヤーラム文字で同じ、または類似したテキスト外観を生成する複数の文字列です。不適切な列は避けるべきです。なぜなら、それらはテキストの意味を変化させるからです。検索、一致、およびテキストのその他の側面は、アプリケーションまたはフォントによって理解されなくなります。場合によっては、フォントが点線の円の表示を強制したり、その他の形でテキストを正しく描画できなかったりすることで問題があることを示しますが、常にそうであるとは限りません。

使用するもの	使用しないもの
ൈ	െെ
[U+0D48 MALAYALAM VOWEL SIGN AI]	[U+0D46 MALAYALAM VOWEL SIGN E + U+0D46 VOWEL SIGN E]
ഈ	ഇൗ
[U+0D08 MALAYALAM LETTER II]	[U+0D07 MALAYALAM LETTER I + U+0D57 AU LENGTH MARK]
ഊ	ഉൗ
[U+0D0A MALAYALAM LETTER UU]	[U+0D09 MALAYALAM LETTER U + U+0D57 AU LENGTH MARK]
ഓ	ഒാ
[U+0D13 MALAYALAM LETTER OO]	[U+0D12 MALAYALAM LETTER O + U+0D3E VOWEL SIGN AA]
ഐ	എെ
[U+0D10 MALAYALAM LETTER AI]	[U+0D0E MALAYALAM LETTER E + U+0D46 VOWEL SIGN E]
ഔ	ഒൗ
[U+0D14 MALAYALAM LETTER AU]	[U+0D12 MALAYALAM LETTER O + U+0D57 MALAYALAM AU LENGTH MARK]

アラビア文字を使用する一部の言語にも、複数の方法で符号化できる書記素があります。場合によっては、これらの変異はUnicode 正規化によって処理されますが、別の場合には、視覚的には同一に見えても、 Unicode によって等価とは見なされません。これらの変異は、有効な綴りの変異と見なされることもあります。別の場合には、利用者の誤った認識の結果です。

例 14

多くの言語がアラビア文字で書かれていますが、アラビア語とは無関係です。そのため、これらの言語の一部では、アラビア語に存在しない音を表すための文字列が必要です。これらの言語の一部にとって重大な問題は、これらの特別に符号化された文字列が、他の用途のために符号化された文字列と視覚的に類似（または同一）する場合があり、利用者が検索語を入力するときなどに、正しい列を入力することや入力方法を知ることに困難を感じる可能性があることです。

そのような言語の 1 つがカシミール語（言語タグ ks）です。カシミール語で見つかる可能性のある選択例を次に示します:

説明	例
正準等価な代替形（Unicode 正規化によって差異が解決される）	إ	`U+0625 ARABIC LETTER ALEF WITH HAMZA BELOW`	إ	`U+0627 ARABIC LETTER ALEF` + `U+0655 ARABIC HAMZA BELOW`
正準等価ではない（Unicode 正規化後も残る差異）これらの多くは、母音が基底文字の一部（ijam）であるか、分離可能なもの（tashkil）であるかについての利用者の認識に関連しています	ێ	`U+06CE ARABIC LETTER YEH WITH SMALL V`	یٚ	`U+06CC ARABIC LETTER FARSI YEH` + `U+065A ARABIC VOWEL SIGN SMALL V ABOVE`
紛らわしいもの、または綴りの誤りこれらは、キーボードサポートの不足や外観の類似性により、特定の種類のテキストでは一般的になる可能性があります	ئ	`U+0626 ARABIC LETTER YEH WITH HAMZA ABOVE`	یٔ	`U+06CC ARABIC LETTER FARSI YEH` + `U+0654 ARABIC HAMZA ABOVE`

（詳細については、Richard Ishida の文書こちらを参照してください。）

英語やアラビア語のように、単語間に空白を使用する言語もあります。中国語、日本語、タイ語のように、そうしない言語もあります。一部の言語では、句など他のテキスト単位を分離するために空白を使用します。単語間に空白を使用しない言語では、"単語全体" の照合を計算するには、境界そのものがテキストに符号化されていない場合に、単語境界を判定する能力に依存することがよくあります。

利用者の入力	一致する文字列
e（小文字の 'e'）	"re-resume", "RE-RESUME", "re-résumé", および "RE-RÉSUMÉ"
E（大文字の 'E'）	"RE-RESUME" および "RE-RÉSUMÉ"
é（鋭アクセント付きの小文字の 'e'）	"re-résumé" および "RE-RÉSUMÉ"
É（鋭アクセント付きの大文字の 'E'）	"RE-RÉSUMÉ"

文字列検索

概要

この文書の状態

1. 導入

1.1 目的と範囲

1.2 文書の慣例

1.3 用語

2. 自然言語コンテンツにおけるテキスト検索

2.1 等価性の判定に関する問題

2.1.1 言語に起因する変異の照合

2.1.2 大文字小文字の畳み込み

2.1.3 Unicode 正規化と文字の等価性

2.1.4 用字系の等価性

2.1.5 東アジア幅

2.1.6 数字の字形変換

2.1.7 正書法または方言による変異

2.1.7.1 南アジア（インド系文字）の言語

2.1.8 空白の正規化

2.1.9 アクセントと発音区別記号

2.1.10 任意の文字

2.1.11 視覚的には同一だが正準等価ではないテキスト

2.2 単語境界と "単語全体" の照合

3. 検索に関する考慮事項

3.1 検索オプションの種類

4. 謝辞

A. 参考文献

A.1 参考情報としての参考文献

文字列検索

概要

この文書の状態

1. 導入

1.1 目的と範囲

1.2 文書の慣例

1.3 用語

2. 自然言語コンテンツにおける テキスト検索

2.1 等価性の判定に関する問題

2.1.1 言語に起因する変異の 照合

2.1.2 大文字小文字の畳み込み

2.1.3 Unicode 正規化と文字の等価性

2.1.4 用字系の等価性

2.1.5 東アジア幅

2.1.6 数字の字形変換

2.1.7 正書法または 方言による変異

2.1.7.1 南アジア （インド系文字）の言語

2.1.8 空白の正規化

2.1.9 アクセントと発音区別 記号

2.1.10 任意の文字

2.1.11 視覚的には同一だが正準等価ではないテキスト

2.2 単語境界と "単語全体" の照合

3. 検索に関する考慮事項

3.1 検索オプションの種類

4. 謝辞

A. 参考文献

A.1 参考情報としての参考文献

2. 自然言語コンテンツにおけるテキスト検索

2.1.1 言語に起因する変異の照合

2.1.7 正書法または方言による変異

2.1.7.1 南アジア（インド系文字）の言語

2.1.9 アクセントと発音区別記号