32 はじめに

この文書では、文法表記のために構文を定義する。文法は開発者が音声認識器によって認識すべき単語と単語のパターンを指定することができるように、音声認識器と他の文法プロセッサによる使用を目的とする。

文法フォーマットの構文は2つの形式、拡張BNF(ABNF)構文とXML構文で示される。仕様書では、2つの表記が2つの形式の間で自動変換できるようにするために意味的にマップ可能であることを保証する。

第2節第3節第4節では、ABNFとXML文法フォーマットを定義する。読者は、付録Aで仕様を理解するのに有益な例を見ることができる。第5節は、文法文書や音声認識器のような文法プロセッサのための適用基準を定義する。*unresolved*では、W3C Voice Working Groupによって考えられている文法仕様のための将来研究における多くの問題を確認する。

このW3C Standardは、Speech Recognition Grammar Specificstionとして知られており、JSpeech Grammar Format(JSGF)上でモデル化されている。そしてそれは米国カリフォルニア州のSun Microsystems社によって認められている。

32.1 文法プロセッサとユーザー・エージェント

文法プロセッサには、この仕様書で記述されるような入力文法を受け入れるものがいくつかある。

ユーザー・エージェントはユーザー入力を受け入れて、検出された入力に相当する認識結果を示すために文法とその入力を比べる文法プロセッサである。

仕様書タイトルが意味するように、音声認識器は文法プロセッサの重要なクラスである。この仕様書で使われている文法プロセッサのもう一つのクラスは、DTMF検出器(4.1.3節付録Eを参照)である。ユーザー・エージェントによって受け入れられる入力タイプは、それが処理できる文法モードまたはモードによって決定される:例えば、音声は"voice"モード文法を入力とし、DTMFは"dtmf"モード文法を入力とする。

簡単にするために、この文書を通して音声認識器への参照が明確に述べられない限り、文法プロセッサの他のタイプに適用される。

音声認識器は、以下の入力と出力をもつユーザー・エージェントである:

32.2 範囲

音声認識文法の主要な使用法は、認識器が何を認識すべきかについて具体的に示すことを音声アプリケーションに許すことである:

多くの音声認識器は、音声認識N-Gram文法仕様もサポートしている。2つの仕様書では口語的な入力を検出するための音声認識器セットアップ法を定義しているが、異なった相補的な方法で単語と単語のパターンを定義している。一部の認識器では、2つのフォーマットで文法間の相互参照を許している。この仕様書の規則参照要素では、N-gram文書の参照方法を記述する。

文法仕様では、音声認識の動作に影響を及ぼす多くの他の問題には対処しない。大部分の次の機能では文法が参照される、もしくは呼び出される前後関係によって対処される:例えば、対話マークアップ言語または音声認識APIによって。

32.3 文法変換

文法変換は,ABNF形式、XML形式の2つの表現が意味的にマップ可能なことを保証するために定義される。文法の意味的動作が等価であるならば、自動的にABNF文法をXML文法(または逆)に変換することが可能でなければならない。意味的動作の等価性について次に示す:

  1. 両文法は、入力として同じ言語を受け入れて、同じ言語を受け入れない。
  2. 両文法は、どんな入力ストリングでも同様に解析する。

*unresolved*のXSL変換文書は、XMLからABNFへの自動変換を示す。逆変換には、ABNFパーサーと変換プログラムを必要とする。

ABNF形式からXML形式への自動変換には固有の制限がある。

問題:存在参照に関する上記の文が、仕様書の中でXML存在に関する唯一の文であるということである。XML文法プロセッサは5.4節の適用資格が与えられるであろういくつかのXMLプロセッサとして、全てのXML存在を処理しなればならないと仮定される。以降の草案において、この問題はより効果的に文書化されなければならない。

32.4 意味解釈

W3C Voice Browser Working Groupは、現在"音声認識のための意味解釈"の仕様書を作っている。今度の仕様では、意味結果において文 法タグの内容と口語的もしくはそうでない入力の変換のための言語を定義する。

文法のポータビリティを保証するために、Working Groupは全ての対応する文法プロセッサが文法対応要求とともにW3C意味タグ仕様をサポートしなければならないようにしようと計画している。

読者は、この文書の中の単純なタグ例が意味タグ仕様の方向性を示すと仮定してはならない。"音声認識のための意味解釈"の仕様の最初の動作草案が公表されれば、例は更新される。