Julius / Julian のシステム構成と仕様
Julius パッケージには以下の2種類の認識プログラムが含まれています.
- Julius - 単語3-gramを用いた大語彙連続音声認識エンジン
- Julian - 有限状態文法を用いた連続音声認識パーザ
それぞれのシステム構成と仕様は以下のようになります.
Julius
システム構成
Julius を用いた認識システムの構成は以下の図のようになります.
- 言語モデルとして単語N-gram を,音響モデルとして HMM を使用する.
- 入力を2回に分けて処理する2パス探索を行う。
- 第1パス:単語2-gramを用いたフレーム同期ビーム探索(近似による高速化)
- 第2パス:単語3-gramを用いた N-best スタックデコーディング(精密計算)
o
主な仕様
- 最大 65,535 語までの大語彙の認識に対応。
- 20kの読み上げ音声に対する単語認識性能は、精度優先の設定で 95% 以上(実時間の5倍)、速度優先の設定では実時間で90%以上です。
- 単語N-gramは、単語2-gramと(逆向き)単語3-gramを用います。ARPA標準形式および独自のバイナリフォーマットに対応しています(変換ツール付属)。
- 音響モデルは音素(monophone)、音素環境依存(triphone)、tied-mixture モデルに対応しています。HTK 形式の音響HMM定義ファイルを読み込むことができます。tied-mixture については phonetic tied-mixture を含む任意単位のコードブック共有に対応しています。これらモデルのタイプは読み込み時に自動判別されます。
- 音声は、PCのマイクロフォン端子やDatLink(NetAudio),ネットワーク経由の入力に対してオンラインで認識を行うことができます。音声検出と同時にオンラインで解析を始め、途中経過を漸時的に出力することもできます。その他、音声波形ファイルや、HTK形式の特徴パラメータファイルを入力とすることができます.ファイルの場合は、無限長のファイル入力に対応しています。
Julian
システム構成
Julian を用いた認識システムの構成は以下のようになります.基本アルゴリ
ズムは Julius と同様の2パスA*探索アルゴリズムです.
- 言語モデルとして有限状態文法を,音響モデルとして HMM を使用する.
- 入力を2回に分けて処理する2パス探索を行う。
- 第1パス:カテゴリ対制約を用いたフレーム同期ビーム探索(近似による高速化)
- 第2パス:文法に基づく N-best スタックデコーディング(精密計算)
主な仕様
- 最大 65,535 語までの認識に対応。
- 言語モデルとして有限状態文法を用います.BNF風の専用形式で,カテゴ
リ単位の構文制約(
.grammar
)とカテゴリごとの語彙
(.voca
)を別ファイルに記述し,コンパイラ
"mkdfa.pl
" を用いてオートマトンネットワーク(.dfa
) と
認識辞書(.dict
)に変換します.
- 音響モデル,音声入力は Julius と同じのものが利用可能です.
Last modified: 2002/09/11 21:00:39