diff options
Diffstat (limited to 'doc/GLOSSARY')
-rw-r--r-- | doc/GLOSSARY | 164 |
1 files changed, 164 insertions, 0 deletions
diff --git a/doc/GLOSSARY b/doc/GLOSSARY new file mode 100644 index 0000000..552c246 --- /dev/null +++ b/doc/GLOSSARY @@ -0,0 +1,164 @@ +** GLOSSARY ** +ator allocatorの略 + allocatorは一般にはメモリの管理を行う機構のことを指し、 + メモリの確保だけではなく解放も管理する。 + +candidate 候補 + +candsort 候補の評価並び換えを行うモジュール + +candswap 候補の優先順位の交換を行うモジュール + +cc(conjugate class) どの活用か (何行何段とか) + +commit(コミット) 入力の確定 + +compose: + 品詞を割当てられた文節に対して候補を割当てる + +conjugate: + 活用(infectionの方が適切かも) + +context: + 入力コンテキスト 変換する文字列一つに対応する + +corpus: + 例文 + +cos(class of speech): + 副品詞 + +ct(conjugate type): + 活用形 (未然、連用、、) + +declinable: + 用言 <-> 体言 indeclinable + +depword: + 付属語 + +dic_session_t: + 辞書のセッション + +dtor: + destructorの略 + +ent: + entry + +feature: + 素性、0,1の値を取る関数 + +feature_set: + 素性の集合、二値のベクトルもしくは素性番号のリストとして扱える + +file_dic: + ファイル辞書 + +gang look up: + 複数の検索キーに対する検索を一度に行う + +lattice: + 束、集合論の概念 + +metaword: + 文節を複数まとめたもの + +mmap: + OSの機能 + ファイルの内容をプロセスのアドレス空間に見えるようにする + +nr: + NumbeR。nr_?? でなにかの数を意味する + +ochaire(お茶入れ): + 文節の組をそのまま学習するための機構 + +personality: + ユーザを識別するための文字列 + +pos(part of speech): + 品詞 + +quit: + モジュール自体の終了(関数の命名に使ってる) -> release + +ratio: + RATIO_BASEを分母とする比率 + +release : + モジュールのデータ(構造)の解放(関数の命名に使ってる) -> quit + +scos(sub cos): + 副副品詞 + +seg: + -> segment + +seq_ent_t: + 辞書上の見出語 + +segment: + 文節(国文法の文節では無い) + +segstruct: + 文節を構成する単語に対しルール基づいてに品詞を割当てる + +splitter: + ひらがな列を文節に分割する + +trie: + n-way tree 一般的には256などを用いる + 文字列やIPアドレス等の高速検索に用いられる + +word_list: + 文節を構成する単位、自立語を一つ含む + +wordseq: + 自立語に対して付属語を付けてゆく + +wordsplit: + 文節の境界を検出する + +wtype: + 単語の型情報 -> doc/POSを見よう + +xchar: + 文字(EUC-JPのコード) + +xstr: + 文字列(長さとxcharへのポインタを持つ) + +ビタビアルゴリズム: + viterbi algorithm、動的計画法の一種 + + +** xchar ** +anthyではxcharという独自の文字型を作って文字を扱うようにしている。 +xcharは現時点では32bitでUCS4もしくはASCIIのコードが入っている。 + + +** context ** +Anthyは同時に複数の入力を行うことをサポートするために、 +複数の各入力をコンテキストというオブジェクトに対応させて、 +ユーザによる操作をそれぞれのコンテキストへの操作という +形で行うようにしています。 + +** seq_ent ** +文字列のハンドルです。 +personalityごとに辞書は用意されるので、異なるpersonalityにおいては +同じ文字列でも異なる値を取ります。 + +** xstr ** +typedef struct xstr_{ + xchar *str; + int len; +}xstr; +普通の文字列のように\0終端にすると部分を取り出すなどの操作が +複雑になるので、開始点へのポインタと文字数を持つ構造体によって +文字列を表現している。 + +** personality ** +学習の内容などを識別するための名前 +各コンテキストは一つのpersonalityを参照する。 +特に指定しなければdefault personality ""(空文字)が使用される。 |