blob: 552c246314603cae7acc068ef0d7f9c42547fa66 (
plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
|
** GLOSSARY **
ator allocatorの略
allocatorは一般にはメモリの管理を行う機構のことを指し、
メモリの確保だけではなく解放も管理する。
candidate 候補
candsort 候補の評価並び換えを行うモジュール
candswap 候補の優先順位の交換を行うモジュール
cc(conjugate class) どの活用か (何行何段とか)
commit(コミット) 入力の確定
compose:
品詞を割当てられた文節に対して候補を割当てる
conjugate:
活用(infectionの方が適切かも)
context:
入力コンテキスト 変換する文字列一つに対応する
corpus:
例文
cos(class of speech):
副品詞
ct(conjugate type):
活用形 (未然、連用、、)
declinable:
用言 <-> 体言 indeclinable
depword:
付属語
dic_session_t:
辞書のセッション
dtor:
destructorの略
ent:
entry
feature:
素性、0,1の値を取る関数
feature_set:
素性の集合、二値のベクトルもしくは素性番号のリストとして扱える
file_dic:
ファイル辞書
gang look up:
複数の検索キーに対する検索を一度に行う
lattice:
束、集合論の概念
metaword:
文節を複数まとめたもの
mmap:
OSの機能
ファイルの内容をプロセスのアドレス空間に見えるようにする
nr:
NumbeR。nr_?? でなにかの数を意味する
ochaire(お茶入れ):
文節の組をそのまま学習するための機構
personality:
ユーザを識別するための文字列
pos(part of speech):
品詞
quit:
モジュール自体の終了(関数の命名に使ってる) -> release
ratio:
RATIO_BASEを分母とする比率
release :
モジュールのデータ(構造)の解放(関数の命名に使ってる) -> quit
scos(sub cos):
副副品詞
seg:
-> segment
seq_ent_t:
辞書上の見出語
segment:
文節(国文法の文節では無い)
segstruct:
文節を構成する単語に対しルール基づいてに品詞を割当てる
splitter:
ひらがな列を文節に分割する
trie:
n-way tree 一般的には256などを用いる
文字列やIPアドレス等の高速検索に用いられる
word_list:
文節を構成する単位、自立語を一つ含む
wordseq:
自立語に対して付属語を付けてゆく
wordsplit:
文節の境界を検出する
wtype:
単語の型情報 -> doc/POSを見よう
xchar:
文字(EUC-JPのコード)
xstr:
文字列(長さとxcharへのポインタを持つ)
ビタビアルゴリズム:
viterbi algorithm、動的計画法の一種
** xchar **
anthyではxcharという独自の文字型を作って文字を扱うようにしている。
xcharは現時点では32bitでUCS4もしくはASCIIのコードが入っている。
** context **
Anthyは同時に複数の入力を行うことをサポートするために、
複数の各入力をコンテキストというオブジェクトに対応させて、
ユーザによる操作をそれぞれのコンテキストへの操作という
形で行うようにしています。
** seq_ent **
文字列のハンドルです。
personalityごとに辞書は用意されるので、異なるpersonalityにおいては
同じ文字列でも異なる値を取ります。
** xstr **
typedef struct xstr_{
xchar *str;
int len;
}xstr;
普通の文字列のように\0終端にすると部分を取り出すなどの操作が
複雑になるので、開始点へのポインタと文字数を持つ構造体によって
文字列を表現している。
** personality **
学習の内容などを識別するための名前
各コンテキストは一つのpersonalityを参照する。
特に指定しなければdefault personality ""(空文字)が使用される。
|