summaryrefslogtreecommitdiff
path: root/doc/POS
blob: 02824ac5ed0f7fac4335ccfb92c47c3893754598 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
Anthyの品詞分類について。


Anthyでは品詞をwtype_tという型で扱う
wtype_tは
 *品詞(名詞、動詞、、)
 *副品詞(名詞における地名、人名、、などの分類)
 *副副品詞(人名の姓名、数字の位など)
 *活用クラス(5段、上一、サ変、、)
 *活用形(未然、連用、、)
 *副活用形(品詞、活用形が同じものを接続で分類する)
 *オプション(自立語かどうか?連体形が名詞化するか?など)
の7つのパラメータを含んでいる。
各パラメータはワイルドカードとして
任意のものにマッチするものをとることができ、*であらわす。
この7つ組の組み合わせのうち、いくつかは文字列による名前を
持っており、文法の定義の時などに使われる。
例
 "名詞" -名詞-*-*-*-*-*-
 "動詞未然形D" -動詞-*-*-*-未然形-デフォルト-
品詞の比較にはオプションを除く6つのパラメータを比較して
すべてのパラメータの対が等しい、もしくは比較の基準側がワイルドカード
であるときに対象側は基準側に含まれる。


include/wtype.hに CC_??として、活用のしかたを分類してある。
活用表は最後の数文字を見て、語幹と活用形がわかればよいので、
上一段と下一段は統合して扱う(本当はcannadicの都合)。
 CC_NONE 無活用
 CC_K5 か行5段
 CC_C5 か行5段(行く or 逝く 「行った」という活用になる5段)
 CC_G5 が行5段
 CC_S5 さ行5段
 CC_T5 た行5段
 CC_N5 な行5段
 CC_M5 ま行5段
 CC_B5 ば行5段
 CC_R5 ら行5段
 CC_L5 ら行5段(命令形が 「イ」「いらっしゃい」「おっしゃい」「ござい」など)
 CC_W5 わ行5段
 CC_U5 乞う5段(「憩う」など、わ行とちがうのか?)
 CC_KS1 上下1段
 CC_KV か行変格
 CC_SV さ行変格
 CC_ZV さ行変格
 CC_AJV 形容動詞
 CC_A 形容詞
 CC_A_U う音便の形容詞


品詞(POS Part Of Speech)は以下のようなものが定義されている
 POS_NONE 品詞不明
 POS_NOUN (E)(entity) 体言(名詞、数詞、代名詞)
 POS_PRT (P)(particle) 助詞
 POS_XV (X)(auxiliary verb) 助動詞
 POS_V (V)(verb)動詞
 POS_A (A)(adjective)形容詞
 POS_AJV (D)(adjective verb)形容動詞
 POS_AV (B)(adverb)副詞
 POS_ME (M)連体詞
 POS_CONJ (C)(conjunction)接続詞
 POS_IJ (I)(interjection) 感動詞
 POS_PRE 一般名詞の接頭語
 POS_SUC 一般名詞の接尾語
 POS_INVAL


副品詞
 COS_NONE ワイルドカード
 COS_CNPRE 地名の付属語
 COS_NNPRE 数詞の付属語


副副品詞
 SCOS_NONE
 SCOS_FAMNAME 氏
 SCOS_FSTNAME 名
 SCOS_T00 - SCOS_T39
  32種類
 SCOS_T40(D2T35)
  動詞を名詞化させる接尾辞「(〜し)たて」
 SCOS_T41(N2T35)
  名詞であると同時に名詞の接尾辞「〜用」
 SCOS_A0
 SCOS_A1


活用形
 CT_NONE
 CT_SYUSI
 CT_MIZEN
 CT_RENYOU
 CT_RENTAI
 CT_MEIREI
 CT_HEAD 語幹(形容詞、形容動詞のみ)


副活用形
たとえば「動詞カ行5段未然形」は「書く」の場合には
「書か(ない)」と「書こ(う)」の2つ存在して、
これらを区別するために副活用形を定義する。
接続の種類ごとに分類しており、ある活用形でもっとも
一般的と思われるものはデフォルトとしてあつかう。
動詞未然形の場合は
 デフォルト(CST_DEFAULT) 5段 サ変 以外
 「う」へ接続する5段 (CST_V_MIZEN_U)
 「ず」へ接続する5段 (CST_V_MIZEN_ZU)
 「し」 サ変
 「せ」 サ変
 「さ」 サ変
の6種に分類される。
デフォルトとワイルドカード
 CST_NONE
 CST_DEFAULT
動詞の未然形に対応するもの
 CST_V_MIZEN_U 書こ う
 CST_V_MIZEN_ZU せ ず
 CST_V_MIZEN_SI し サ変
 CST_V_MIZEN_SE せ サ変
 CST_V_MIZEN_SA さ サ変
 (CST_DEFAULT) サ変 5段以外の未然形
動詞の連用形に対応するもの
 CST_V_RENYOU_5 書き ます
 CST_V_RENYOU_TA 書い た
 CST_V_RENYOU_DA 死ん だ
動詞の終止形に対応するもの
「たべよ」 とかいった文語的な命令 上下1、サ、カ変
 CST_MEIRE_
形容詞連用形
 CST_A_RENYOU_NA 白くない


オプション
 WF_NONE なにも無し
 WF_INDEP 独立語
 WF_MEISI 連用形が名詞化する動詞


これらの他に、読みに対するフラグを用意している
 F_NONE 
 NF_FAMNAME
 NF_FSTNAME
 NF_UNSPECNAME
 NF_NAME
 NF_NUM
 NF_CNAME
 SF_JN
 SF_NUM