ChaPASを使って何か遊べないかなーと思い立ったので、てきとうに出力をparseするスクリプトを書いてみました。大したことはしてないです。

ChaPAS

ChaPASは日本語の述語項構造解析器です。述語項構造解析は文中の「誰が何をどうした」という意味的な役割を同定する自然言語処理のタスクです。

使い方は至って簡単で

1
2
3
4
5
6
7
8
9
10
11
12
13
14
$ echo "私は課題に鉛筆を使う" | java -jar chapas.jar -I RAW

* 0 3D 0/1 -1.656864
私  名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ O   ID="1"
は  助詞,係助詞,*,*,*,*,は,ハ,ワ    O
* 1 3D 0/1 -1.656864
課題    名詞,一般,*,*,*,*,課題,カダイ,カダイ    O   ID="2"
に  助詞,格助詞,一般,*,*,*,に,ニ,ニ O
* 2 3D 0/1 -1.656864
鉛筆    名詞,一般,*,*,*,*,鉛筆,エンピツ,エンピツ    O   ID="3"
を  助詞,格助詞,一般,*,*,*,を,ヲ,ヲ O
* 3 -1D 0/0 0.000000
使う    動詞,自立,*,*,五段・ワ行促音便,基本形,使う,ツカウ,ツカウ    O   type="pred" ga="1" ni="2" o="3"
EOS

お手軽ですね。

この例文の場合、名詞「私」、「課題」、「鉛筆」に対してIDが振られており、述語「使う」のガ格が「私」、二格が「課題」、ヲ格が「鉛筆」となっています。

今回

ChaPASを使って遊ぶためにはこの出力をparseする必要があります(実際のところは良く分からない)。なので、簡単にこの出力をparseするスクリプトを作ってみました。

asahima/ChapasWrapper

今のところ、超お手軽スクリプトなので、もう少しどうにかしたいと思っていますが何時になるやら。。。