茶筅(ChaSen)Windows版を試す

形態素解析ツールってどんなん?を理解するために茶筅Windows版)を使ってみた。


動作OSが98、95、NTで、最終更新日が1999年・・・
Webサービスでも提供されているこのご時世、Windows でデスクトップアプリケーションという形態はないよね。


まあ、いいや。ちょっと気を取り直して。
今日は茶筅Yahoo!のWebサービスを試すのは明日、明日。(いつの明日?)

インストール

ここからダウンロード。

解凍してインストール


ソフトウェア本体のほか、辞書、活用の定義などもインストールされる。

1999/12/15 00:00 19,606 cforms.cha
1999/12/15 00:00 9,733,958 chadic.int
1999/12/15 00:00 1,357,824 chadic.pat
2008/12/26 10:10 588 chasenrc
1999/12/15 00:00 1,771 ctypes.cha
1999/12/15 00:00 1,400 grammar.cha
1999/12/15 00:00 100,375 matrix.cha
1999/12/15 00:00 2,937 README.jp
1999/12/15 00:00 85,196 table.cha
10 個のファイル 11,303,655 バイト
2 個のディレクトリ 69,123,989,504 バイトの空き領域


ReadMeを読むと、Unix版に比べて利用できる機能は制限されており、
Windows版では、辞書の学習などはできない。


インストールされるツールは、以下の2つ。

使う

wincha.exe

テキスト入力し、出力オプションを選んで「全文解析」

chasen.exe

コマンドの例

d:\chasen < in.txt > out.txt


入力の例( in.txt に記述)

Rosette 形態素解析システムは様々な言語のテキストの解析のため、形態素レベルで単語の分かち書きをします。


出力の例( out.txt に出力)

Rosette	Rosette	Rosette	未知語		
形態素	ケイタイソ	形態素	名詞-一般		
解析	カイセキ	解析	名詞-サ変接続		
システム	システム	システム	名詞-一般		
は	ハ	は	助詞-係助詞		
様々	サマザマ	様々	名詞-形容動詞語幹		
な	ナ	だ	助動詞	特殊・ダ	体言接続
言語	ゲンゴ	言語	名詞-一般		
の	ノ	の	助詞-連体化		
テキスト	テキスト	テキスト	名詞-一般		
の	ノ	の	助詞-連体化		
解析	カイセキ	解析	名詞-サ変接続		
の	ノ	の	助詞-連体化		
ため	タメ	ため	名詞-非自立-副詞可能		
、	、	、	記号-読点		
形態素	ケイタイソ	形態素	名詞-一般		
レベル	レベル	レベル	名詞-一般		
で	デ	で	助詞-格助詞-一般		
単語	タンゴ	単語	名詞-一般		
の	ノ	の	助詞-連体化		
分かち書き	ワカチガキ	分かち書き	名詞-一般		
を	ヲ	を	助詞-格助詞-一般		
し	シ	する	動詞-自立	サ変・スル	連用形
ます	マス	ます	助動詞	特殊・マス	基本形
。	。	。	記号-句点