茶筅(ChaSen)Windows版を試す
形態素解析ツールってどんなん?を理解するために茶筅(Windows版)を使ってみた。
動作OSが98、95、NTで、最終更新日が1999年・・・
Webサービスでも提供されているこのご時世、Windows でデスクトップアプリケーションという形態はないよね。
まあ、いいや。ちょっと気を取り直して。
今日は茶筅。Yahoo!のWebサービスを試すのは明日、明日。(いつの明日?)
インストール
ここからダウンロード。
解凍してインストール
ソフトウェア本体のほか、辞書、活用の定義などもインストールされる。
1999/12/15 00:00 19,606 cforms.cha
1999/12/15 00:00 9,733,958 chadic.int
1999/12/15 00:00 1,357,824 chadic.pat
2008/12/26 10:10 588 chasenrc
1999/12/15 00:00 1,771 ctypes.cha
1999/12/15 00:00 1,400 grammar.cha
1999/12/15 00:00 100,375 matrix.cha
1999/12/15 00:00 2,937 README.jp
1999/12/15 00:00 85,196 table.cha
10 個のファイル 11,303,655 バイト
2 個のディレクトリ 69,123,989,504 バイトの空き領域
ReadMeを読むと、Unix版に比べて利用できる機能は制限されており、
Windows版では、辞書の学習などはできない。
インストールされるツールは、以下の2つ。
使う
chasen.exe
コマンドの例
d:\chasen < in.txt > out.txt
入力の例( in.txt に記述)
Rosette 形態素解析システムは様々な言語のテキストの解析のため、形態素レベルで単語の分かち書きをします。
出力の例( out.txt に出力)
Rosette Rosette Rosette 未知語 形態素 ケイタイソ 形態素 名詞-一般 解析 カイセキ 解析 名詞-サ変接続 システム システム システム 名詞-一般 は ハ は 助詞-係助詞 様々 サマザマ 様々 名詞-形容動詞語幹 な ナ だ 助動詞 特殊・ダ 体言接続 言語 ゲンゴ 言語 名詞-一般 の ノ の 助詞-連体化 テキスト テキスト テキスト 名詞-一般 の ノ の 助詞-連体化 解析 カイセキ 解析 名詞-サ変接続 の ノ の 助詞-連体化 ため タメ ため 名詞-非自立-副詞可能 、 、 、 記号-読点 形態素 ケイタイソ 形態素 名詞-一般 レベル レベル レベル 名詞-一般 で デ で 助詞-格助詞-一般 単語 タンゴ 単語 名詞-一般 の ノ の 助詞-連体化 分かち書き ワカチガキ 分かち書き 名詞-一般 を ヲ を 助詞-格助詞-一般 し シ する 動詞-自立 サ変・スル 連用形 ます マス ます 助動詞 特殊・マス 基本形 。 。 。 記号-句点