MeCab
あえて記載する必要はないかと思いますが、形態素解析エンジンです。「和布蕪」です。
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
Ubuntu 16.04 LTS にインストール
OS や バージョン ごとに微妙にインストール方法が異なるので、Ubuntu 16.04 LTS の場合を簡単に書きます。
1. MeCab を apt-get でインストール
MeCab 自体は apt-get で入ってしまいますので簡単です。辞書も入れておきます。
$ sudo apt-get install mecab libmecab-dev mecab-ipadic-utf8
インストールが終わったらチェックしてみるといいでしょう。
$ echo "明日の天気は晴れです。" | mecab 明日の天気 名詞,固有名詞,一般,*,*,*,明日の天気,アシタノテンキ,アシタノテンキ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 晴れ 名詞,一般,*,*,*,*,晴れ,ハレ,ハレ です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス 。 記号,句点,*,*,*,*,。,。,。 EOS
2. NEologd をビルドする
イケてる辞書である NEologd をインストールします。以下のリポジトリから git clone してビルドしましょう。少し時間がかかります。
$ git clone https://github.com/neologd/mecab-ipadic-neologd.git $ cd mecab-ipadic-neologd $ sudo bin/install-mecab-ipadic-neologd
3. NEologd をデフォルトの辞書に設定する
/etc/mecabrc
というファイルが辞書ファイルを指定するための設定ファイルです。こいつを編集して辞書の場所を指定し、デフォルトの辞書を NEologd に変更しましょう。
NEologd がインストールされた場所は、Ubuntu 16.04 LTS では /usr/lib/mecab/dic/mecab-ipadic-neologd
になります。/etc/mecabrc
の中に dicdir = /usr/lib/mecab/dic/mecab-ipadic-neologd
という記述を加えましょう。デフォルトの dicdir
指定部分は先頭にセミコロンを付けてコメントアウトしてあげます。
なお、NEologd のビルド完了時にインストールされた場所が表示されます。
[install-mecab-ipadic-NEologd] : Usage of mecab-ipadic-NEologd is here. Usage: $ mecab -d /usr/lib/mecab/dic/mecab-ipadic-neologd ... [install-mecab-ipadic-NEologd] : Finish.. [install-mecab-ipadic-NEologd] : Finish..
4. NEologd が辞書として用いられているか確認する
NEologd を用いなければ正しく分解できないような語を用いて、NEologd が使われているかどうかを試しましょう。
$ echo "幽☆遊☆白書" | mecab 幽☆遊☆白書 名詞,固有名詞,一般,*,*,*,幽☆遊☆白書,ユウユウハクショ,ユウユウハクショ EOS
確認できれば OK です。