sudachy関数 の履歴(No.3)
sudachyとは†
Rから日本語形態素解析器のSudachiを起動して形態素解析を行う関数です(より正確には,SudachiのpythonパッケージであるSudachiPyを呼び出します)。
sudachyのファイル†
下のアイコンをクリックしてファイルを保存してください。
保存用のポップアップが表示されない場合は,右クリックして“名前を付けてリンク先を保存”を選んでください。
この関数を適用すると,以下のように分析結果が出力されます。
> sudachy("メロスは激怒した。") surface POS1 POS2 POS3 POS4 POS5 POS6 1 メロス 名詞 普通名詞 一般 * * * 2 は 助詞 係助詞 * * * * 3 激怒 名詞 普通名詞 サ変可能 * * * 4 し 動詞 非自立可能 * * サ行変格 連用形-一般 5 た 助動詞 * * * 助動詞-タ 終止形-一般 6 。 補助記号 句点 * * * * normalized_form dictionary_form reading_form dictionary_id 1 メロス メロス メロス 0 2 は は ハ 0 3 激怒 激怒 ゲキド 0 4 為る する シ 0 5 た た タ 0 6 。 。 。 0
環境の構築†
最初に使用する前に1回だけ行ってください。
すでにreticulateを利用中で,既存のPython環境にパッケージを追加したい場合は,4以降を実行してください。
Pythonやreticulateにくわしい方は必ずしも以下の手順通りでなくてもかまいません(要は,使用するPython環境にパッケージが導入されていれば問題ありません)。
1. Rstudioを起動してreticulateパッケージをインストールしてください。
※まず,RとRstudioを現時点での最新版にしておくことをお勧めします(パッケージのバージョンとの不整合が起こりにくくなり,トラブルの可能性が低くなります)。
2. reticulateパッケージを起動してpy_config関数を実行してください(Rstudioのコンソールに以下を入力してください)。
library(reticulate) py_config()
3. 「Would you like to install Miniconda?」と尋ねられるので,YESと答えてください。
Y
たくさんメッセージが出てきます(とても長いです)。
すべてが終わって再びキー入力できる状態になったらRstudioを閉じてください。
4. Windowsのスタートメニューから「Anaconda」の中の「Anaconda Prompt (R-MINI~1)」を選んでクリックしてください。
5. コンソール画面が開くので以下を実行してください(Anaconda Promptのコンソールに1行ずつ貼り付け)。
pip install -U sudachipy sudachidict_core pip install sudachidict-full sudachidict-small
※2行目は必須ではありませんが,辞書のオプションを使用したい場合はインストールしてください。
すべてインストールが終了して再びキー入力できる状態になったら終了です。
Anaconda Promptを閉じてください。
6. Rstudioを起動してください。
7. 「Tools」→「Global Options」→「Python」と展開し「Select」をクリック。
8. 「Conda Environments」のタブをクリック。
9. パッケージをインストールした環境(ここまでの手順通りなら「~/r-miniconda/python.exe」で終わっている候補)を選んでから「Select」ボタンをクリック。
「OK」をクリックしてオプションを閉じてください。
Rstudioの再起動を求められるので「OK」をクリックしてください。
以上で終了です。
お疲れさまでした。
関数の使い方†
関数のセット†
ダウンロードしたファイルをRに読み込みます。
1. Rstudioを起動します。
2. Rのメニューバーから「Code」をクリックします。
3. 現れたメニューの中から「Source File...」をクリックします。
4. ファイルの選択画面になるので,関数のファイルを選んで「Open」をクリックします。
→Rのコンソールに「source("C:~」といったコードが表示されます。特にエラーメッセージなどが出なければ,読み込み成功です。
関数の実行†
以下のような形でコードを入力してください。
sudachy(文字列, mode = 分析モード, dic = 辞書)
- 文字列・・・分析したい文字列,または,文字列を格納した変数名。文字列を直接入力する場合は,Rの通常の書き方通り,""で囲んでください。
- 分析モード・・・A,B,Cの3種類が指定できます。Aは語をなるべく詳細に区切る場合,Bは中間,Cは複合名詞などをなるべくまとめる場合です。入力の際は""で囲んでください。デフォルトはBです。
- 辞書・・・small,core,fullの3種類が指定できます。この並びの順に収録語数が多くなります。それぞれに対応したパッケージをあらかじめインストールする必要があります。入力の際は""で囲んでください。デフォルトはcoreです。