jumany関数 の履歴(No.6) - 井関龍太のページ

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS

jumany関数 の履歴(No.6)


jumanyとは

Rから形態素解析器のJuman++を起動して形態素解析を行う関数です。

jumanyのファイル

下のアイコンをクリックしてファイルを保存してください。
保存用のポップアップが表示されない場合は,右クリックして“名前を付けてリンク先を保存”を選んでください。

filejumany.R

この関数を適用すると,以下のように分析結果が出力されます。

> jumany("メロスは激怒した。")
  surface_form reading_form  lemma part_of_speech pos_division conjtype conjform
1       メロス       メロス メロス           名詞     普通名詞        *        *
2           は           は     は           助詞       副助詞        *        *
3         激怒       げきど   激怒           名詞     サ変名詞        *        *
4         した         した   する           動詞            * サ変動詞     タ形
5           。           。     。           特殊         句点        *        *
                                                             semantics       canon
1                               自動獲得 Wikipedia; Wikipedia多義 TRUE        <NA>
2                                                                             <NA>
3                                代表表記 激怒/げきど; カテゴリ 抽象物 激怒/げきど
4 代表表記 する/する; 自他動詞 自:成る/なる; 付属動詞候補(基本) TRUE   する/する
5                                                                             <NA>

Juman++のビルド

Juman++にはインストーラーがないので各自でビルドを行う必要があります。
ファイルの設置場所等は以下の通りでなくてもかまいませんが,その場合はその都度パスの設定などを読み替えてください。

準備

  • cmakeのインストール:以下からインストーラーをダウンロードし,インストールしてください。
    https://cmake.org/download/
    インストール時に「パスを通す」を選ぶか,導入後に手動で\CMake\binにpathを通してください。
  • Visual Studio Communityのインストール:以下からインストーラーをダウンロードし,インストールしてください。
    https://visualstudio.microsoft.com/ja/
    インストール時に「C++ によるデスクトップ開発」を選択してください。

ビルド

  • ダウンロードしたファイルを解凍してください。7-Zipなどのソフトを使うと解凍できます。
    「~.xz」を解凍すると「~.tar」になるのでこれを再度解凍してください。
    すると,通常のフォルダになります。
  • コマンドプロンプトで以下を実行してください(Windowsの検索バーから「cmd」を検索して起動し,一行ずつ貼り付けてください)。
    cd /hoge/jumanpp-2.0.0-rc3
  • cdの後のパスの部分は,実際にご自身が解凍後のフォルダを設置しているパスに書き換えてください。
mkdir cmake-build-dir
cd cmake-build-dir
cmake -G "Visual Studio 17 2022" ..
  • ここでVisual Studioのバージョン番号と年は実際に使用しているもの(上でインストールしたもの)に一致させてください。
cmake --build . --config Release
ctest -C Release --output-on-failure
  • すべて実行し終えたらコマンドプロンプトを終了してください。
  • Cドライブ直下にjumanppフォルダを作ってください。
    jumanppフォルダの下に以下3つのファイルをコピーしてください(それぞれ,以下のパスの場所にあります)。

\jumanpp-2.0.0-rc3\cmake-build-dir\src\jumandic\Release\jumanpp_v2.exe
\jumanpp-2.0.0-rc3\model\jumandic.conf.in
\jumanpp-2.0.0-rc3\model\jumandic.jppmdl

  • コピーしたファイルを以下のように編集してください。
    jumandic.conf.inのファイル名から.inを削除してください。
    jumandic.confの一行目を以下のように書き換えてください。
    --model=C:/jumanpp/jumandic.jppmdl
  • 環境変数のPathにC:/jumanppを追加してください。
    Pathへの追加のしかたはこのページなどを参考にしてください。

以上で終了です。
インストーラーが存在することのありがたみがわかりますね……。

環境の構築

最初に使用する前に1回だけ行ってください。
すでにreticulateを利用中で,既存のPython環境にパッケージを追加したい場合は,4以降を実行してください。
Pythonやreticulateにくわしい方は必ずしも以下の手順通りでなくてもかまいません(要は,使用するPython環境にパッケージが導入されていれば問題ありません)。

1. Rstudioを起動してreticulateパッケージをインストールしてください。
※まず,RとRstudioを現時点での最新版にしておくことをお勧めします(パッケージのバージョンとの不整合が起こりにくくなり,トラブルの可能性が低くなります)。

2. reticulateパッケージを起動してpy_config関数を実行してください(Rstudioのコンソールに以下を入力してください)。

library(reticulate)
install_miniconda()

3. 「Would you like to install Miniconda?」と尋ねられるので,YESと答えてください。

Y

たくさんメッセージが出てきます(とても長いです)。
すべてが終わって再びキー入力できる状態になったらRstudioを閉じてください。

4. Windowsのスタートメニューから「Anaconda」の中の「Anaconda Prompt (R-MINI~1)」を選んでクリックしてください。

5. コンソール画面が開くので以下を実行してください(Anaconda Promptのコンソールに1行ずつ貼り付け)。

pip install rhoknp

すべてインストールが終了して再びキー入力できる状態になったら終了です。
Anaconda Promptを閉じてください。

6. Rstudioを起動してください。

7. 「Tools」→「Global Options」→「Python」と展開し「Select」をクリック。

8. 「Conda Environments」のタブをクリック。

9. パッケージをインストールした環境(ここまでの手順通りなら「~/r-miniconda/python.exe」で終わっている候補)を選んでから「Select」ボタンをクリック。

「OK」をクリックしてオプションを閉じてください。
Rstudioの再起動を求められるので「OK」をクリックしてください。
以上で終了です。
お疲れさまでした。

関数の使い方

関数のセット

ダウンロードしたファイルをRに読み込みます。

1. Rstudioを起動します。
2. Rのメニューバーから「Code」をクリックします。
3. 現れたメニューの中から「Source File...」をクリックします。
4. ファイルの選択画面になるので,関数のファイルを選んで「Open」をクリックします。

→Rのコンソールに「source("C:~」といったコードが表示されます。特にエラーメッセージなどが出なければ,読み込み成功です。

関数の実行

以下のような形でコードを入力してください。

jumany(文字列, executable = 実行ファイル, conf = 設定ファイル)
  • 文字列・・・分析したい文字列,または,文字列を格納した変数名。文字列を直接入力する場合は,Rの通常の書き方通り,""で囲んでください。
  • 実行ファイル・・・jumanppの実行ファイルのパスを指定してください。パス区切りはWindowsの場合は「\」か「//」にしてください(「/」は通りません)。デフォルトは上記の説明通りの場所に指定した場合のパスです。
  • 設定ファイル・・・jumanppの設定ファイルのパスを指定してください。パス区切りはWindowsの場合は「\」か「//」にしてください(「/」は通りません)。デフォルトは上記の説明通りの場所に指定した場合のパスです。
 
このエントリーをはてなブックマークに追加