mecaby関数 をテンプレートにして作成 - 井関龍太のページ
井関龍太のページ
mecaby関数
をテンプレートにして作成
開始行:
*&color(#6A5ACD){mecabyとは}; [#xc24b48b]
Rから形態素解析器の[[MeCab>https://taku910.github.io/meca...
*&color(#6A5ACD){mecabyのファイル}; [#la06b2ef]
下のアイコンをクリックしてファイルを保存してください。
保存用のポップアップが表示されない場合は,右クリックして“...
&ref(mecaby.R);
この関数を適用すると,以下のように分析結果が出力されます。
> mecaby("メロスは激怒した。")
Surface_Value Part_of_Speech Part_of_Speech1 Part_of_S...
1 メロス 名詞 一般 ...
2 は 助詞 係助詞 ...
3 激怒 名詞 サ変接続 ...
4 し 動詞 自立 ...
5 た 助動詞 * ...
6 。 記号 句点 ...
Part_of_Speech3 Conjugation Inflection Root_Form Readi...
1 * * * * <N...
2 * * * は ...
3 * * * 激怒 ゲキ...
4 * サ変・スル 連用形 する ...
5 * 特殊・タ 基本形 た ...
6 * * * 。 ...
*&color(#6A5ACD){環境の構築}; [#va5b2fe7]
最初に使用する前に1回だけ行ってください。
すでにreticulateを利用中で,既存のPython環境にパッケージ...
Pythonやreticulateにくわしい方は必ずしも以下の手順通りで...
1. Rstudioを起動してreticulateパッケージをインストールし...
※まず,RとRstudioを現時点での最新版にしておくことをお勧め...
2. reticulateパッケージを起動してMinicondaをインストール...
library(reticulate)
install_miniconda()
3. 「Would you like to install Miniconda?」と尋ねられるの...
Y
たくさんメッセージが出てきます(とても長いです)。
すべてが終わって再びキー入力できる状態になったらRstudioを...
4. Windowsのスタートメニューから「Miniconda3」の中の「Ana...
5. コンソール画面が開くので以下を実行してください(Anacon...
pip install -U mecab-python3
pip install unidic-lite
すべてインストールが終了して再びキー入力できる状態になっ...
Anaconda Promptを閉じてください。
6. Rstudioを起動してください。
7. 「Tools」→「Global Options」→「Python」と展開し「Selec...
8. 「Conda Environments」のタブをクリック。
9. パッケージをインストールした環境(ここまでの手順通りな...
「OK」をクリックしてオプションを閉じてください。
Rstudioの再起動を求められるので「OK」をクリックしてくださ...
以上で終了です。
お疲れさまでした。
*&color(#6A5ACD){関数の使い方}; [#qffe511a]
**&color(#000080){関数のセット}; [#sa17c3b7]
ダウンロードしたファイルをRに読み込みます。
1. Rstudioを起動します。
2. Rのメニューバーから「Code」をクリックします。
3. 現れたメニューの中から「Source File...」をクリックしま...
4. ファイルの選択画面になるので,関数のファイルを選んで「...
→Rのコンソールに「source("C:~」といったコードが表示され...
**&color(#000080){関数の実行}; [#rf8f9c4a]
以下のような形でコードを入力してください。
mecaby(文字列, dic = システム辞書, udic = ユーザー辞書, ...
-文字列・・・分析したい文字列,または,文字列を格納した変...
-システム辞書・・・システム辞書として使用する辞書のパスを...
-ユーザー辞書・・・ユーザー辞書として使用する辞書のパスを...
-ヘッダ・・・ヘッダとして指定したい文字列を文字列ベクトル...
※補足説明
mecabyはRから辞書を切り替えながら使用することを想定してい...
MeCabは使用する辞書によって出力の列数が異なります。
そのため,ヘッダ情報を適切に推測できない場合がありえます。
そのようなときは,ご自身でヘッダとして適切なラベルを付け...
また,mecab-python3は辞書が見つからないときやアップデート...
誤りなく意図した辞書を使って分析をするためには,mecaby.R...
なお,pythonパッケージ版でなく,オリジナルの辞書ファイル...
*&color(#6A5ACD){辞書による解析結果の違い}; [#bf3a6b8b]
デフォルトのUniDicでは以下のような感じです。
> mecaby("東京特許許可局で領収書を探して飛びまわる。")
sufrace pron lForm lemma ...
1 東京 トーキョー トウキョウ トウキョウ 名詞...
2 特許 トッキョ トッキョ 特許 ...
3 許可 キョカ キョカ 許可 名...
4 局 キョク キョク 局 名詞-...
5 で デ デ で ...
6 領収 リョーシュー リョウシュウ 領収 名...
7 書 ショ ショ 書 ...
8 を オ ヲ を ...
9 探し サガシ サガス 探す ...
10 て テ テ て ...
11 飛びまわる トビマワル トビマワル 飛び回る ...
12 。 。 ...
cForm aType1 aType2 aModType
1 0 <NA> <NA>
2 1 0 <NA>
3 1 <NA> <NA>
4 1 <NA> <NA>
5 <NA> <NA> <NA>
6 0 <NA> <NA>
7 <NA> <NA> <NA>
8 <NA> <NA> <NA>
9 連用形-一般 0 <NA> <NA>
10 <NA> <NA> <NA>
11 終止形-一般 4 <NA> <NA>
12 <NA> <NA> <NA>
MeCabといえばIPA辞書ですね。
UniDicによる解析結果と分割のしかたは同じですが,品詞体系...
> mecaby("東京特許許可局で領収書を探して飛びまわる。", d...
Surface_Value Part_of_Speech Part_of_Speech1 Part_of_...
1 東京 名詞 固有名詞 ...
2 特許 名詞 サ変接続 ...
3 許可 名詞 サ変接続 ...
4 局 名詞 接尾 ...
5 で 助詞 格助詞 ...
6 領収 名詞 サ変接続 ...
7 書 名詞 接尾 ...
8 を 助詞 格助詞 ...
9 探し 動詞 自立 ...
10 て 助詞 接続助詞 ...
11 飛びまわる 動詞 自立 ...
12 。 記号 句点 ...
Inflection Root_Form Reading Pronunciation
1 * 東京 トウキョウ トーキョー
2 * 特許 トッキョ トッキョ
3 * 許可 キョカ キョカ
4 * 局 キョク キョク
5 * で デ デ
6 * 領収 リョウシュウ リョーシュー
7 * 書 ショ ショ
8 * を ヲ ヲ
9 連用形 探す サガシ サガシ
10 * て テ テ
11 基本形 飛びまわる トビマワル トビマワル
12 * 。 。 。
新語や固有表現に強いNEologd(mecab-ipadic-neologd 2020-08...
「東京特許許可局」が一単位となっているために他の辞書とは...
> mecaby("東京特許許可局で領収書を探して飛びまわる。", d...
Surface_Value Part_of_Speech Part_of_Speech1 Part_of_...
1 東京特許許可局 名詞 固有名詞 ...
2 で 助詞 格助詞 ...
3 領収 名詞 サ変接続 ...
4 書 名詞 接尾 ...
5 を 助詞 格助詞 ...
6 探し 動詞 自立 ...
7 て 助詞 接続助詞 ...
8 飛びまわる 動詞 自立 ...
9 。 記号 句点 ...
Inflection Root_Form Readi...
1 * 東京特許許可局 トウキョウトッキョキョカキョ...
2 * で ...
3 * 領収 リョウシュ...
4 * 書 シ...
5 * を ...
6 連用形 探す サガ...
7 * て ...
8 基本形 飛びまわる トビマワ...
9 * 。 ...
同じUniDicでもダウンロード版を使った場合はpythonライブラ...
goshu(語種)の情報が出力されるのが分析の目的によってはあ...
> mecaby("東京特許許可局で領収書を探して飛びまわる。", d...
surface pos1 pos2 pos3 pos4 cTyp...
1 東京 名詞 固有名詞 地名 一般 ...
2 特許 名詞 普通名詞 一般 * ...
3 許可 名詞 普通名詞 サ変可能 * ...
4 局 名詞 普通名詞 助数詞可能 * ...
5 で 助詞 格助詞 * * ...
6 領収 名詞 普通名詞 サ変可能 * ...
7 書 接尾辞 名詞的 一般 * ...
8 を 助詞 格助詞 * * ...
9 探し 動詞 一般 * * 五段-サ...
10 て 助詞 接続助詞 * * ...
11 飛びまわる 動詞 一般 * * 五段-ラ...
12 。 補助記号 句点 * * ...
lemma orth pron orthBase pro...
1 トウキョウ 東京 トーキョー 東京 トー...
2 特許 特許 トッキョ 特許 ト...
3 許可 許可 キョカ 許可 ...
4 局 局 キョク 局 ...
5 で で デ で ...
6 領収 領収 リョーシュー 領収 リョー...
7 書 書 ショ 書 ...
8 を を オ を ...
9 探す 探し サガシ 探す ...
10 て て テ て ...
11 飛び回る 飛びまわる トビマワル 飛びまわる トビ...
12 。 。 * 。 ...
iConType fConType lType kana kanaBase ...
1 * * 地名 トウキョウ トウキョウ ...
2 * * 体 トッキョ トッキョ ...
3 * * 体 キョカ キョカ ...
4 * B1S6SjShS 体 キョク キョク ...
5 * * 格助 デ デ ...
6 * * 体 リョウシュウ リョウシュウ ...
7 * * 接尾体 ショ ショ ...
8 * * 格助 ヲ ヲ ...
9 * * 用 サガシ サガス ...
10 * * 接助 テ テ ...
11 * * 用 トビマワル トビマワル ...
12 * * 補助 * * ...
aConType aModType ...
1 * * 7129242085...
2 C1 * 7276576576...
3 C3 * 2571216565...
4 C3 * 2572590954...
5 "動詞%F2@0,名詞%F1" * 7014343053...
6 C2 * 11064119256...
7 C4 * 4542366035...
8 "動詞%F2@0,名詞%F1,形容詞%F2@-1" * 11381878116...
9 C2 * 3832081591...
10 "動詞%F1,形容詞%F2@-1" * 6837321680...
11 C1 * 7302964855...
12 * * 6880571...
#br
終了行:
*&color(#6A5ACD){mecabyとは}; [#xc24b48b]
Rから形態素解析器の[[MeCab>https://taku910.github.io/meca...
*&color(#6A5ACD){mecabyのファイル}; [#la06b2ef]
下のアイコンをクリックしてファイルを保存してください。
保存用のポップアップが表示されない場合は,右クリックして“...
&ref(mecaby.R);
この関数を適用すると,以下のように分析結果が出力されます。
> mecaby("メロスは激怒した。")
Surface_Value Part_of_Speech Part_of_Speech1 Part_of_S...
1 メロス 名詞 一般 ...
2 は 助詞 係助詞 ...
3 激怒 名詞 サ変接続 ...
4 し 動詞 自立 ...
5 た 助動詞 * ...
6 。 記号 句点 ...
Part_of_Speech3 Conjugation Inflection Root_Form Readi...
1 * * * * <N...
2 * * * は ...
3 * * * 激怒 ゲキ...
4 * サ変・スル 連用形 する ...
5 * 特殊・タ 基本形 た ...
6 * * * 。 ...
*&color(#6A5ACD){環境の構築}; [#va5b2fe7]
最初に使用する前に1回だけ行ってください。
すでにreticulateを利用中で,既存のPython環境にパッケージ...
Pythonやreticulateにくわしい方は必ずしも以下の手順通りで...
1. Rstudioを起動してreticulateパッケージをインストールし...
※まず,RとRstudioを現時点での最新版にしておくことをお勧め...
2. reticulateパッケージを起動してMinicondaをインストール...
library(reticulate)
install_miniconda()
3. 「Would you like to install Miniconda?」と尋ねられるの...
Y
たくさんメッセージが出てきます(とても長いです)。
すべてが終わって再びキー入力できる状態になったらRstudioを...
4. Windowsのスタートメニューから「Miniconda3」の中の「Ana...
5. コンソール画面が開くので以下を実行してください(Anacon...
pip install -U mecab-python3
pip install unidic-lite
すべてインストールが終了して再びキー入力できる状態になっ...
Anaconda Promptを閉じてください。
6. Rstudioを起動してください。
7. 「Tools」→「Global Options」→「Python」と展開し「Selec...
8. 「Conda Environments」のタブをクリック。
9. パッケージをインストールした環境(ここまでの手順通りな...
「OK」をクリックしてオプションを閉じてください。
Rstudioの再起動を求められるので「OK」をクリックしてくださ...
以上で終了です。
お疲れさまでした。
*&color(#6A5ACD){関数の使い方}; [#qffe511a]
**&color(#000080){関数のセット}; [#sa17c3b7]
ダウンロードしたファイルをRに読み込みます。
1. Rstudioを起動します。
2. Rのメニューバーから「Code」をクリックします。
3. 現れたメニューの中から「Source File...」をクリックしま...
4. ファイルの選択画面になるので,関数のファイルを選んで「...
→Rのコンソールに「source("C:~」といったコードが表示され...
**&color(#000080){関数の実行}; [#rf8f9c4a]
以下のような形でコードを入力してください。
mecaby(文字列, dic = システム辞書, udic = ユーザー辞書, ...
-文字列・・・分析したい文字列,または,文字列を格納した変...
-システム辞書・・・システム辞書として使用する辞書のパスを...
-ユーザー辞書・・・ユーザー辞書として使用する辞書のパスを...
-ヘッダ・・・ヘッダとして指定したい文字列を文字列ベクトル...
※補足説明
mecabyはRから辞書を切り替えながら使用することを想定してい...
MeCabは使用する辞書によって出力の列数が異なります。
そのため,ヘッダ情報を適切に推測できない場合がありえます。
そのようなときは,ご自身でヘッダとして適切なラベルを付け...
また,mecab-python3は辞書が見つからないときやアップデート...
誤りなく意図した辞書を使って分析をするためには,mecaby.R...
なお,pythonパッケージ版でなく,オリジナルの辞書ファイル...
*&color(#6A5ACD){辞書による解析結果の違い}; [#bf3a6b8b]
デフォルトのUniDicでは以下のような感じです。
> mecaby("東京特許許可局で領収書を探して飛びまわる。")
sufrace pron lForm lemma ...
1 東京 トーキョー トウキョウ トウキョウ 名詞...
2 特許 トッキョ トッキョ 特許 ...
3 許可 キョカ キョカ 許可 名...
4 局 キョク キョク 局 名詞-...
5 で デ デ で ...
6 領収 リョーシュー リョウシュウ 領収 名...
7 書 ショ ショ 書 ...
8 を オ ヲ を ...
9 探し サガシ サガス 探す ...
10 て テ テ て ...
11 飛びまわる トビマワル トビマワル 飛び回る ...
12 。 。 ...
cForm aType1 aType2 aModType
1 0 <NA> <NA>
2 1 0 <NA>
3 1 <NA> <NA>
4 1 <NA> <NA>
5 <NA> <NA> <NA>
6 0 <NA> <NA>
7 <NA> <NA> <NA>
8 <NA> <NA> <NA>
9 連用形-一般 0 <NA> <NA>
10 <NA> <NA> <NA>
11 終止形-一般 4 <NA> <NA>
12 <NA> <NA> <NA>
MeCabといえばIPA辞書ですね。
UniDicによる解析結果と分割のしかたは同じですが,品詞体系...
> mecaby("東京特許許可局で領収書を探して飛びまわる。", d...
Surface_Value Part_of_Speech Part_of_Speech1 Part_of_...
1 東京 名詞 固有名詞 ...
2 特許 名詞 サ変接続 ...
3 許可 名詞 サ変接続 ...
4 局 名詞 接尾 ...
5 で 助詞 格助詞 ...
6 領収 名詞 サ変接続 ...
7 書 名詞 接尾 ...
8 を 助詞 格助詞 ...
9 探し 動詞 自立 ...
10 て 助詞 接続助詞 ...
11 飛びまわる 動詞 自立 ...
12 。 記号 句点 ...
Inflection Root_Form Reading Pronunciation
1 * 東京 トウキョウ トーキョー
2 * 特許 トッキョ トッキョ
3 * 許可 キョカ キョカ
4 * 局 キョク キョク
5 * で デ デ
6 * 領収 リョウシュウ リョーシュー
7 * 書 ショ ショ
8 * を ヲ ヲ
9 連用形 探す サガシ サガシ
10 * て テ テ
11 基本形 飛びまわる トビマワル トビマワル
12 * 。 。 。
新語や固有表現に強いNEologd(mecab-ipadic-neologd 2020-08...
「東京特許許可局」が一単位となっているために他の辞書とは...
> mecaby("東京特許許可局で領収書を探して飛びまわる。", d...
Surface_Value Part_of_Speech Part_of_Speech1 Part_of_...
1 東京特許許可局 名詞 固有名詞 ...
2 で 助詞 格助詞 ...
3 領収 名詞 サ変接続 ...
4 書 名詞 接尾 ...
5 を 助詞 格助詞 ...
6 探し 動詞 自立 ...
7 て 助詞 接続助詞 ...
8 飛びまわる 動詞 自立 ...
9 。 記号 句点 ...
Inflection Root_Form Readi...
1 * 東京特許許可局 トウキョウトッキョキョカキョ...
2 * で ...
3 * 領収 リョウシュ...
4 * 書 シ...
5 * を ...
6 連用形 探す サガ...
7 * て ...
8 基本形 飛びまわる トビマワ...
9 * 。 ...
同じUniDicでもダウンロード版を使った場合はpythonライブラ...
goshu(語種)の情報が出力されるのが分析の目的によってはあ...
> mecaby("東京特許許可局で領収書を探して飛びまわる。", d...
surface pos1 pos2 pos3 pos4 cTyp...
1 東京 名詞 固有名詞 地名 一般 ...
2 特許 名詞 普通名詞 一般 * ...
3 許可 名詞 普通名詞 サ変可能 * ...
4 局 名詞 普通名詞 助数詞可能 * ...
5 で 助詞 格助詞 * * ...
6 領収 名詞 普通名詞 サ変可能 * ...
7 書 接尾辞 名詞的 一般 * ...
8 を 助詞 格助詞 * * ...
9 探し 動詞 一般 * * 五段-サ...
10 て 助詞 接続助詞 * * ...
11 飛びまわる 動詞 一般 * * 五段-ラ...
12 。 補助記号 句点 * * ...
lemma orth pron orthBase pro...
1 トウキョウ 東京 トーキョー 東京 トー...
2 特許 特許 トッキョ 特許 ト...
3 許可 許可 キョカ 許可 ...
4 局 局 キョク 局 ...
5 で で デ で ...
6 領収 領収 リョーシュー 領収 リョー...
7 書 書 ショ 書 ...
8 を を オ を ...
9 探す 探し サガシ 探す ...
10 て て テ て ...
11 飛び回る 飛びまわる トビマワル 飛びまわる トビ...
12 。 。 * 。 ...
iConType fConType lType kana kanaBase ...
1 * * 地名 トウキョウ トウキョウ ...
2 * * 体 トッキョ トッキョ ...
3 * * 体 キョカ キョカ ...
4 * B1S6SjShS 体 キョク キョク ...
5 * * 格助 デ デ ...
6 * * 体 リョウシュウ リョウシュウ ...
7 * * 接尾体 ショ ショ ...
8 * * 格助 ヲ ヲ ...
9 * * 用 サガシ サガス ...
10 * * 接助 テ テ ...
11 * * 用 トビマワル トビマワル ...
12 * * 補助 * * ...
aConType aModType ...
1 * * 7129242085...
2 C1 * 7276576576...
3 C3 * 2571216565...
4 C3 * 2572590954...
5 "動詞%F2@0,名詞%F1" * 7014343053...
6 C2 * 11064119256...
7 C4 * 4542366035...
8 "動詞%F2@0,名詞%F1,形容詞%F2@-1" * 11381878116...
9 C2 * 3832081591...
10 "動詞%F1,形容詞%F2@-1" * 6837321680...
11 C1 * 7302964855...
12 * * 6880571...
#br
ページ名: