形態素解析 【morphological analysis】

概要

形態素解析(morphological analysis)とは、自然言語で書かれた文を言語上の最小単位である形態素に分割し、それぞれの品詞や変化などを割り出すこと。ITの分野ではコンピュータによる自然言語処理の一つとして、かな漢字変換全文検索、機械翻訳などで用いられる。

日本語や英語など人間が普段使っている自然言語において、文中で意味をなす最小の構成要素を形態素(morpheme)という。文がどのような要素によって構成されているかを調べるために、形態素の列に分解してそれぞれの文法上の属性(品詞の種類や活用形など)を明らかにしていく処理を形態素解析という。

例えば、“This is a pen.” という英文は “this”(代名詞)、“is”(be動詞)、“a”(不定冠詞) “pen”(一般名詞)のように分解できる。“apples”を“apple”(名詞)と“-s”(接尾辞/複数形)の組み合わせであるというように、一つの単語を接尾時・接頭辞や語幹などに分解する場合もある。

日本語では「これはペンです」を「これ」(代名詞)「は」(係助詞)「ペン」(一般名詞)「です」(助動詞)のように分解できる。文法上の要素に分解していくため、「食べた」は一語ではなく「食べ」(動詞/連用形)「た」(助動詞)に分かれる。

コンピュータによる形態素解析処理は、当該言語の文法規則や、単語や接辞などの要素を列挙した辞書データを用いて行う。英語などアルファベット圏の言語は単語ごとに短い空白をあける「分かち書き」をするため、基本的に単語の接辞や変化を調べるだけでよいが、日本語や韓国語などでは単語に分けず一文を続けて記すため、単語分割の段階で複雑な処理や大量の辞書データが必要となる。

また、自然言語では複数の異なる解釈が可能で、辞書や規則の機械的な適用だけでは一意に定まらない表現なども存在するため、慣用句や自然な表現を集めた文例データや、要素間の連結についての統計的なデータを用いて精度を向上させる場合もある。

(2019.1.15更新)

コンピュータの用語一覧

OSZAR »