自然言語とは?pythonでできる自然言語処理の手順とは
テクノロジーの進歩により、ビッグデータといわれる膨大かつ多様なデータを取り扱うことができる時代になりました。
これにより従来では収集できなかったデータを取り扱えると同時に、データを掛け合わせることで新たな答えを導き出すことができるかもしれません。
ビッグデータの活用は企業にとってもはや不可欠であり、企業の存続に直結するといっても過言ではありません。
しかしその一方で、
「データの活用方法がわからない」
という声も多いです。
ビッグデータの活かし方がわからなければ、せっかくの有益な情報を保有していても、それは宝の持ち腐れとなってしまいます。
今回の記事では「自然言語処理」について解説すると共に、自然言語処理技術を用いたビッグデータの活用例を紹介したいと思います。
自然言語とは
自然言語とは、日常の書く・話すというような、人が意思疎通のために用いる言語のことをいいます。
つまり、日本語でも英語でも、広く「言語」といえば自然言語のことを指します。
この自然言語と対比した言語がプログラミング言語です。
この二つの言語の違いは何か、それは言葉の曖昧性にあります。
自然言語はその言葉を発するときの状況や環境下により、文の意味や解釈が異なることがあります。
例えば「カバンを置いてきてください」という文章があったとします。
この文章は二通りの解釈ができます。
一つ目が、「カバンを置きに行ってください」という意味です。
二つ目が、「カバンを置いてから、こちらに来てください」という意味です。
このように、自然言語は捉え方や解釈の仕方によって複数の意味を持ち合わせることがあるという曖昧さが存在します。
一方でプログラミング言語には本来、上述した自然言語のような曖昧さを解釈することはできません。
元々コンピュータは1か0かというような機械語が使われており、足し算や引き算、掛け算や割り算といったような答えのあるものを導き出すことには長けていますが、逆を言えば一意の解釈をすることしかできないものです。
コンピュータが良くも悪くも常に同じ挙動をするのにはこの点が理由になります。
自然言語処理とは
自然言語はプログラミング言語と違い、言葉に曖昧性があることを前述しました。
この
「言葉には曖昧性がある」
ということを前提に、本来コンピュータでの処理に不向きだといわれる、自然言語を使った膨大なデータを実用的に扱うための手段として、自然言語処理という技術が存在します。
自然言語処理の技術を用いることで言葉の曖昧さを解消し、コンピュータでも自然言語データの中から特徴や関連性などを抽出したり、その抽出したデータから分析などをすることが可能となります。
コンピュータの処理能力は人間のそれを遥かに上回るため、
「大量の自然言語データの中から人間では決して気付くことができないであろう新たな発見や知見の広がり」
が期待されています。
例えばディープラーニングなどは、正にこの技術を応用することで成り立っているテーマとなります。
自然言語処理の仕組みについて
では次に、自然言語処理の仕組みについて解説します。
自然言語処理を行う際は、まず始めに「機械可読目録」と「コーパス」といわれる処理をおこなう必要があります。
機械可読目録とは、コンピュータが処理できるデータの様式のことをいいます。
この処理をおこなうことで自然言語の曖昧さをなくし、コンピュータにも理解可能な内容へと置き換えます。
このように機会可読目録とは、人とコンピュータ間の言語の違いを穴埋めするための翻訳処理をする、というイメージだと考えていただければわかりやすいと思います。
次にコーパスですが、これは自然言語の文章を構造化し、それをデータベース化したもののことをいいます。
コーパスの機能を用いることで、コンピュータがその時々の状況に適した言葉の使い方や特徴を認識することができるようになります。
コンピュータに文章を理解させるための「例文集」のようなものです。
例えば辞書などで単語を検索した時、その単語の意味の説明の後に、その単語を含めた例文が記載されていることがあると思います。
コーパスはこのような意味合いで用いられています。
機械可読目録とコーパスの準備ができたら、次の工程に進んでいきます。
自然言語処理は、この後「形態素解析」「構文解析」「意味解析」「文脈解析」という四つの工程に分けて処理がおこなわれます。
内容について順に解説をしたいと思います。
形態素解析
形態素解析とは、文章を最小単位の言葉である「単語」に分割する作業のことをいいます。
例えば上述した「カバンを置いてきてください」という文について、この文章を分解すると以下のようになります。
「カバン」「を」「置いて」「きて」「ください」。
学校で習うように
「カバン」は名詞で「を」は目的を意味する格助詞で・・・
という形で区切っていきます。
このように、文章を単語に分解することで、コンピュータが解析をするための下準備をすることを形態素解析といいます。
構文解析
構文解析とは、形態素解析で分解した単語同士の関係性を解析する作業のことをいいます。
「カバンを置いてきてください」の文章を例に挙げると、「カバンを」と「置いて」は関係性があることがおわかりだと思います。
同様に「きて」と「ください」にも関係性があります。
このように単語同士を紐づけることによって、文章全体の内容をコンピュータが理解できるようになります。
また、これに加えて主語や述語、修飾語や接続語などの文節単位に切り分けて解析をおこないます。
主語や述語を明確にすることで、文章の区切りがどこにあるのかを特定します。
これにより、コンピュータはより詳細に文章の特徴を把握することができるようになります。
以上のように、文章全体の構造をコンピュータに理解させるためのフローを構文解析といいます。
意味解析
意味解析とは、構文解析をした文章について、まだ意味が定まっていないものを更に深掘りする作業のことをいいます。
ここでは、辞書のようなものをコンピュータに読み込ませることで、単語同士の意味や関係性を理解できるようにします。
その内容をもとにコンピュータは、自然言語として用いられた際の文章の意味を正確に理解、解析することができます。
「カバンを置いてきてください」を例にした場合、「置いて」は動作であることを意味し、それが指すものは「カバン」だということを理解する、といった処理になります。
文脈解析
文脈解析とは、文と文の繋がりを理解する作業のことをいいます。
一つの文では理解できないことでも、前後の文章との繋がりを解析することで文脈を明らかにし、コンピュータに内容を理解させる作業になります。
前工程で解析しきれなかった文章を本工程で補うことができます。
例えば冒頭に「カバンを置いてきてください」の文は二通りの解釈ができると説明しましたが、この文章をどのように解釈するべきなのか、といったことを解析することができます。
以上四つの工程をおこなうことで、自然言語はコンピュータが理解できる言語に変換されたことになります。
自然言語処理の工程は複雑ですが、pythonのようなプログラミング言語の普及に伴い、徐々に認知度が広まっているテーマです。
自然言語処理技術を用いてできること
次に、ここまで解説した自然言語処理の技術を使って、具体的にどのようなことができるのかを解説したいと思います。
翻訳機能
まず一つ目が翻訳機能です。
文章の中身や意味をコンピュータに理解させ、言葉を訳すことができます。
例えばGoogle翻訳などがこれに該当します。
シンプルな構文であれば精度の高い翻訳が可能です。
検索機能
二つ目が検索機能です。
予測変換といったほうがわかりやすいかもしれません。
ブラウザやアプリなどで検索をかける時、文字を打つとキーワードの候補が表示されるのはご存知だと思います。
単に「過去に打った事がある単語」だけを並べられるよりも、文脈を理解した上で、「次に来る可能性の高い単語」を優先的に表示される方が、使い勝手が良いです。
このような機能についても自然言語処理の技術が使用されています。
対話機能
三つ目が対話機能です。
例えばiPhoneのSiriなどがこれに当たります。
音声や文字入力した文章をコンピュータが理解して、その時の最適解を音声データとして示してくれるといった機能です。
文字起こし
四つ目が文字起こし機能です。
ユーザの声に対し、発した内容を自動でテキスト化することができます。
単にテキストにするだけであれば、自然言語処理を必要としませんが、例えば日本語であれば
「漢字変換」
「句読点」
が必要になります。
これらは、自然言語を理解していないと正しい処理が難しいです。
他にも、英語/日本語問わず
「発音の曖昧さ」
や
「同じ発音で複数の単語が存在する場合」
という場合にも、正しい表記ができるか否かは、この自然言語処理技術の性能にかかっています。
自然言語処理を利用したシステム開発
自然言語処理の技術を用いてできることを解説しました。
それでは上述した技術を活用して、どのようなシステムを開発することができるのかを解説します。
チャットボット
チャットボットとは、自動会話プログラムのことをいいます。
チャットボットを使用することで、顧客からの問い合わせ対応に活用したり、社員の業務上の問題解決方法を提示したりなど、様々な用途に応用することができます。
性能の低いチャットボットでは、事前に指定された選択肢を表示していくだけになります。
しかし、自由記述で書いたものに対して
「〇〇でお困りですか?」
などのように、チャットボットが自動的に状況を判断して、最適な回答を出してくれる。
こういったケースでは自然言語処理が重要になってきます。
テキストマイニングツール
テキストマイニングとは、自由記述の文章の中身を解析する手法のことをいいます。
テキストマイニングをおこなうことで、それぞれの言葉の相関関係など、人では感知できないような有益な情報を探し出します。
例えば日報や業務報告書、顧客とのメールやSNSツールなど、社内には数多くの文字データを保持していると思います。
これらのビッグデータをテキストマイニングで解析することで、業務上の課題発見や、新たなKPIの発掘など、会社の利益に繋がる情報を見つけることができるかもしれません。
他にも、
・チャットで愚痴が多い人は会社に不満を持っている可能性が高い
・クレームが多い部署にはケアが必要
・顧客からの問い合わせ内容に偏りがあるため、頻度の多いものはQ&Aに入れる
・SNSの情報から「〇〇」に注目が集まっている。この情報を商品開発に活かす
こういった事が可能になります。
Pythonでの自然言語処理システムの開発はAMELAに
今回は、自然言語処理について見てきました。
世の中には様々なプログラミング言語が存在しますが、最も自然言語処理に適しているとされているプログラミング言語は「Python」と言われています。
Pythonでは、様々な分析に強いライブラリが存在し、コード数が少なく開発ができるという特徴があります。
もしも、Pythonでの開発を希望している場合は、是非AMELAにご相談ください。
一般的に、Pythonエンジニアは高いというのが相場ですが、オフショア開発なども行っているため、相場感以上のご提案もできるかと存じます。