素人でもわかるテキストマイニングとは?エクセルでも可能なのか?
近年、SNSを始めとして、多くの一般人がネット上に情報をアップしています。 そのため、今やネットの情報を分析する事は 「顧客心理を分析すること」 を意味すると言っても過言ではありません。 それ以外にも ・簡単に商品レビューが出来る機能 ・掲示板 ・顧客からの問い合わせ ・メールやチャットでの質問 など、様々な方法で情報が集まってきています。 そんな情報を解析する方法の一つとして 「テキストマイニング」 というものがあります。 今回は、テキストマイニングについて見ていきましょう。
テキストマイニングとは
テキストマイニングとは[/caption] テキストマイニングは、SNSやネット上に書かれた記事など、主にビッグデータの調査で使われている技術です。 「今、SNS上でこんな言葉が話題になっています。」 「アンケート調査から浮かび上がってきたのは、こんな言葉でした。」 こんなニュースを耳にしたことはありませんか? このような調査には、テキストマイニングが深く関わっています。 ここでは、テキストマイニングとはなにか、について解説します。
文章=テキストを対象としたデータ分析
テキストマイニングは、データ分析の1つ。 データ分析とは、収集したデータを分析し、客観的な視点から目的に沿った情報を抽出することです。 テキストマイニングではデータとして、文章=テキストを扱います。 テキストマイニングの特徴は、定性データを扱うという点です。 データには、定性データと定量データがあります。 定性データは、『どんなところが好きか』『どんな気持ちか』など数字で表現することができない質的なデータ。 定量データは、『何mか』『何個売れたのか』などの数字で表現できるデータのことです。 テキストマイニングでは、定性データであるテキストを機械的に処理し、定量データにすることで客観的な情報を抽出できます。 テキストマイニングが発達する以前は、アンケートなどによって定量データを測ることが出来る一方で、定性データは分析者が一つずつ確認する必要がありました。 そのため、膨大な量のデータを解析する事は難しく、またデータを分析する人の主観に頼らざるを得ませんでした。 そういったデメリットを取り除き、客観的に大量の定性データを分析できる。 これがテキストマイニングそのものの価値と言えるでしょう。
テキストマイニングが対象とするテキスト
テキストマイニングでは、あらゆるテキストを対象として分析できます。 ・アンケート調査で収集した情報 ・キーワードを決めてSNSで収集した情報 ・電話対応を記録し、それをテキスト化した情報 など。 ここで注意したいのが、分析するテキストは目的を持って収集したデータであることです。 一定の目的を持って集めたデータでないと、分析をしても利用価値の高い情報の抽出ができません。
テキストマイニングの特徴
テキストマイニングは、対象とする文章の ・全体像の把握:注目されている言葉、関連性のある言葉など ・データの偏りの抽出:年齢、性別、地域別など に向いた技術です。
テキストマイニングの目的
テキストマイニングの目的[/caption] テキストマイニングの主な目的は、大きく分けると市場調査と課題抽出です。
市場調査で顧客のニーズを抽出
「自社の製品は、SNSでどう評価されているか?」 「市場で求められるのは、どんな機能なのか?」 テキストマイニングでは、このような市場調査が可能です。 SNSやネット上の評価などを収集し調査し、顧客のニーズを抽出できます。 ニーズには、2種類あります。 ・顕在ニーズ:顧客が自身で理解しているニーズ ・潜在ニーズ:顧客が自身でも認識していないニーズ 顕在ニーズの抽出が適正に行われれば、現在選択すべき戦略を立てることができます。 継続的な調査では、潜在ニーズにもいち早く気づけます。 潜在ニーズからは、将来予測ができます。 これから注目されそうな商品、言葉、サービスを予測することで効果的な企業戦略を練ることができます。 特に商品開発やサービス開発を行っている企業であれば、 「今までに売れている商品の類似商品や発展商品」 を出すことも重要ですが、 「新しいニーズを捉えた業界初の仕組みや商品」 を出すことも重要です。 そういった開発には、これらの分析が必要不可欠なのです。
組織の課題抽出
組織内には、レポートや日誌など、見返すことがあまりないテキストが埋もれています。 これらのテキストを分析することで、組織内の課題抽出ができます。 たとえば、 ・ノウハウの一般化 ・人員配置 ・業務の効率化 など 組織でつくられたテキストを、埋もれたままにしておくことは非常に勿体無いです。 これは、単に社内の問題だけではなく、社外からの問い合わせに関する内容や、クレームなど。 お客様の声を分析することも、非常に高い効果が得られます。
テキストマイニングの分析方法とできること
テキストマイニングの分析方法とできること[/caption] テキストマイニングには、複数の分析方法があり、それぞれ抽出できる情報が異なります。 分析方法と抽出できる情報について解説します。
どんな言葉がよく使われている?『主成分分析』
どんな言葉がどれくらいの頻度で使用されているのかを分析するのが、主成分分析です。 名詞、動詞、形容詞など、品詞ごとに、それぞれどれくらい使われているのかまで抽出できます。 分析結果は、言葉と使用回数が一覧で表示されます。 テキストの中で注目されている言葉を、客観的な数字で捉えることができます。
どんな言葉と一緒に使われている?『KWICコンコーダンス』
特定の言葉を、前後の文脈と一緒に表示する検索機能です。 KWICはKeyword in contextの略 この機能を使用すると、特定の言葉が、どんな言葉と関係性があるのかを抽出できます。 たとえば、コンビニエンスストアに関するテキストを、KWICコンコーダンスで検索するとします。 「パン」という言葉が、「牛乳」と同じ文脈の中で多く使われていれば、パンと牛乳に強い関係性があることが分かります。 関係性の強い言葉が分析できたら、その言葉の意味や頻度を分析することでさらに深い分析ができます。
良い評価?悪い評価?『感情分析』
言葉が、感情的にどう捉えられているかを分析できます。 肯定的、中立的、否定的の3つで評価することが多いです。 KWICコンコーダンスと合わせて分析をすると、特定の言葉がどういった感情で捉えられているのか分析できます。 例えばコンビニエンスストア。 「おにぎり」という言葉が、「おいしい」と同じ文脈で使われていれば、肯定的となります。 肯定的に捉えられている言葉は自社のストロングポイント、否定的に捉えられているのは課題点として戦略を練り直すことができます。
言葉の特徴と関係性がわかる『対応分析』
対応分析では、 ・言葉同士の関係性 ・テキスト全体の中で、特徴的な言葉かどうか を、散布図に落とし込み視覚化できます。 複数の記事を同時に対応分析することで、記事ごとの特徴や全ての記事を含めた言葉の関係性などを分析することもできます。 視覚化されることで、関係性の強い言葉かどうか、一般的な言葉か特徴的な言葉か、を確認しやすい分析です。 関係性の強い言葉の感情分析や、特徴的すぎる言葉は分析対象から外すなど、対応分析から分かったことをさらに分析することで、分析の精度を上げることもできます。
言葉同士の繋がりの強さが直感的にわかる『共起ネットワーク』
共起ネットワークでは、言葉同士が共に使用される関係を視覚的に捉えることができます。 使用頻度と共に使用された頻度を、円と線で表現した図になります。 頻度が高ければ、大きな円、太い線などで表現され直感的に言葉同士の繋がりを理解できます。
テキストマイニングに使われている技術
テキストマイニングに使われている技術[/caption] テキストマイニングには、複数の技術が使われています。 どのような技術が使われているかを解説します。
自然言語分析
自然言語とは、プログラミングで使用される人工言語とは異なり、日本語、英語など日常的に使われている言語のことです。 自然言語分析は、自然言語をAIを使用して分析する技術のことです。
形態素分析とは
自然言語分析をする際、はじめに自然言語を意味のある最小単位の言葉に分ける必要があります。 対象とするテキストを最小単位の言葉に分けることを、形態素分析といいます。 例えば、「すもももももももものうち」というテキストを形態素分析すると 「すもも」名詞 「も」助詞 「もも」名詞 「も」助詞 「もも」名詞 「の」助詞 「うち」名詞 と7つの言葉に分けられます。
係り受け分析
係り受けとは、言葉と言葉の関係性です。 例えば、 「白い犬が、尻尾を振りながら歩いています。」 というテキストでは、 ・白い犬が、尻尾を振っている ・白い犬が、歩いている ・尻尾を振ると歩くは、並列に行っている という言葉の関連性があります。 係り受け分析は、このような言葉の関連性を明らかにして、感情分析などの分析に応用する技術です。
意味分析
意味分析は、言葉の意味、品詞、肯定的な言葉か否定的な言葉か、など単語のもつ意味を明確にする技術です。 意味分析には辞書が必要になり、この辞書がテキストマイニングの最も重要な要素の一つになります。 テキストマイニングで使用する辞書は、無料で手に入るものもありますが、辞書にない言葉や、テキストの中で使用される特徴的な意味を持つ言葉などは、使用者が正しく定義する必要があります。
無料ソフトとエクセルを使ったテキストマイニングのやり方
無料ソフトとエクセルを使ったテキストマイニングのやり方[/caption] エクセルを使用することで、テキストマイニングの精度が上がります。 ですが、エクセルだけでテキストマイニングを行うことは出来ません。 特に形態素分析は、エクセルでは難しく、基本的には形態素を分解した後の集計などにエクセルを利用する・・・というのが一般的です。 ここでは、テキストマイニングで使用できる無料ソフトと、エクセルの活用方法について解説します。
テキストマイニングができる無料ソフト
テキストマイニングをするために、無料で使えるおすすめのソフトを2つ紹介します。
KHCoder
テキストマイニングのソフトで、最も有名なソフトのひとつです。 これまでに解説した機能は、全て実装されています。 ホームページがあり、使用方法について調べることもできますし、使用方法を解説する書籍も販売されています。 また、商用利用することもできるので、仕事としてテキストマイニングを行う場合にも使用できます。
LocalAIテキストマイニング
LocalAIテキストマイニングは、正確にはソフトではなくサイトになります。 株式会社ユーザーローカルが提供するテキストマイニングです。 有償版もありますが、無償でも幅広く分析することができます。 無償版でも簡単にテキストマイニングができるため、試してみたい、少し分析してみたい場合に、おすすめです。
形態素分析に使用できるソフト
MeCab(めかぶ)
日本で最もよく使われている形態素分析ソフト。 複数の辞書を使用することができることが特徴。 また、KHCoderで使用することもできます。 名前は、開発者の好物が、めかぶであることに由来しています。
ChaSen(茶筌)
奈良先端科学技術大学院大学で開発された形態素分析ソフト。 名前は、開発元の地域特産品が、茶筌であることに由来しています。 こちらもKHCoderで使用できます。
エクセルを使ったテキストマイニング
テキストマイニングソフトと合わせてエクセルを使うことで、より精度が高く、より視覚化された分析ができます。 エクセルでは、必要なデータの抜き出し、分析結果を集計し視覚化など、テキストマイニングソフトではできない作業ができます。 例えば、アンケート結果のテキストから、年代別のデータの抜き出しや、アンケート項目ごとの集計・グラフの作成などです。 テキストマイニングで有効的にエクセルを使用するためには、いくつかの関数が必要になります。 必要な関数は、以下の4つです。 ・VLOOKUP:必要なデータを、他の場所から検索する関数 ・COUNTIF:条件に合ったデータを、数える関数 ・SUM:合計値を求める関数 ・INDEX:データのある場所を調べる関数 これらの関数を使うと、データを目的に沿った形で整理できます。 他にも、XLOOKUPやMATCHなど覚えておくと、より複雑な分析ができる関数もあります。
情報の有効活用ならAMELAに
情報の有効活用ならAMELAに[/caption] 今回は、テキストマイニングについて見てきました。 様々な技術の発達により、これまでデータとして活用しきれていなかった部分も、スムーズにビジネスに活用することが出来ます。 そのため、これからの時代は 「どのような技術があるのかを知り、その活用を上手く行う事ができる企業」 が生き残ることが出来るのでしょう。 日本では、多くの企業がDXを進めている一方で、中々実現できていない現状があります。 テキストマイニングという分野も、まさにそういった技術の一つで、上手く活用できている企業は非常に少なく、裏を返せば 「上手く活用できれば頭一つ飛び抜ける」 と言っても過言ではありません。 是非AMELAと一緒に、御社の最適なビジネス戦略を立ててみませんか?