DWH(データウェアハウス)とは?データベースとの違い、活用法を解説

現在、様々なところでデータ管理がされています。

多くの企業では、
・顧客情報
・商品情報
・在庫情報
・従業員情報
などが、データとして管理されているでしょう。

そんな中で、このデータを
「いかに活用するか」
という事が注目されているわけですが、そんな時に知っておきたいのがDWHです。

このDWHは、どのようなもので、どういった部分で必要とされる仕組みなのでしょうか。

DWH(データウェアハウス)とは

DWHは、「データウェアハウス」の略で、大量の情報を分析するための仕組みになります。

年々、ビジネスのスピードは速くなっていると言われており、少し前の情報を分析しても、正しい経営判断をするのが難しいケースも出てきています。

そのため、できるだけリアルタイムな情報を元にデータ分析を行う必要がありますが、従来のデータ管理では、「分析」までを行うのは困難でした。

そこで、DWHという仕組みが登場したのです。

DWHツールというものもいくつか存在し、それらは
「クラウド型」
「アプライアンス型」
に分類されます。

DWHの考え方自体は、1990年代からあるものの、大容量のデータを保存するスペックやデータを高速でやり取りする仕組みが整っていなかった関係もあり、サービスとして登場し始めたのは、2010年代と言われています。

大きな特徴としては、一般的なデータ管理が
「数年分のデータを残して、それ以前のデータはサマリ(集計)する」
という運用が多いため、ある一定量以上のデータ量で留まるのに対し、DWHは、

「過去のデータの蓄積と現在との比較」

を目的としているため、削除や更新・集計を行わずに過去のデータも保管しておきます。

結果的に、時間とともに膨大な情報量になるのが特徴です。

DWHと混同されがちな仕組みとの違い

このDWHは、あまりメジャーではない言葉になりますので、他の単語との違いが分からない人も多いでしょう。

DWHとデータベースの違い

データベースとは、システムが運用される上で保管されたデータを、そのまま保管している情報になります。

一方でDWHは、ETL(Extract/Transform/Load)と呼ばれる仕組みを用いて、分析に適した形で保管されるという違いがあります。

例えば、販売管理システムの場合、
「レジ店員が商品を販売し、その後割引が適用されていない事に気付いてレジをうち直す」
という場面において、データベースに保管されたデータは、
「商品が購入された」
「購入した商品が返品された」
「割引後の商品が購入された」
というように3つのデータが作られる可能性があります。
(あくまでも例であり、システムによってデータの持ち方は変わる)

しかし、分析する上では
「結局売上は、割引後の商品代金のみ」
「結局減った在庫数は同じ」
というように、3つのデータが必要ではない可能性があります。

こういったデータを分析する上で最適な形に整形する。

これがDWHとデータベースの違いになります。

DWHとデータレイクの違い

データレイクも、データベースと同様に元々のデータを保存しています。

データベースが複数ある場合、1箇所にデータの保管場所をまとめる事が、データレイクの役割です。

そのため、
1.データベースでデータを保管する
2.保管したデータをデータレイクに集める
3.データレイクにあるデータを分析しやすい形で抽出してDWHに保管する

という流れになります。

DWHとデータマートの違い

データマートは、DWHで蓄積されたデータを、各業務に合わせて加工・保管したものになります。

例えば、DWHのデータから、売上データだけをまとめるなどです。

DWHとBIの違い

BIツールは、DWHやデータマートに保管されたデータを分析するためのツールになります。

実際にユーザーが操作するのは、このBIツールになります。

BIツールでは、蓄積されたデータの集計や推移の表示、数学的な計算を行った上で分析をしていきます。

DWHを構成する4つの要素

続いては、DWHはどのような仕組みかを見ていきます。

DWHにおいて重要な要素は次の4つです。

サブジェクトごとに整理

DWHは、データをサブジェクト毎に保管します。

特に大きな企業ほど、様々なシステムを導入しています。

更に、それらは現在のIT業界の流れを考えると、クラウドサービスである可能性が高いです。

そうなると、
「レジでの販売データはA社の販売管理システム」
「移動販売での販売データはB社の販売管理システム」
「ECでの販売データはAWS」
というように、様々な所に販売データが格納される事になります。

各社開発を行っている企業は、「〇〇に特化したシステム」という形で差別化をしているため、こういったデータ管理の煩雑さが問題になってくるのです。

これらを「販売データ」「顧客データ」「商品データ」などのような、サブジェクトごとにデータを集めることができる事がDWHでは重要になります。

データを統合

次に、データを統合する事が重要です。

先程の例の様に、様々な販売管理システムを導入している場合、各データベースに顧客情報が入っていますが、
「ECでも買った事があるし、店舗でも買ったことがある」
こういったデータは、実際には1人なのに、複数データとして取り扱われているケースが多々あります。

また、各々のシステムでIDが割り振られていたりすると、これらを統合しなければ、データの実体が見えてきません。

単に顧客数を見たい場合でも、データが複数件としてカウントされているだけでも、分析が困難になってしまいます。

これらを統合するのが、DWHの役割でもあります。

時系列で整理

DWHで保管されている情報は、「分析」に活用することが重要です。

そのため、過去から現在に至るまでのデータの流れが重要になってきます。

例えば、通常の販売管理システムでは「現在のデータ(最新のデータ)」が最も重要視されます。

会員情報において、
「その人がいつ何ポイントを獲得したか」
よりも
「今何ポイントあるのか」
の方が重要です。

そのため、それに合わせた設計になっています。

一方で、DWHでは流れが重要なので、
「〇〇の商品販売に応じて、〇〇の売上が下がっている」
などのように
「当時どうであったか」
を見る必要があります。

その情報から、次に販売する商品のタイミングや種類を変えることで、経営状況が変わる可能性があるからです。

データが消えない

4つ目は、データが消えないという事です。

冒頭でもお話したように、DWHとDBとの大きな違いが、削除や更新・集計を行わずにデータを保管し続けるという事です。

容量が無限にあるわけではないため、不要なデータを削除する可能性はあるものの、基本的にはすべてのデータを保管し続ける必要があるのです。

DWH導入のメリット

では、このDWHの導入にはどのようなメリットが有るのでしょうか。

将来的に変わる状況に対して、柔軟な分析ができる

前項でもお話した通り、DWHではデータを編集・集計・削除をせずに保管してあります。

つまり、経営者の方針が変わったり、市場が新たな動きを見せた際に、元のデータを使って再集計が可能になるということです。

例えば、通常のデータベースでは、過去ある一定期間より前のデータはサマリーすることを説明しました。

仮に
「販売履歴のデータを月別・商品別に集計したデータ」
としてサマリーし、残しておいたとします。

その後、経営者が
「商品ごとにどのような顧客層が買ったのかの推移を見たい」
と言ったとします。

直近のデータの分析は可能ですが、サマリーしてしまったデータは、
「月別・商品別」
のため、各商品の男女構成や年齢構成はわかりません。

このように、判断基準が変わったり、新しい方法で分析しようと考えた際、どうしてもサマリーでは対応できる範囲に限界があります。

ですが、DWHの場合は、データを分析する元になるように、明細のまま消さずに保存しています。

そのため、あらゆる状況の変化に対して、柔軟に再度集計方法を変えて分析ができるというメリットがあります。

大量のデータを高速で処理できる

前項とも被る部分がありますが、DWHでは過去のデータを消さないため、膨大な量のデータを分析する形になります。

そのため、多くのDWHツールでは、「いかに高速処理するか」という事に注力しています。

更に、データは残す一方で、編集や削除はほとんどありません。

このような通常のデータベースと違った構造のため、大量のデータを高速処理するのに向いています。

履歴を追うことができる

何度もお話していますが、DWHでは「データの変更履歴」が残っている状態になります。

最新の情報だけではなく、
・いつ住所変更がされたのか(どこからどこへ)
・当時のステータスはどうだったか
・累計で何回商品購入をしたのか
など、通常の仕組みでは追いきれないような情報も確認が出来ます。

様々な仕組みがすでに導入されている場合は業務負担が小さい

すでに様々なシステムが導入されている企業では、データの一元管理が非常に難しいです。

すべてがオンプレミスのサーバーに格納されていれば良いですが、最近はクラウドサービスも増えているので、データをまとめるのが大変になっています。

そんな中で、データを一元管理する際には、
・包括的に運用が可能なシステムへ乗り換える
・DWHなどでデータを抽出/保管する
という対処が考えられます。

前者の場合、たしかに一元管理は簡単になりますが、各部門ですでに何年も使っているサービスがある場合には、変更に伴う業務負担が非常に大きいです。

更に、包括的に利用できる反面、特化したシステムよりも使いにくいケースも多々あります。

新規でサービスを導入する場合にはそれでも良いですが、すでに様々なシステムを利用している企業であれば、DWHを導入するほうが、業務負担は小さいでしょう。

システムの開発・導入はAMELAに

今回は、DWHという仕組みについて見てきました。

現在のビジネスでは、大量のデータを高速・リアルタイムに分析することが重要視されており、今後は多くの企業でDWHの導入が検討される可能性があります。

データをしっかりと活用することで、より良いビジネス的な選択が可能になりますので、是非導入したいシステムの1つですよね。

ただ、単に導入すれば良いのかというと、そうではありません。

現状の業務フローを先に見直す必要があるケースや、先に別の部分のシステム開発に費用を割くほうが良いケースも多々あります。

そういった判断は、中々日常業務をこなしながら考えるのは難しいものです。

そんなときは、是非一度AMELAにご相談ください。

専任のITコンサルタントが御社のビジネスを最適化致します。