image6

いまさら聞けない!データ活用の基本用語をやさしく解説

  1. Domoトップ >
  2. ブログ >
  3. いまさら聞けない!データ活用の基本用語をやさしく解説

2023年12月26日 07:30

データ活用やデータドリブンについて調べていたら、さまざまな専門用語が次から次へと出てきて理解が追いつかない…。そんな経験はありませんか?このような状況は、データ関連の分野に新しく入った方々にとってよくある共通の悩みです。本記事では、そんな初心者の方々に、データ活用やBIツールに関連する基本的な用語を易しく、かつ詳しく解説していきます。これにより、データ活用の世界が、よりスムーズで理解しやすいものになることを目指しています。

 

データ活用のプロセスを整理する

用語解説に入る前に、まずはデータ活用のプロセスを整理しておきましょう。

bi-data-utilize-terminology-vol-40_Process-Organisation

最初のステップとしてはデータ取り込み(1)、すなわち社内の業務システムや個人のローカルファイル、外部のデータ提供サイトなどから、使いたいデータをBIツールへ流し込む作業が当てはまります。取り込んだデータは、必要に応じて然るべき場所へ保存されます(2)。つづいてそれらのデータを加工・整形(3)した上で、グラフや表として可視化するステップ(4)へと進みます。さらに、可視化されたデータに対して分析・予測(5)を行い、その結果に基づいた適切なアクションの実行(6)へと繋がっていきます。

以上がデータ活用のおおまかな流れです。この流れに沿って、各フェーズでよく使われる用語の意味を順番に解説していきます。

データ取り込み

bi-data-utilize-terminology-vol-40_Data-Ingestion

データ接続

データ接続とは、データが格納されている元の場所と、そのデータを取り込む先を繋げることを指します。元々データが存在している場所、すなわちデータソースとしては、社内のデータベースや外部のクラウドサービスなどが挙げられます。接続方法は、データソースの環境によって異なります。例えばローカル環境に保存されているExcelファイルやCSVファイルであれば、DWHやBIツールへ手動でアップロードをする必要があります。ツールによってはローカル環境からの自動アップロードにも対応しているものもあります。また、接続元と接続先がどちらもクラウド環境のサービスであれば、APIを経由してデータ接続ができる場合があります。データソースがオンプレミスシステムである場合は、ODBC/JDBC接続を用いることが多いです。

データ活用で大切な3つのポイント
みんなでデータ活用するためのBI入門ガイド

データ保管

bi-data-utilize-terminology-vol-40_Data-storage

データセット

データセットとは、特定のテーマや目的に従い、統一された形式や基準でまとめられたデータの集まりのことを指します。例えば「売上実績データ.xlsx」「個人目標.xlsx」といったものは、それぞれがひとつのデータセットとして扱われます。データセットに形式やデータ量の決まりはありません。Excel、CSV、テキスト、JSONなど、どんな形式であっても、中身のデータ量がどんなに少なくても、データのまとまりであればそれはデータセットです

データウェアハウス(DWH)

データウェアハウスとは、異なるデータソースから大量のデータを統合・格納するためのデータベースのことを指します。端的に表現するなら、データの倉庫や貯蔵庫のようなものです。データウェアハウスがあることにより、社内に散在するさまざまなデータを一元管理することができるため、より効率的なデータの取り扱いが可能となります。データ活用へ取り組むにあたり、データの保管はデータウェアハウス、可視化はBIツールといったように複数の製品を組み合わせて利用するのが一般的ですが、最近ではデータウェアハウスと可視化ツールがセットになったサービスも増えてきています


【チェックシート付き】BIツール導入成功のカギ!
失敗しないBI導入のための13のチェックポイント

データ加工

bi-data-utilize-terminology-vol-40_Data-processing

データクレンジング

データクレンジングとは、データの品質を向上させるために、不正確、不完全、重複したデータを検出し修正することを指します。クレンジングという言葉の通り、データを“浄化”するためのプロセスです。
ここでは気象庁のサイトからダウンロードした特定期間の気温と降水量のデータを例にご説明します。

bi-data-utilize-terminology-vol-40_Data-Cleansing01

最高気温・最低気温・降水量という列に対して、それぞれ隣に品質情報・均質番号という列が並んでいます。品質情報・均質番号のデータの中身を見るとすべて同じ値になっており、データを分析する際には不要だと考えられます。よって、これらはクレンジングの工程で取り除いてしまうのが良いでしょう。

bi-data-utilize-terminology-vol-40_Data-Cleansing02

つづいて天気概況という列に着目してみます。黄色で示した枠内を見てみると「雨一時霧雨」「薄曇」など、かなり細かい表現になっていることが分かります。こうした細かな表現は、データ分析には不向きです。よって「霧雨→雨」「薄曇→曇」とするなど、クレンジングの工程を通してシンプルな表現に修正するとより扱いやすいデータになります。

さて、不要な列や扱いづらい形のデータが出力されてしまうというのは、企業の基幹システムでもよくある現象です。基幹システムから取り出したデータを手作業で整えて集計しているという方も多くいらっしゃるかと思いますが、その作業もデータクレンジングに該当します。ただ、手作業での処理は時間がかかりますし、業務の属人化やヒューマンエラーの発生にも繋がりやすいといえます。効率向上や正確性確保のためにも、ITツールを活用してデータクレンジング作業をできるだけ自動化することをおすすめします。

データの利活用と定着化を進めるために重要な「6つの柱」を解説!
データドリブン経営への変革の道

分析・予測

bi-data-utilize-terminology-vol-40_Analysis-Forecasting

データマイニング

データマイニングは、数あるデータ分析手法のうちの1つで、大量のデータから傾向や相関関係を読み解く作業のことを指します。例えば、気象データをもとにしたデータマイニングであれば、以下のようなケースでの活用が想定されます。

  • 異常検知と災害予測:過去の気象観測データから異常な気象パターンを検知し、台風や洪水などの災害が発生する可能性を予測する。
  • エネルギー需要の予測:気温や湿度などの気象因子がエネルギー使用に与える影響をデータマイニングによって分析し、需要予測モデルを構築する。

データマイニングには専門知識が必要ですが、データマイニングツールやデータマイニングの機能が備わったBIツールを使うことで、専門知識がない方でもデータマイニングに取り組みやすくなります

まとめ

データ活用に関する用語は、似たような響きのものが多かったり、同じ単語でも文脈によって解釈が異なったりと、紛らわしいと感じることも少なくないかと思います。しかし、活用のプロセスに沿って考えていけば、それぞれの用語の意味も理解しやすくなるはずです。実際にデータ活用に取り組む際も同様で、いきなりITツールや先端技術に飛びつくのではなく、きちんとプロセスを整理した上で順を追ってタスクを明確にしていくと良いでしょう。

 

当サイトでは、BIツールに興味のある方へ、参考になるダウンロード資料をご用意しております。「みんなでデータ活用するためのBI入門ガイド」と「統合型BIプラットフォーム Domo基本ガイドブック」は、データ活用やBIツール導入のポイントが把握できる資料になっています。BIツールご検討の参考に、ぜひダウンロード資料をご覧ください。

 

 

 

Domo資料ダウンロード_blog_BI入門ガイド