データクレンジングとは?必要性や事例から方法を分かりやすく解説!

データクレンジングとは?必要性や事例から方法を分かりやすく解説!

記事更新日: 2021/01/21

執筆: 編集部

適切な経営判断を下すためにはデータ分析が大切です。

しかし、データが整理されておらず、正しい分析結果を得られない事があります。

そこで役に立つのが、データクレンジングです。

この記事ではデータクレンジングの必要性と事例からデータクレンジングの具体的な方法を解説します。

この記事を参考にデータクレンジングの方法を理解し、経営資源のひとつであるデータを上手に活用する参考にしてください

このテキストを画像に置き換えてください。

データクレンジングとは

データクレンジングとは、データレコードの重複、データ内の誤記入、表記揺れなどの不正確な部分を探し出し、そこを修正や削除し統一することでデータのクオリティを高める作業を指します。

たとえば、取引先の会社名と住所を登録したデータがあるとします。

そのなかで同じ会社なのに「○○株式会社」と「○○(株)」と異なる表記で記入しているので、それぞれ別の会社と判断されるというケースがあります。

不正確な部分をあぶり出しデータの一貫性や正確性を保持するための作業をデータクレンジングといいます

データクレンジングの必要性

データ品質が悪ければデータの正確な分析、データの利用ができません。

データクレンジングは、データを活用する上で、とても重要な作業です。

データクレンジングの重要性について4つの点を取り上げます。

品質の悪いデータは莫大な損失をもたらす

品質の悪いデータを利用するなら企業はビジネスの機会損失、データの廃棄や追加作業のためのコスト、不正確なデータを利用したことによるコストなどが発生します。

正確な判断が下せる

データクオリティが高ければより正確で効果的なビジネス戦略を立案できます。

品質の高い顧客のビッグデータを持っているなら、顧客のニーズをきちんと把握でき効果的なマーケティング戦略が可能です。

競争力の強化

顧客ニーズをきちんと把握できる品質の高いデータを持っているなら、競合他社よりも競争力を高めることができます。

時代の流れに合わせて変化するトレンドや顧客ニーズを見失わないためにもデータクレンジングはとても重要です。

業務の効率化

顧客データ以外にも企業には生産データや品質管理データ、勤怠管理データなど様々なデータを保有しています。

こうしたデータのクオリティを維持しそれを分析すれば、社内ニーズの掘り起こし、業務の効率化や生産性の向上につながります。

データクレンジングの例(売上管理表)

この部分では売上管理表をExcelで管理しているケースを想定し、Excelを利用した基本的なデータクレンジングの方法を手順に沿って解説します。

データクレンジング前の売上表

 


この売上管理表では以下の点が不正確です。

  • 商品名の「ハサミ」と「はさみ」の表記揺れ
  • 同じ商品なのに「シャープペンシル」と「シャーペン」と入力名が違う
  • 2月4日の「シャープペンシル」の前にスペースが挿入されている
  • 単価の入力が間違っている商品がある


こうした不正確な点をどのようにチェックして修正するのか解説します。

1、表記揺れをチェックする

表記揺れをチェックしたい列(c列)をクリック

メニューバーにある「並べ替えとフィルター」から「フィルター」を選択する


商品名のセルの端にある四角の中に三角が入ってるボタンをクリックする

表記方法の一覧が表示されるので、そこから表記揺れや誤入力をチェックする

 

2、表記揺れを統一する

表記揺れを統一する方法をいくつか紹介します。

PHONETIC関数で読みを統一する

PHONETIC関数は表記をすべてカタカナにするという関数です。

これの使い方は以下のとおりです。

表の右空欄に商品名の列をコピーする

改定商品名の列にあるセル「I2」に「=PHONETIC(I2)」と入力し、セルの右下にある四角をクリックして保持し列の最後までその関数を反映させる

自動的に改定商品名の列にカタカナ表記で統一された商品名が表示される


 

SUBSTITUTE関数で文字を書き換える

「シャーペン」という誤入力を正しい入力表記である「シャープペンシル」に書き換えるといった場合はSUBSTITUTE関数を使えます

変更後の表記を表示する列のセルに「=SUBSTITUTE(表記を変更させたい文字がある列,“対象となる文字”,“変更後の文字”」を入力する

セルの右下にある四角を保持しながらクリックし関数を列の最後まで反映させる

※この例の場合は、商品名がI列にあり、それをJ列に反映させるのでJ2のセルに「=SUBSTITUTE(I2,“シャーペン”,“シャープペンシル”)」と入力し、その関数を列の最後まで反映した

 

TRIM関数で文字列前後の余白を消す

TRIM関数を使えば文字列の前後の余白を消去できます

文字列の前後の余白を消した商品名を表示する列のセルに関数「=TRIM(文字の前後に余白がある列)」を入力

※この例の場合はJ2のセルに「=TRIM(I2)」と入力し、その関数を列の最後まで反映させた

 

3、異常値のチェック

データの中にある異常値の有無は、チェックはステータスバーの機能を使うと便利です。

Excelの画面の下の部分を右クリックすると「ステータスバーのユーザー設定」の画面が表示されます。

そこで平均・データの個数・数値の個数・最小値・最大値・合計が表示されるようにチェックを入れます。

この例では扱っている商品の単価の最小値が50円で最高値が200円と設定しています。

単価のステータスバーを確認すると最小値が10です。

間違った単価が入力されていることがこれでチェックできます。

 

IF関数で異常値を除く

ステータスバーで異常値の有無の確認ができます

異常値がどのセルにあるかを確認するためにはIF関数を使います。

訂正単価を入力したいセルに「=IF(AND(異常値を確認したい列>=最小値,異常値を確認したい列<=最大値),値が正しい場合の数値,“値が間違っている場合の数値”)」の関数を入力します。

例では、単価の最安値が50で最高値が200なので、訂正単価を表示するJ2のセルに「=IF(AND(E2>=50,E2<=200),E2,"“NaN")」の関数を入力した

※「NaN」は分析ソフトウェアの利用やプログラミング言語から選択した任意の欠損値です。


IF関数を使えばたくさんのセルの中からどこに異常値があるのかをすぐに見つけることが可能です。

Excelの関数を使い表記揺れや異常値の修正などが行えます。

データクレンジングで整った売上表

 

データクレンジングは定期的に行う

データクレンジングは1度行えばそれ以降は行う必要がないというものではありません。

データクレンジングを定期的に行うべき理由とデータクレンジングを効果的に行う方法を紹介します。

新しいデータが蓄積されるから

データクレンジングによりデータの信頼性が向上しても、その後次々と新しいデータ蓄積されていきます。

新しいデータの中には表記揺れや誤入力、内容が重複しているものなどが含まれている可能性があります。

新しいデータを含めたデータクレンジングを少なくとも毎月定期的に行う必要があります。

定期的なデータクレンジングにツールを活用する

ある程度の量のデータであれば、今回したようにExcelの機能を利用して定期的にデータクレンジングが可能です。

しかしデータが大量になってくると自分たちだけでデータクレンジングをするのが難しいという悩みが生まれます。

そうした場合に便利なのがデータクレンジングツールです。

データクレンジングツールには無料と有料のものがありますが、自社のデータ量やニーズに応じてふさわしいツールを選択できます。

まとめ

データクレンジングの定義、そのメリット、Excelの機能を活用したデータクレンジングの方法などを紹介しました。

顧客データをデータクレンジングするなら、企業としての競争力を高めることができ、効果的なマーケティング活動のための武器になります。

この機会にデータクレンジングの定期的な実施し、正しいデータで分析をマーケティングや売上に活用できるようにしましょう。

画像出典元:Pexels

最新の記事

ページトップへ