適切な経営判断を下すためにはデータ分析が大切です。
しかし、データが整理されておらず、正しい分析結果を得られない事があります。
そこで役に立つのが、データクレンジングです。
この記事ではデータクレンジングの必要性と事例からデータクレンジングの具体的な方法を解説します。
この記事を参考にデータクレンジングの方法を理解し、経営資源のひとつであるデータを上手に活用する参考にしてください。
このページの目次
データクレンジングとは、データレコードの重複、データ内の誤記入、表記揺れなどの不正確な部分を探し出し、そこを修正や削除し統一することでデータのクオリティを高める作業を指します。
たとえば、取引先の会社名と住所を登録したデータがあるとします。
そのなかで同じ会社なのに「○○株式会社」と「○○(株)」と異なる表記で記入しているので、それぞれ別の会社と判断されるというケースがあります。
不正確な部分をあぶり出しデータの一貫性や正確性を保持するための作業をデータクレンジングといいます。
データ品質が悪ければデータの正確な分析、データの利用ができません。
データクレンジングは、データを活用する上で、とても重要な作業です。
データクレンジングの重要性について4つの点を取り上げます。
品質の悪いデータを利用するなら企業はビジネスの機会損失、データの廃棄や追加作業のためのコスト、不正確なデータを利用したことによるコストなどが発生します。
データクオリティが高ければより正確で効果的なビジネス戦略を立案できます。
品質の高い顧客のビッグデータを持っているなら、顧客のニーズをきちんと把握でき効果的なマーケティング戦略が可能です。
顧客ニーズをきちんと把握できる品質の高いデータを持っているなら、競合他社よりも競争力を高めることができます。
時代の流れに合わせて変化するトレンドや顧客ニーズを見失わないためにもデータクレンジングはとても重要です。
顧客データ以外にも企業には生産データや品質管理データ、勤怠管理データなど様々なデータを保有しています。
こうしたデータのクオリティを維持しそれを分析すれば、社内ニーズの掘り起こし、業務の効率化や生産性の向上につながります。
この部分では売上管理表をExcelで管理しているケースを想定し、Excelを利用した基本的なデータクレンジングの方法を手順に沿って解説します。
この売上管理表では以下の点が不正確です。
こうした不正確な点をどのようにチェックして修正するのか解説します。
表記揺れをチェックしたい列(c列)をクリック
↓
メニューバーにある「並べ替えとフィルター」から「フィルター」を選択する
商品名のセルの端にある四角の中に三角が入ってるボタンをクリックする
↓
表記方法の一覧が表示されるので、そこから表記揺れや誤入力をチェックする
表記揺れを統一する方法をいくつか紹介します。
PHONETIC関数は表記をすべてカタカナにするという関数です。
これの使い方は以下のとおりです。
表の右空欄に商品名の列をコピーする
↓
改定商品名の列にあるセル「I2」に「=PHONETIC(I2)」と入力し、セルの右下にある四角をクリックして保持し列の最後までその関数を反映させる
↓
自動的に改定商品名の列にカタカナ表記で統一された商品名が表示される
「シャーペン」という誤入力を正しい入力表記である「シャープペンシル」に書き換えるといった場合はSUBSTITUTE関数を使えます。
変更後の表記を表示する列のセルに「=SUBSTITUTE(表記を変更させたい文字がある列,“対象となる文字”,“変更後の文字”」を入力する
↓
セルの右下にある四角を保持しながらクリックし関数を列の最後まで反映させる
※この例の場合は、商品名がI列にあり、それをJ列に反映させるのでJ2のセルに「=SUBSTITUTE(I2,“シャーペン”,“シャープペンシル”)」と入力し、その関数を列の最後まで反映した
TRIM関数を使えば文字列の前後の余白を消去できます。
文字列の前後の余白を消した商品名を表示する列のセルに関数「=TRIM(文字の前後に余白がある列)」を入力
※この例の場合はJ2のセルに「=TRIM(I2)」と入力し、その関数を列の最後まで反映させた
データの中にある異常値の有無は、チェックはステータスバーの機能を使うと便利です。
Excelの画面の下の部分を右クリックすると「ステータスバーのユーザー設定」の画面が表示されます。
そこで平均・データの個数・数値の個数・最小値・最大値・合計が表示されるようにチェックを入れます。
この例では扱っている商品の単価の最小値が50円で最高値が200円と設定しています。
単価のステータスバーを確認すると最小値が10です。
間違った単価が入力されていることがこれでチェックできます。
ステータスバーで異常値の有無の確認ができます。
異常値がどのセルにあるかを確認するためにはIF関数を使います。
訂正単価を入力したいセルに「=IF(AND(異常値を確認したい列>=最小値,異常値を確認したい列<=最大値),値が正しい場合の数値,“値が間違っている場合の数値”)」の関数を入力します。
例では、単価の最安値が50で最高値が200なので、訂正単価を表示するJ2のセルに「=IF(AND(E2>=50,E2<=200),E2,"“NaN")」の関数を入力した
※「NaN」は分析ソフトウェアの利用やプログラミング言語から選択した任意の欠損値です。
IF関数を使えばたくさんのセルの中からどこに異常値があるのかをすぐに見つけることが可能です。
Excelの関数を使い表記揺れや異常値の修正などが行えます。
データクレンジングは1度行えばそれ以降は行う必要がないというものではありません。
データクレンジングを定期的に行うべき理由とデータクレンジングを効果的に行う方法を紹介します。
データクレンジングによりデータの信頼性が向上しても、その後次々と新しいデータ蓄積されていきます。
新しいデータの中には表記揺れや誤入力、内容が重複しているものなどが含まれている可能性があります。
新しいデータを含めたデータクレンジングを少なくとも毎月定期的に行う必要があります。
ある程度の量のデータであれば、今回したようにExcelの機能を利用して定期的にデータクレンジングが可能です。
しかしデータが大量になってくると自分たちだけでデータクレンジングをするのが難しいという悩みが生まれます。
そうした場合に便利なのがデータクレンジングツールです。
データクレンジングツールには無料と有料のものがありますが、自社のデータ量やニーズに応じてふさわしいツールを選択できます。
データクレンジングの定義、そのメリット、Excelの機能を活用したデータクレンジングの方法などを紹介しました。
顧客データをデータクレンジングするなら、企業としての競争力を高めることができ、効果的なマーケティング活動のための武器になります。
この機会にデータクレンジングの定期的な実施し、正しいデータで分析をマーケティングや売上に活用できるようにしましょう。
画像出典元:Pexels
【超重要】SNS運用におけるKPI設定とは?正しい設定方法や各SNSの効果測定についても解説
インスタ運用代行の費用相場は?選び方やおすすめサービス5選も
【利用しなきゃ損】インスタ運用代行の成功・失敗事例!プロならではの施策や注意点など解説
インスタ運用代行のやり方を教えます!導入方法やメリット・デメリットも解説
成果報酬型のインスタ運用代行を調査!費用を抑え効果を最大限に得る方法
【知らなきゃ損】SNS分析のやり方完全ガイド|具体的な方法や全体の流れを解説!
SNS分析の事例を紹介!重要性や分析方法も詳しく解説
UGCクリエイティブ・Letroを徹底比較!UGC活用ツール使うならどっち?
SNSブランディングがビジネスの命運を分ける!成功事例と5つのコツを紹介
【愛知県】おすすめのwebマーケティング会社5選!各会社の特徴や基本情報も紹介