無料ツールで始めるデータ分析

無料Google Sheetsで始める売上・アクセスデータの異常検知入門

Tags: Google Sheets, 異常検知, 時系列分析, 無料ツール, データ分析

データ分析は、ビジネスの現状を理解し、将来の意思決定に役立てるための強力な手段です。しかし、「データ分析」と聞くと、専門的な知識や高価なツールが必要だと感じ、一歩踏み出せないという方もいらっしゃるかもしれません。

このサイトでは、コストをかけずにデータ分析を始めるための無料ツールと、その具体的な使い方をご紹介しています。今回は、日々の業務で目にする売上データやWebサイトのアクセスデータなど、時系列データに潜む「異常」を検知するための基本的なアプローチを、身近なツールであるGoogle Sheetsを使って行う方法を解説します。

異常検知とは何か? なぜビジネスで重要なのか?

異常検知とは、データの中で通常とは異なるパターンや外れ値を特定する分析手法です。ビジネスの文脈では、例えば以下のようなケースが異常と見なされることがあります。

このような異常を早期に発見することは、機会損失を防いだり、リスクに迅速に対応したり、あるいは予期せぬ成功要因を見つけたりするために非常に重要です。

なぜGoogle Sheetsで異常検知を始めるのか?

専門的な異常検知ツールやプログラミング言語(Pythonなど)は高度な分析が可能ですが、導入や学習に時間とコストがかかります。一方で、Google Sheetsは多くのビジネスパーソンが日常的に利用しており、特別な環境構築も不要です。

Google Sheetsでも、簡単な統計的手法を用いることで、基本的な異常検知を行うことができます。特に、時系列データ(時間の経過とともに観測されるデータ)に対して、過去の傾向から大きく外れるポイントを見つけるアプローチは、Sheetsで比較的容易に実装できます。

もちろん、Sheetsでの手法は複雑な異常パターンや大量データには向きませんが、データ活用の第一歩として、自身の業務データで「何かいつもと違うぞ?」という変化を捉えるには十分役立ちます。

Google Sheetsで実践する簡単な異常検知の手順

ここでは、過去データから算出した「平均的な値」と「ばらつきの度合い」を使って、最新のデータがそれらからどの程度外れているかを判断する基本的な異常検知手法を解説します。具体的には、「移動平均」と「標準偏差」を利用します。

準備:データを用意する

まず、分析したい時系列データを用意します。Google Sheetsに、日付または時間の列と、対象となる数値データ(売上、アクセス数など)の列があることを確認してください。

例:日別の売上データ

| 日付 | 売上 | | :------- | :--- | | 2023/10/1 | 50000 | | 2023/10/2 | 55000 | | ... | ... | | 2023/10/30| 52000 | | 2023/10/31| 150000 | <-- 異常かも?

手順1:移動平均を計算する

移動平均とは、特定期間のデータの平均値を計算し、それを期間をずらしながら連続的にプロットしたものです。データの短期的な変動をならし、長期的なトレンドや周期性を把握しやすくします。

異常検知では、移動平均を「その時点での通常の値」の目安として使用します。

Google Sheetsでは、AVERAGE関数とセル参照を組み合わせて計算できます。例えば、7日間の移動平均を計算する場合を考えます。データがB列にあるとして、C列に移動平均を計算します。

手順2:移動標準偏差を計算する

標準偏差とは、データが平均値からどの程度散らばっているか(ばらつきの度合い)を示す指標です。標準偏差が大きいほどデータは平均値から広く散らばっており、小さいほど平均値の近くに集中しています。

異常検知では、移動平均と同様の期間で標準偏差を計算し、「通常の値からのばらつきの許容範囲」の目安として使用します。

Google Sheetsでは、STDEV.S関数を使って計算できます。移動平均と同じく、7日間の移動標準偏差をD列に計算します。

手順3:異常値のしきい値を設定する

移動平均(通常の値)と移動標準偏差(ばらつきの度合い)を使って、異常と判断するための上限と下限のしきい値を設定します。一般的な方法として、「移動平均 ± n × 移動標準偏差」という形で設定します。この n には何らかの値を設定しますが、通常は2や3といった値が使われます。例えば n=2 とすると、「移動平均から標準偏差の2倍以上離れているデータ」を異常候補とみなすことになります。

E列に上限しきい値、F列に下限しきい値を計算します。ここでは n=2 と仮定します。

手順4:異常値を判定する

最後に、実際の売上データが設定したしきい値の範囲内に収まっているかを確認します。範囲外であれば異常値候補となります。G列に判定結果を表示します。

これで、G列に各日のデータが「正常」か「異常候補」かが表示されます。

さらに、異常候補の行を見やすくするために、「条件付き書式」を設定することもおすすめです。G列を選択し、「表示形式」メニューから「条件付き書式」を選択します。「テキストを含みます」で「異常候補」を選び、背景色や文字色を赤にするなどの設定を行います。

分析結果の活用例

この分析により、「異常候補」と判定された日付を特定できます。その日付に何が起きたのか、原因を調査することで、ビジネス上の重要な洞察を得ることができます。

この手法のメリット・デメリット

まとめ:データ活用の第一歩として

Google Sheetsを使った簡単な異常検知は、高度なツールを使わずとも、日々のビジネスデータに隠された重要な変化の兆候を捉えるための有効な第一歩となります。すべての「異常候補」が真の異常であるとは限りませんが、これをきっかけにデータに注意を払い、原因を探るプロセスは、データに基づいた意思決定の習慣を養うことに繋がります。

まずは、自身の関わるデータでこの手法を試してみてはいかがでしょうか。さらに高度な分析が必要になった場合は、無料のGoogle ColabでPythonを使った時系列分析や異常検知ライブラリを利用するなど、次のステップに進むことを検討してみてください。

このサイトでは、他にも様々な無料ツールを使ったデータ分析手法をご紹介していますので、ぜひご参照ください。