Google Sheetsで学ぶ!データ間の「繋がり」を発見する相関分析
データ間の「繋がり」、どう見つけますか?
データ分析を行う際、しばしば気になるのが「このデータとあのデータの間に、何か関係はあるのだろうか?」という疑問です。例えば、「広告費を増やしたら売上は伸びるのだろうか?」「ウェブサイトでの滞在時間が長いユーザーほど、問い合わせをしてくれるのだろうか?」といった、ビジネスにおける重要な問いは、データ間の繋がりを理解することで答えが見えてくることがあります。
このようなデータ間の関係性を数値で捉える分析手法の一つに、「相関分析」があります。しかし、相関分析と聞くと、専門的な統計ソフトや高度な知識が必要に思えるかもしれません。
この記事では、多くの方が普段の業務で利用しているであろう無料の表計算ソフト、Google Sheetsを使って、データ間の相関を分析する基本的な方法をご紹介します。特別なツールを用意することなく、手軽にデータ間の繋がりを見つける第一歩を踏み出せるようになります。
相関分析とは何か? Google Sheetsで行うメリット・デメリット
相関分析の概要
相関分析とは、二つのデータ項目(変数)が互いにどのように関連しているか、つまり一方が変化したときにもう一方がどのように変化する傾向があるかを数値で示す統計的な手法です。この関連性の強さと方向を示す指標を「相関係数」と呼びます。
相関係数は-1から1の間の値をとり、それぞれの値は以下のような関係性を示します。
- +1に近い: 強い正の相関がある。一方のデータが増加すると、もう一方のデータも増加する傾向が強い。
- 0に近い: 無相関である。二つのデータの間に、直線的な関係性はほとんど見られない。
- -1に近い: 強い負の相関がある。一方のデータが増加すると、もう一方のデータは減少する傾向が強い。
例えば、広告費と売上の間に強い正の相関が見られれば、「広告費を増やすと売上も増えやすい」という傾向がデータから読み取れることになります。ただし、ここで非常に重要な注意点があります。相関関係があるからといって、必ずしも一方がもう一方の「原因」であるとは限りません。これは「相関は因果ではない」と呼ばれる、データ分析における基本的な考え方です。相関分析はあくまでデータ間の「関連性」を示すものであり、その関連性がなぜ存在するのか、本当に原因と結果の関係にあるのかは、別の情報や分析手法と組み合わせて考察する必要があります。
なぜGoogle Sheetsで相関分析を行うのか?
Google Sheetsで相関分析を行う主なメリットは以下の通りです。
- 無料かつ手軽: 高価な統計ソフトや専用ツールを導入する必要がなく、インターネット環境があればすぐに始められます。多くのビジネスパーソンが日常的に利用しており、操作に慣れている場合が多いでしょう。
- 専門知識が少なくても始められる: 後述する関数やアドオンを使えば、統計学の専門知識がなくても計算自体は実行可能です。
一方で、デメリットもあります。
- 機能の限定性: 高度な統計分析や、多数の変数間の複雑な関係性の分析には向いていません。
- 処理能力: 非常に大規模なデータセットの分析には時間がかかったり、フリーズしたりする可能性があります。
- 分析の深さ: 相関係数を計算することはできますが、統計的な有意性の検定など、より厳密な分析には不向きな場合があります。
これらのメリット・デメリットを踏まえると、Google Sheetsでの相関分析は、「手元の小規模・中規模なデータを使って、データ間の基本的な関係性を手軽に把握したい」という場合に非常に有効な手段と言えます。
Google Sheetsを使った相関分析の具体的な方法
Google Sheetsで相関分析を行うには、主に二つの方法があります。「CORREL関数を使う方法」と、統計分析アドオンを使う方法です。ここでは、最も手軽なCORREL関数を使う方法を中心に解説します。
方法1: CORREL関数を使って相関係数を計算する
Google Sheetsには、二つのデータセット間の相関係数を直接計算するCORREL
関数が用意されています。
関数の書式:
=CORREL(データ範囲1, データ範囲2)
データ範囲1
: 相関を見たい一つ目のデータ列(例:A2:A101
)データ範囲2
: 相関を見たい二つ目のデータ列(例:B2:B101
)
具体的な手順:
ここでは、「広告費」と「売上」という二つのデータ列があるとして、この間の相関係数を計算する例を考えます。仮に、A列に広告費のデータがセルA2からA101まで、B列に売上のデータがセルB2からB101まで入力されているとします。
- 相関係数を表示させたい任意のセル(例: C2セル)を選択します。
-
選択したセルに以下の数式を入力します。
excel =CORREL(A2:A101, B2:B101)
3. Enterキーを押すと、指定したデータ範囲における広告費と売上の相関係数が計算されて表示されます。
画面イメージ (想像):
例えば、C2セルに数式を入力し、計算結果が「0.85」と表示されたとします。
A B C
1 | 広告費 | 売上 | 相関係数
2 | 10000 | 500000 | 0.85 <--ここに計算結果が表示
3 | 12000 | 550000 |
4 | ... | ... |
101| 30000 | 900000 |
この「0.85」という値は、広告費と売上の間に比較的強い「正の相関」があることを示唆しています。つまり、広告費が増えると売上も増える傾向がある、というデータに基づいた示唆が得られます。
相関係数の解釈
計算された相関係数がどのような意味を持つのかを理解することが重要です。一般的な目安として、相関係数の絶対値(マイナス記号を無視した値)が以下の範囲にある場合、それぞれの相関の強さと解釈されます。
- 0.0~0.2: ほとんど相関なし
- 0.2~0.4: 弱い相関あり
- 0.4~0.7: 中程度の相関あり
- 0.7~1.0: 強い相関あり
ただし、この目安はあくまで一般的なものであり、分析対象の分野やデータの性質によって解釈は変わります。例えば、自然科学分野では0.9以上の相関でもなければ「強い」とは言わない場合がある一方、社会科学やビジネスの分野では0.5程度の相関でも十分に注目に値する場合があります。
また、相関係数の符号(プラスかマイナスか)は、関係性の方向を示します。プラスなら一方が増えると他方も増える(正の相関)、マイナスなら一方が増えると他方が減る(負の相関)です。
スキャッタープロット(散布図)による可視化
相関係数の数値を確認するだけでなく、データの散布図を作成することで、二つのデータ間の関係性を視覚的に把握することも非常に有効です。Google Sheetsのグラフ機能を使えば簡単に作成できます。
手順:
- 相関を見たい二つのデータ列(例: 広告費と売上のデータ範囲)を選択します。
- メニューバーの「挿入」から「グラフ」を選択します。
- グラフの種類として「散布図」を選択します。
散布図を見ると、データ点が右肩上がりに分布していれば正の相関、右肩下がりに分布していれば負の相関、ばらばらに分布していれば無相関であることが視覚的に確認できます。これにより、相関係数の数値だけでは気づきにくい、非線形な関係性や外れ値の存在なども発見できる場合があります。
実際のデータ分析例:ウェブサイト滞在時間とコンバージョン率
別の例として、ウェブサイトの「ユーザーの平均滞在時間」と「コンバージョン率(ウェブサイト訪問者が目標とする行動(例: 商品購入、問い合わせなど)に至った割合)」のデータを使って相関分析を行うケースを考えましょう。
あなたはウェブサイト改善を担当しており、「ユーザーがサイトに長く滞在することは、コンバージョンに繋がりやすいのだろうか?」という疑問を持っています。Google Analyticsなどのツールから、日ごとの平均滞在時間とコンバージョン率のデータ(例えば過去30日分)を取得し、Google Sheetsに整理したとします。
- A列に日ごとの平均滞在時間(秒)、B列に日ごとのコンバージョン率(%)が入力されているとします。
このデータに対して、先ほどと同じようにCORREL
関数を使って相関係数を計算します。
=CORREL(A2:A31, B2:B31) ' 過去30日分のデータの場合
計算結果が例えば「0.6」だったとします。これは、平均滞在時間とコンバージョン率の間に「中程度の正の相関」があることを示唆しています。つまり、サイトに長く滞在する傾向がある日ほど、コンバージョン率も高い傾向がある、ということがデータから読み取れます。
この結果は、「ユーザーの滞在時間を延ばすことが、コンバージョン率向上に繋がる可能性がある」という仮説を立てる根拠の一つになります。ただし、これも相関ですので、「滞在時間を延ばせば必ずコンバージョン率が上がる」という原因と結果の関係を断定することはできません。他の要因(例えば、特定のコンテンツが閲覧されたか、特定の流入経路かなど)も考慮しながら、ウェブサイトの改善施策(例: コンテンツの質向上、サイト構造の改善など)を検討していくことになります。
よくある疑問や注意点
- 相関があれば原因? いいえ、前述の通り、相関は因果関係を示すものではありません。例えば、「アイスクリームの売上とプールの事故件数には正の相関がある」といった例が有名です。これは、夏に両方とも増えるという「気温」という共通の原因があるためであり、アイスクリームが事故の原因ではありません。相関分析の結果は、「どのようなデータに関係性が見られるか」を知る手がかりとして活用し、その背景にあるメカニズムや因果関係については、さらに深く考察する必要があります。
- 外れ値の影響は? 一部の極端な値(外れ値)が相関係数に大きな影響を与えることがあります。散布図を作成して、データ全体の傾向と外れ値の有無を確認することが推奨されます。
- 線形な関係しか見られない? CORREL関数で計算される相関係数は、「線形相関」と呼ばれる、データが直線的な関係にあるかどうかを示します。データが曲線的な関係にある場合(例:あるポイントまでは増加するが、それを超えると減少に転じるなど)は、相関係数が低くても関係性がないわけではない場合があります。まずは散布図を見て、関係性の形を確認することが大切です。
結論:Google Sheetsでデータ間の繋がりを見つける第一歩を踏み出そう
この記事では、無料のGoogle Sheetsを使ってデータ間の相関を分析する基本的な方法をご紹介しました。CORREL
関数を使えば、専門的な統計ソフトがなくても、手軽に二つのデータセット間の関係性を数値化することができます。
相関分析は、データ間の繋がりを示す手がかりを得るための強力なツールです。広告費と売上、サイト滞在時間とコンバージョン率のように、自身の業務に関連する様々なデータについて相関を調べてみることで、データに基づいた新しい発見や仮説が得られる可能性があります。
相関分析でデータ間の関係性の傾向を掴んだら、次に散布図で視覚的に確認したり、他の関連するデータ(例えば、時期、特定のイベントなど)の影響を考慮したりと、より深い分析へと繋げていくことができます。
今回ご紹介した方法は、無料ツールでデータ分析の第一歩を踏み出すための基礎です。ぜひ手元のデータを使って、データ間の意外な「繋がり」を発見してみてください。ここから、あなたのデータ活用がさらに広がるはずです。