2010年2月9日火曜日

ブログアクセス数解析第一弾

ブログをはじめて1年半以上.
Google Analyticsでブログアクセス情報を収集しはじめてからも1年以上がたった.

今日はそのデータを使って簡単な時系列解析をしてみた.
今回行った解析の詳細は,
に載っている.


解析に使ったのは,一日あたりのセッション数(訪問者数)

データ全長は,
データを取り始めた2008年11月17日から2010年2月8日までの456日

まずは生データを見てみる.
ついでに短い周期の変動をならすために15日の移動平均を行い,
赤色で示してみる.

データを取り始めてから200日ぐらいまでは,
一日あたり20人いくかどうかぐらいの人数で推移しているが,
それ以降,セッション数が増加傾向にある.

うれしい気持ちはとりあえず抑えて解析をすすめる.

次にこの増加傾向が統計的に有意なのかどうかを検証するために,
Mann-Kendall検定を行ってみる.
線形回帰分析でトレンド評価を行う人が多いが,
Mann-Kendall検定は外れ値の影響を受けにくい(頑健な)ノンパラメトリック検定なので,お勧め.

検定の結果,
セッション数は有意水準1%で統計的に有意な増加傾向にあることが示された!

次は不連続的変化があったかどうかの検定.
これにはラページ検定を用いる.
この検定はある時期を境とする2つの差が統計的に有意かどうか調べる手法.
ある時期を境として大きな不連続的変化(シフト)があればラページ検定量HKの値が大きくなる.

結果はこちら.

nとは,ある時期を境とした前後の日数.

たとえばn=60の時,100日目にシフトが起こったかどうかを判定するには,
40-99日目のデータ(前のグループ)と
101-160日目のデータ(後のグループ)
の間に差があるかどうかを見ることになる.

nの決め方に決定的なものはないので,試行錯誤するしかない.
今回はn=60,70,100の結果を示した.

この図から,nの値に関わらず,
データを取り始めてから140日あたりと250日あたりにHKのピークがあることがわかる.
つまり,140日目,250日目に正もしくは負の不連続的変化が起こった事がわかる.

この解析からは不連続的変化の正負は分からないが,
生データをみればどちらであるかは判断できる.

140日目の前後では負のシフト,
250日目の前後では正のシフトが起こっている模様.

イメージ的にはこんな感じ.

ここからは考察.

なぜ140日目に負の,250日目に正のシフトが起こったのか?

データを取り始めてから140日目は2009年4月5日.
この周辺のイベントと言えば,4/5に海洋学会発表.
で,4/15-6/3まで白鳳丸航海.
航海で長期間ブログを更新できなくなったことが,
セッション数の負のシフトをもたらした原因だと考えられる.

250日目の正のシフトは??
データを取り始めてから250日目は2009年7月24日.
この周辺のイベントは....
前期授業料引き落としが7/24....関係ないよな.

で,行き着いた結論はこれ.
俺のことをある事ない事書いてくるKawagucciさんのブログで俺のブログが紹介されたのが7/24.
少なくともこの日の彼のブログ内容はほとんどでたらめです.
この日を境に彼のブログから俺のブログに訪問してくれる人が増えたのだろう.
なんか悔しい...

ま,こんな感じで,
ブログのセッション数が増加しているという結果はとてもうれしいが,
それがヤツのおかげって結論はなんだかな~.

第二弾は周期解析をしよう.

1 件のコメント:

  1. おもろーー!!
    DJ keykei氏はいつもおもしろいことして見せてくれるので
    勉強になる&楽しいです〜^^

    返信削除