統計解析(statistical analysis) - 其の壱 (2007年11月05日)

一連の数値データが与えられたとき、そのデータの特性を解析する古典的な方法には2つある、統計解析(statistical analysis)とフーリエ解析(Fourier analysis)だ。 前者には、データの平均(mean)、標準偏差(standard deviation)、ヒストグラム(histogram)、自己相関係数(auto-correlation coefficient)などが考えられる。 後者は、ほんのちょっと高度になるけど たいしたことはない。 主に パワースペクトラム(power spectrum)を使って周波数成分の解析をすることになる。

まずは復習とこれから使う記号の提示もかねて平均値(mean) <X> と標準偏差(standard deviation) σ を求める式を書いておく。

(5)

(6)

ヒストグラム(histogram)は、平均値(mean)を中心に データがどのように分布しているかを表したものだ。 丁度、図-3を左(又は右)から見て 同じくらいの値がどれだけあるかをグラフにしたものといえる。 下の図-5がリサンプリング(resampling)後のデータ(図-3)のヒストグラム(histogram)になる。 グラブ中に記入してあるMEAN及びSIGMAが同データから求めた平均値(mean)と標準偏差(standard deviation)だ。 緑の実線の曲線は、平均値(mean)と標準偏差(standard deviation)から計算されるガウス分布関数(Gaussian distribution function)だ。

図-5

自己相関係数(auto-correlation coefficient)とは、データが自分自身とどのくらい似ているかを表す。 データが自分自身と似ているのは当然じゃないかと思うかもしれないが、自己相関(auto-correlation)は データを時間軸に少しずつずらしながら自分自身と比較していくのだ。 こうすることにより、データの時間軸方向への相似性、周期性等を数値的に表すことが可能になる。 自己相関(auto-correlation)は 似ている傾向のときに正の値、まったく相関が無いとき0、似ていない傾向(逆の値を取る傾向)にあるとき負の値を取るようになっている。 通常-1.0から1.0の値をとるように正規化される。 時間軸方向に τ ずらしたときの自己相関(auto-correlation) Cτ は下の式(7)のように求められる。

(7)

下の図-6と7がオリジナルの R-R Interval データ(図-1)とリサンプリング(resampling)後のデータ(図-3)の自己相関(auto-correlation)を示す。

図-6

図-7

オリジナルデータの時間軸は、平均サンプリング時間でデータが取得されたものとみなしてプロットしてある。

オリジナルの R-R Interval データ(図-1)からも明らかなのだが、図-6を見ると90分の周期性が明確に出ている。 リサンプリング(resampling)後のデータ(図-3)を眺めていても分からないのだけど、図-7を見ると90分の周期性の他に約15分、約30分の周期性も見て取れる。 これらの周期がどういう理由で出てくるのかは知らないが 面白い。

下の図-8は、図-7の最初の4分を拡大したものだ。 時間差0の時は 自己相関(auto-correlation)は 1.0 になっている。 こりゃ当然。(笑) 普通に考えると 時間的に近いデータどうしは似ていて当然と思えるのだけど、重要なのは 最初の極小点(T=0.4[min])だ。 これは、心拍は約20秒くらい(今回のデータでは データ数約18)の間相関をもっている事を示す。 例えば、一瞬ドキッとすることがあったとすると、心拍が静まるまで その後少なくとも20秒程度はかかるってことだ。 簡単に言うとそういう現象が起こるって事なのだけど、その背景にある心拍を生成している複雑な神経系がそういう特性を持っているのだと考えると ちょっと神秘的だ。 この事は後の解析でも必要になってくるので 記憶しておいて欲しい。

図-8