ぼくのあしあと

ゲームやネット小説など、日々興味や関心をもったことを綴る

『信頼区間』を直感的に理解する!統計専門用語なしでわかりやすく説明

      2015/12/12

confidence-interval04

統計学用語で信頼区間ってよく見ますよね。

95%信頼区間や99%信頼区間といった言葉です。

いろいろなサイトを見て学習したことがあったのですが、いまいち要領を得ず結局あやふやなまま終わってしまいました。

しかし、ここ最近もう一度しっかりと勉強してやっとどんなものなのかわかりました。

いったんわかると、どうしてこんな簡単なものがわからなかったのだろうと逆に不思議なくらいです。

僕と同じようにあやふやな人も結構いると思いますので、そういった人のためにわかりやすく説明してみようと思います。

できるだけ難しい用語を使わず、直感的に理解でいるように心がけています。

信頼区間とは

いきなり結論から入りましょう。

信頼区間とはちょっと変わった平均のことです。

知っている人からすればいろいろとツッコミが飛んできそうですが、一番簡単に説明するとそういうことです。

え?平均ってある一つの決まった値なのでは?と思った方。だからこそちょっと変わった平均と表現しているのです。

信頼区間とは、平均をちょっと違う形で表しているだけ。難しく考える必要は一切ありません。

それを踏まえたうえで、詳しい説明を見ていきましょう。

信頼区間と平均

信頼区間と平均にどういったつながりがあるのかということを、ストーリー形式で説明します。

そのほうが直感的に理解できるはずです。

今までの平均の問題点

皆さんが知っている平均はおそらく、すべてのデータの和をデータ数で割ったものでしょう。

1と2と3の平均ならば(1+2+3)/3=2ということになります。

たしかに、その計算で問題ありません。平均とはそういうものです。

しかし、それはあくまでもデータが全てわかっている状態ですよね。

世の中にはすべてのデータを集められない時があります。

例えば日本人の体重の平均を求めたいときに、日本人全員の体重に関するデータなんて集められませんよね。まさか、一人ひとり計測するわけにはいかないでしょう。

よって、全体の平均はわかりません。これが非常に統計では非常に重要です。わからないものを考えるわけですから。

そのため、その内の何人かのデータを集めてどうにかするしかありません。1000人ぐらいならばなんとか集められそうですよね。

では、このときの平均はどうしましょう?

普通に考えればその1000人のデータの平均を求めればいいと思うかもしれません。確かにその方法もあります。

それを統計用語で「点推定」といいます。

しかし、その方法で本当にいいのでしょうか?一部分の平均を全体の平均と決めていいのでしょうか?

全体の一部分の平均を全体の平均としていいのだろうか?

一部分の平均を全体の平均としていいのだろうか?

もちろん、いいわけありません。

例えば、その1000人というのがたまたま運悪く体重の軽い人ばかりだったという可能性もあります。

そのデータで平均を求めたとしても日本人全員の平均とは程遠いのは直感的にも理解できるはずです。

ではどうすればいいのでしょうか?そこで考え出されたのが平均を区間で表す方法です。

平均を区間で表す

平均を区間で表すとはどういうことでしょうか?

今までの平均だと、ある一つの値しか求められませんでしたよね。平均50㎏のように。

それが問題ならば、平均を範囲で表せばいいのです。平均は45kgから55kgの間、のように。

平均を範囲であらわすという考え方は慣れるまで不自然に思えるかもしれせんが、こちらのほうが正しそうですよね。

単に平均50㎏と決めつけるよりも、45㎏と55㎏の間に平均があるとしたほうがなんだかそれっぽく感じませんか?

実際範囲が広くなった分、より正しいのです。

しかし、ここで新たな問題が発生します。それは範囲をどうするかということです。

例えば、「日本人全員の体重の平均は0kgから1000㎏の間にある!」と言われたところで、「馬鹿なこと言ってんじゃないよ」と思いますよね。

そんなことは言われなくても初めからわかっていることですから。

逆に「平均は55.01kgから55.02kg」の間にあると言われても、点推定とあまり変わりません。

ではどうやってその範囲を決めればいいのだろう?そこで考え出されたのが確率を使う方法でした。

平均を区間であらわす

平均を区間であらわす

確率で正しさを表す

範囲の正しさを、確率を用いて表すことにしたのです。確率は皆さんもご存じのはずです。

例えば、90%の確率で正しいということは、10回中9回は正しいことを表していますよね。

同じように、その平均の範囲が90%の確率で正しいと言われれば、10回中9回はその範囲が正しいことを表しています。

では、その範囲が正しいとは一体どういうことでしょうか?

それは、全体の平均がその範囲内にあるということです。

例えば、全体の平均が実は50kg(これは計測できないのでわからない)で、平均の範囲が45kgから55kgの間にあるとき、全体の平均を含んでいるのでその範囲は正しいわけです。

つまり、90%の確率で正しい範囲というのは、90%の確率で全体平均がその範囲内にあるというわけです。

この範囲のことを信頼区間と呼ぶのです。たとえば、95%の確率で求めた区間は95%信頼区間と呼びます。

信頼区間とは、全体の平均(母平均)をある確率で含む範囲。なんだ、簡単なことだったのですね。

信頼区間=その区間に平均がある確率

信頼区間=その区間に平均がある確率

当然、確率が大きくなればなるほど範囲は広くなります。

確率0%は絶対に間違っている範囲というわけです。0kgから1kgのように。

そして平均の区間は確率によって計算で求まります。この確率ならこの計算だ!という風に求めることができます。

まとめ

信頼区間=ある確率で全体平均(母平均)を含む範囲

 

どうでしたか?いったん理解してしまえば簡単なことに思えてきませんか?

具体的な求め方などは僕のサイトよりもわかりやすいサイトがいっぱいあるのでそちらを見てください。

下にいくつか参考となるサイトを載せておきます。

まず一つ目は信頼区間の説明と求め方が書いてあるサイトです。

http://kogolab.chillout.jp/elearn/hamburger/chap2/sec3.html「区間推定/信頼区間」

もう一つは、信頼区間をわかりやすく説明しているサイトです。このサイトを参考に、専門用語を使わずにもっとわかりやすくしてみようとしたのがこの記事です。

http://www.biwako.shiga-u.ac.jp/sensei/mnaka/ut/confidenceinterval.html「信頼区間」が意味するもの

The following two tabs change content below.
XZ

XZ

ゲームとWeb小説が何よりも好き。自分の趣味を共有、共感できたらと思いブログをはじめた。

 - 賢くなる雑学