データは本当か嘘か 信頼性が高いデータ・ランキングの見分け方

TVや新聞、雑誌そしてインターネットでもランキング、統計などのデータがあふれかえっています。

私はデータや数字を提示されると、それだけで「信頼性が高いのかな?」とついつい思ってしまいます。

オリンピックの経済効果は3兆円だとか、20代のカップルの3組に1組は離婚しているだとか、大学の人気ランキングだとか、数字を目にする機会は毎日あります。

数字って私たちが真実だと思ってしまう魔法のようなものだと感じます。

Youtubeで見る

スポンサーリンク

信頼性が疑問のデータの例

しかし実際は信頼性を疑問視してしまうデータもあります。

453048

<ケース① 世論調査>

例えば、過去に行われた消費税増税に関する意識調査では、下記のような質問がされました。

四月一日、消費税の税率が3%から5%に引き上げられました。

高齢化が急速に進む中で、いま消費税を引き上げないと、財政状態がさらに悪化して、次の世代の負担が重くなったり、福祉の財源が不足するなどの影響が出ると言われています。

あなたは今回の消費税の引き上げを、当然だと思いますか、やむを得ないと思いますか、それとも、納得できないと思いますか。

(読売新聞 1997年5月2日)

この調査では、

当然だ 5.4%

やむを得ない 50.7%

納得できない 42.6%

答えない 1.2%

だったそうです。

そして読売新聞の一面には「消費税上げ56%が容認」と書かれていたそうです。

この意識調査について、頭の良い方であれば質問自体が誘導尋問だということが分かると思います。2行目から書かれている内容は明らかに賛成する方向へ仕向けています。

また、「やむを得ない」という選択肢もとてもあいまいです。この「やむを得ない」という選択肢をうまく使うことで、世論の誘導をはかるケースは非常に多いのだそうです。

6018d0a86ea60972ab7aee1ec47e4759_s

<ケース② 経済効果予想はお金が動く金額を示した数字>

サッカーのワールドカップやオリンピック、万博などが開かれると、「経済効果は何兆円!」というとても景気が良い見出しが新聞にも出てきます。

一見するとこの経済効果によって新たな富が生まれ、国が潤うように思ってしまいがちです。

しかし、イベントの度にシンクタンクや行政から出てくる経済効果の数値はあくまで予想であり、事後に実際にどのくらいの経済効果があったのか測定されることはほとんどないのです。

更に、この金額の根拠はお金がフローとして動く金額であり、新たな富が生まれたとは限らないということにも注意が必要です。

こう見ると、経済効果の予想ってほとんどあてにならないように感じられます。

4459a98d54ae6f8c46d3c9e5d0ceb14c_s

<ケース③ 国別ランキング>

例えば日本人の英語力が国際的に低いということを説明する時に、TOEICの国別平均点が出てくることがあります。

例えば2004年のアジアの国23ヶ国を比べた結果を見ると

1位 フィリピン 平均点 807点

21位 日本 平均点 454点

(ETS 「Report on Test Takers Worldwide-2004」)

となります。23ヶ国中21位なので日本の英語力が低いという根拠として使われるのです。

しかしこのデータをもっときちんと見ると、まったく違う結果が得られます。

1位 フィリピン 平均点 807点 受験者数 1,777人

21位 日本 平均点 454点 受験者数 772,443人

ETS 「Report on Test Takers Worldwide-2004」)

フィリピンと日本とでは受験者数が全く違うことが分かります。

このランキングはあくまでTOEICテストを受けた人の平均点なのです。

日本では、英語が得意であろうが不得意であろうが、また英語が必要であろうが必要でなかろうが様々な人がTOEICを受けています。

しかしTOEICのテストは5,700円くらいかかります。もし月収が平均2万円の国であればTOEICテスト1回に命がけで勉強して臨むでしょうし、そもそも国の中でも優秀な一握りの人しか受けないのではないでしょうか。

つまりTOEICの国別平均点が低いからと言って、一概に日本の英語力が低いと言い切ることも難しいのです。

また、このような国別ランキングにおいては、国によって出してくる数値の出どころが違うとも言われています。日本は世界的に見れば統計がかなり正確な国と言われています。全ての国が出してくる数値の前提が同じではないのですから、結果は100%真実という訳ではないのです。

信頼性が高いデータとは

390985

では信頼性が高いデータはどういったものなのか、ということです。

100よりも1,000、そして10,000という、純粋にデータの素となっている数が多ければいいのかというと実はそうでもないのだそうです。

例えば世論調査の場合、日本の全ての人に回答を求めるのは非常に困難です。

ですからサンプル調査と言って、ランダムに一部の人を抽出し調査を行い、全体としてこういう傾向だろうということを掴むわけです。

統計学ではある比率の精度をプラスマイナス5%の誤差で推定する場合、母集団が大きくても400弱のサンプルを無作為に抽出すれば十分だと言われているそうです。

つまり世論調査をする場合、日本の成人の中から400人を無作為に抽出し、質問への回答を得ることで日本全体の世論の傾向が分かるのだそうです。そして誤差は5%以内に収まるのです。

しかし実際には400人を無作為に抽出したところで全ての人から回答を得ることは難しいです。

そこで大事になってくる指標が有効回答率です。

世論調査をはじめとするようなアンケート調査では、有効回答率は60%以上は必要だと言う指摘があるそうです。

10,000人からアンケートをとるよりも、400人から有効回答率60%以上で回答を得た方がデータとして信頼性が高いということなのです。

逆に言えば有効回答率が60%を下回っているようであれば、あくまで参考にしかならないと言うのです。

世論調査の場合

●無作為の抽出であること

●400以上の数のデータがあること

●有効回答率が60%以上であること

この3つの条件が、信頼性が高いデータかどうか見分けるポイントになりそうです。

アンケート調査の中には無作為抽出と作為抽出を混ぜているものもあるようなので、無作為抽出であることも大事なポイントです。

作為抽出というのはどういうものかというと、「○○についてアンケートモニターを募集します」という形で人を集めた場合などを指します。決して悪意がある訳ではなく、無作為抽出と作為抽出を混ぜてしまうデータ会社もあるそうなので、注意が必要ですね。

もっとデータの検証について知りたい方は

今回この記事を書くにあたり、参考にさせていただいた本を紹介します。

IMG_1215

田村秀「データの罠 世論はこうして作られる」

もっとたくさんのデータの検証を見たい、そしてデータを客観的な視点で見てみたいと言う方はこの本を読まれることをお勧めします。

私はこの本を読んだおかげで、巷のデータがいかに都合の良いように切り取られているのかを知ることが出来ました。「そうだったのか~」と唸ってしまう実例ばかりです。

視聴率が実際はかなり適当という話や瞬間最大風速データの話も面白かったです。気になる方は是非どうぞ!

1日1度応援クリックしていただけたら嬉しいです!⇩

女性起業家 ブログランキングへ