ヤバい統計学 - カイザー・ファング

はじめに
 「世の中には3つの嘘がある。嘘、真っ赤な嘘、そして統計だ」と言ったのは、ベンジャミン・ディズレーリ元英首相だ。この本はしかし、「真っ赤な嘘と統計」の本ではない。いつまでも色あせないこのテーマは多くの傑作を生み、ダレル・ハフ(『統計でウソをつく法―数式を使わない統計学入門 (ブルーバックス)』)やジョン・アレン・パウロス(『数で考えるアタマになる!―数字オンチの治しかた』)、エドワード・タフティ(引用者註:amazon:Edward Tufte)、ハワード・ウェイナー(引用者註:amazon:Howard Weiner)らが素晴らしい著作を発表している。世論を操作する政治家、うかつなアナリスト、未熟なエコノミスト、押しつけがましい広告屋。数字が悪用されるとどのような問題が起こるか、その例は昔から尽きることがない。都合のいい数字を選ぶ、単純化しすぎる、わざと曖昧にする――そんなことはいくらでも経験してきた。しかしこの本では、統計を違う方向から眺めていきたい。肯定的な立場からだ。私が注目するのは、物事がうまくいくとき。つまり数字が「嘘をつかない」ときにどうなるかということだ。

知れば知るほど、自分が知らないということを知る
 ニューヨークを拠点としていたファンドマネジャーで元ナスダック会長のバーナード・マドフは、大金持ちを内々に集めた投資ファンドで30年以上にわたり巨額の金融詐欺を働き、2008年に逮捕されたときにはほとんどのカネが消えていた。アメリカの大手エネルギー会社エンロンの経営幹部は、粉飾決算で従業員数万人の年金を吹き飛ばした。まんまとだまされた投資家や監査役、規制当局が、大量の財務データや決算書、報告書からほとんど手がかりを読み取れなかった理由を、私たちは知っておくべきだろう。
 米食品医薬品局(FDA)の承認を受けた消炎鎮痛剤バイオックスは、華々しい発売から5年後に、数万人の服用者が心臓発作を起こしていたことが明らかになった。健康と医薬品に関して広く入手できる情報と、大規模で高度な臨床試験があっても、バイオックスを開発・製造したメルク社や医師、そして患者が、死に至りかねない副作用を見過ごした理由を、私たちは知っておくべきだろう。
 あふれるほどの株価情報と企業の報告書にアクセスできても、ほとんどの人は株式市場で大儲けできない。あらゆる缶詰や箱入り食品の栄養に関する情報をかき集めても、ほとんどの人は望ましい体型を維持できずにいる。IT分野に巨額の投資をしているのに、飛行機の遅延や交通渋滞はひどくなるばかりだ。企業は私たちの買い物行動を詳細に記録しているはずだが、サービスセンターに電話をかけた私たちが何を要求しているのか、ほとんど見当もついていない。大規模な臨床試験で癌を抑制する効果を突き止めることができなかったのに、ベータカロチンやビタミンのサプリメントは薬局の棚から飛ぷように売れていく。
 こうした例は意外な現実を浮き彫りにする。現代社会は数値の測定に固執しているが、誰も賢くなっていないのだ。私たちはかつてないほど多くの情報を集めて、保存して、処理して、分析している――いったい何のために? アリストテレスの言葉は今の時代にこそ当てはまる。「知れば知るほど、自分が知らないということを知る」

統計で世の中を良くする人々
 このような失敗を克服する最初の一歩として、進取の気性に富んだ人々が情報を賢く活用して世の中を良くしている実証的なケースを検証していこう。この本では5つの章に分けて次のような人々を紹介する。高速道路の車をスムーズに走らせる交通工学者、感染症の出所を突き止める疫学者、ハリケーン多発地域で住宅保険の保険料を算出するアクチュアリー(保険数理士)。共通テストの公平性を保とうと苦心する教育学者、トップアスリートのドーピング検査を行う技師、嘘を見抜く法則があると考えるデータマイニング(訳注:大量のデータを統計解析を用いて分析し、隠れた関係性や憲味を見つけ出す手法)の専門家、宝くじの不正の証拠を見つけた統計学者、行列を短くする方法を編み出したウォルド・ディズニーのエンジニア、消費者金融を急成長させた数学者、空の旅に関する最善のアドバイスをくれる研究者。
 これら10のエピソードに登場する人々は特別な成果をあげた男女だが、公に称賛されることはめったにない。無視されがちなのは、彼らの実績が発明ではなく(発明は賞と称賛のシャワーを浴びるものだ)適応や改良であり、売り込みのテクニックであり、あるいは忍耐力だからだ。彼らは応用科学の専門家である。

統計的思考とは何か
 10のエピソードは、突き詰めれば1つになるだろう。彼ら称賛すべき科学者は、普通の考え方とは異なる統計的思考を重視する。この本では統計の基本的な原則に沿ってエピソードを2つずつ5つの章で紹介していく。
 統計的思考は、どのようなところが型破りなのだろうか。
 その1。統計学者は、統計上の平均という一般的な概念をあまり気にしない。むしろ平均からのずれ、偏差にこだわる。ずれの大きさはどの程度か、どのくらい頻繁に生じるのか、なぜ偏差が生じるのかを考えるのだ。第1章では行列を研究する専門家から、待ち時間の平均よりばらつきに注目するべき理由を学ぶ。ミネソタ州の交通工学者が高速道路の渋滞を緩和させるお気に入りの方法は、本線に合流する車の待ち時間を長くすることだ。ディズニーのエンジニアが実証しているように、待ち時間を減らす最も効果的な方法は、実際の待ち時間の平均を短くすることではない。
 その2.あらゆることに合理的な説明を求めるのは私たちの本能的な欲求でもあるが、ばらつきについて筋の通った説明ができなくてもかまわない。統計学者は相関関係のパターンを見ているだけで幸せになれる。第2章では2つの統計モデリングを比較対照する。汚染されたホウレン草を追跡調査して腸管出血性大腸菌O157)の出所を突き止める過程をたどりながら「因果関係モデル」を、金融機関が利用するクレジットスコアをはじき出すブラックボックスをこじ開けながら「相関関係モデル」を、それぞれ見ていこう。驚くことに専門家は、現実の世の中を完璧に説明できていないという意味で、自分たちのモデルが「間違っている」と率直に認める。彼らはモデルをどのように調整するのだろうか。
 その3.統計学者は。微妙な違いを見逃していないかと常に目を光らせる。すべてのグループの統計的平均は、グループ間の重要な違いを巧妙に隠すかもしれない。頻繁に現れるグループ間の違いを無視すると、不公平な扱いを招きかねない。人種や性別、収入など典型的なグループ分けには欠点が多い。第3章では、フロリダ州の沿岸部と内陸部の住宅がハリケーンに襲われる回数の違いを反映させて保険料を調整することと、SAT(大学進学適性試験)の作成者が黒人学生と白人学生の正解率の差を排除するように設問を作ろうとすることについて、さまざまな影響を見ていこう。
 その4.統計に基づく判断は、2種類の間違いのあいだで折り合いをつけるように基準を調整できる。社会的な判断を下す人は、言うまでもなく、世間に広まって恥をかきかねない間違いを最小限にしたいと思う。しかしこの偏見ゆえに、彼らの判断はもう一方の間違いを悪化させることになる。これは目立たないけれど深刻な問題だと、統計学者は指摘する。第4章では2つの間違いの関係を軸に、データマイニングの手法でテロ計画を特定しようとして無実の市民に耐えがたい苦しみを与えてしまう理由と、ステロイド(筋肉増強剤)を使用しているアスリートの大半をドーピング検査が見逃してしまう理由を検証する。
 その5.統計学者は「統計的検定」という特殊な手法を使って、たとえば証拠と犯罪のつじつまが合うかどうかを判断する。統計学者は奇跡を信じない。極めて稀な偶然の一致が起きたと考えるしか説明のつかないとき、彼らはその説明を受け入れるなら、犯罪が未解決のままでいいと

ヤバい統計学

ヤバい統計学

はじめに
知れば知るほど、自分が知らないということを知る
統計的思考とは何か
現実社会における応用科学の役割
さらに知りたい人のために

第1章 ファストパスと交通渋滞

――平均化を嫌う不満分子
ディズニーランドの行列はなくならない?
高速道路渋滞のパラドクス
ばらつきを排除するファストパスの魔法
それでも待つのが嫌という不合理な振る舞い

第2章 ホウレン草とクレジットカード

――間違っているからこそわかること
推測の達人「モデラー」の活躍
O157の感染源をどうやって見つけたか
原因と結果を結びつける統計モデリング
相関関係と因果関係のモデル

第3章 大学入試とハリケーン保険

――グループ分けのジレンマ
SAT(大学進学適性試験)の公平性
保険業界はなぜリスク評価を誤ったか
リスクプールの不公平

第4章 ドーピング検査とテロ対策

――非対称がもたらす動揺
間違った陽性反応、間違った陰性反応
ドーピング検査の「相殺」の問題
嘘発見器は間違いが多すぎて信頼できない
巻き添えになる無実の市民たち
データマイニングが役立たずな理由

第5章 飛行機事故と宝くじ

――「不可能」が起きるとき
墜落事故多発のありえない偶然について
宝くじ業界の不正と統計的検定
統計学者は普通の人とどこが違うのか

おわりに
1 平均化を嫌う不満分子
≪クロスオーバー≫
2 間違っているからこそわかること
≪クロスオーバー≫
3 グループ分けのジレンマ
≪クロスオーバー≫
4 非対称がもたらす動揺
≪クロスオーバー≫
5 「不可能」が起きるとき
≪クロスオーバー≫
数字が世界を支配する
訳者あとがき
付注