データ分析の力 因果関係に迫る思考法
伊藤公一朗(著)
/光文社新書
作品情報
本書では「広告が売り上げに影響したのか?」「ある政策を行ったことが本当に良い影響をもたらしたのか?」といった、因果関係分析に焦点を当てたデータ分析の入門を展開していきます。なぜ因果関係に焦点を当てるかというと、因果関係を見極めることは、ビジネスや政策における様々な現場で非常に重要となるためです。また、この「因果関係の考え方」について、数式を使わず、具体例とビジュアルな描写を用いて解説していきます。
もっとみる
商品情報
- シリーズ
- データ分析の力 因果関係に迫る思考法
- 著者
- 伊藤公一朗
- ジャンル
- コンピュータ・情報 - IT・Eビジネス・資格・読み物
- 出版社
- 光文社
- 掲載誌・レーベル
- 光文社新書
- 書籍発売日
- 2017.04.20
- Reader Store発売日
- 2017.04.21
- ファイルサイズ
- 10.3MB
以下の製品には非対応です
この作品のレビュー
平均 3.8 (101件のレビュー)
-
【感想】
コロナウイルスが猛威を振るい、ワクチンの開発・治験が急ピッチで進められる中、「ランダム化比較試験」という単語をニュースで初めて聞いた人も多いのではないだろうか。
わたしもその一人である。自分…にとってデータ比較分析とは、治療薬を開発するステップの1つという認識でしかなく、自分の生活の近くに根差しているという認識は無かった。
しかし、「データ分析」は今後誰でも使う/使わざるをえないスキルである、と本書は述べる。
「データ分析」と名付けるとあたかもデータサイエンティストの専門分野という錯覚を起こしてしまうが、これを「因果関係を探る力」と読み換えれば、どの職種においても必要不可欠なスキルであることは明白だ。
どうして比較の際には2グループが必要なのか、調査対象項目以外を同一条件に置かなければならないのか、実験の参加者に詳細な実験内容を知らせてはいけないのか。そうした分析の際のイロハを0から解説するとともに、ランダム化比較分析が行えない場合の代替手段も丁寧に記されている。
少なくない数のグラフが登場するが、数学の知識は不要であり全く難しくない。まさに初学者にうってつけの本であった。
藤井保文・尾原和啓著『アフターデジタル』では、ビッグデータを収集する際に陥りがちな「罠」について説明されている。データの利活用方法を検討せずにビッグデータを集めるだけでは、ただ個人情報を含んだ数字の羅列がストックされるだけで、何の付加価値ももたらさないということだ。
そして、「データの扱い、分析、解釈」を行うのは人間である。不明瞭な情報群に対してどのような実験を行い、得られた結果にどんな意味付けを行うか。そして、実験結果をいかにして現場に活用していくか。
これらは全て「因果関係を読み解く力」という一本の線で繋がっているのだ。
―――――――――――――――――――――――――――――――――――――
【本書のまとめ】
0 あらすじ
データ分析の力が、これまで以上に多岐に渡る職種において要求されるようになってきている。
本書では、データ分析の考え方で最も基本になる「因果関係の見極め方」について解説する。
1 因果関係の立証は難しい
「ある要素(X)が結果(Y)に影響を与えた」という「X→Y」の因果関係を立証するのは難しい。それは、
①他の要因が影響していた可能性がある(ZがXとYに影響を与えている)
②逆の因果関係であった可能性がある
からだ。
因果関係と相関関係(XとYが相互に関係しているだけ)をごっちゃにして語られることがあまりにも多い。ビジネスの場でも政策形成の場でも、因果関係を見誤ると誤った判断につながり、大きな利益損失や税金の無駄遣いを招く。しかも、因果関係の立証の難しさは、データの観測数が増えることだけでは解消しないのである。
2 ランダム化比較試験
因果関係をデータ分析によって明らかにする最良の方法は、「RCT(ランダム化比較試験)」である。
RCTでは、介入グループと比較グループ(介入が起こらなかったグループ)の平均値の差を求めることで、効果測定を行う。
●RCT実施の際の鉄則
・適切なグループ分けをする
・グループ分けは完全にランダムに行い、参加者の意思を介入させない
・各グループには十分なサンプル数を振り分け、平均値計算の際の標準誤差を小さくする
●RCTの利点
・因果関係が科学的に示せる
・分析手法や結果に透明性がある
グループ分けの際のランダム化の方法としては、「単純ランダム化法(乱数で割り振る)」を使えばよいが、サンプル数が少ないとどちらかに偏る可能性があるため、「ブロック・ランダム化法(同じ特性を持つ参加者をブロックに分け、その後乱数で割り振る)」を行う。
●RCTの弱み
実験に当たって費用・労力・各機関の協力が必要になる
3 自然実験
RCTが実施できない場合は、「自然実験」という手法を用いることができる。自然実験とは、あたかも実験が起こったかのような状況を用いて因果関係を分析する手法だ。自然実験の代表的な手法の一つとして、「RDデザイン」が挙げられる。
●RDデザイン
世の中に存在する「境界線」を上手く使い、因果関係に迫る自然実験手法。
(例)日本では、69歳から70歳になると、外来患者が非連続的に10%上昇する。まるで境界線のようにいきなり患者数が増加するのだ。
→医療費負担が3割から1割に減るので、70歳になった途端に医者にかかる人が増えるから
RCTと異なる点は、「実際には起こらなかった潜在的結果」――医療費で言えば、70歳になっても自己負担額が3割のままであり続けること――が「観測できない」ことである。RCTは違って、RDデザインは仮定のまま比較グループとの差を語らなければならない。
では、どうやってRDデザインの信用性を担保するのかといえば、「非連続的にジャンプしているか」、要は「自然状態と比べて、不自然な増加をしていないか」を検証しているのだ。
●RDデザインの鉄則
・境界線を境に一つの要素(X)のみが「非連続的に変化する状態」を見つけ出す
・境界線付近で、X以外の要素が非連続的に変化していないかのチェックを行う
●RDデザインの強み
・過程が成り立てば、境界線付近であたかもRCTが起こっているかのような状況を利用できる
・RCTが実施できないときに有効な分析手法となる
●RDデザインの弱み
・RDデザインに必要な仮定は、成り立つであろう根拠を示すことはできるが、成り立つことを立証はできない
・境界線付近のデータに対しての因果関係しか主張できない。そのため、実験参加者全体への因果関係を主張できるRCTに比べて有用性に欠ける場合がある
4 集積分析
集積分析とは、階段状の変化を上手く使い因果関係に迫る手法。
何らかのインセンティブが階段状に変化する(例:所得税の税率)を利用し、インセンティブが大きく変わる境界点でのデータの集積を分析することで、人々や企業がインセンティブの変化に反応した因果関係を検証する。
●集積分析の強み
・過程が成り立てば、境界線付近であたかもRCTが起こっているかのような状況を利用できる
・RCTが実施できないときに有効な分析手法となる
●集積分析の弱み
・分析に必要な仮定は、成り立つであろう根拠を示すことはできるが、成り立つことを立証はできない
・境界線付近のデータに対しての因果関係しか主張できない。そのため、実験参加者全体への因果関係を主張できるRCTに比べて有用性に欠ける場合がある
5 パネル・データ分析
RDデザインや集積分析のように、境界線が用意できない場合にはどうすればいいか?
一つの可能性が「パネル・データ分析」である。「パネル・データ分析」とは、観察対象を複数の期間において観察し、別のグループと比較することである。
●パネル・データ分析の鉄則
・介入が起こった時期の前後のデータが、介入グループと比較グループの両方について入手できるか確認する
・平行トレンドの仮定が成り立つか確認する
「平行トレンド」→もし介入が起こらなかった場合、介入グループの平均的結果と比較グループの平均的結果は平行に推移する。
・平行トレンドの仮定が成り立つと断言できた場合、2つのグループの平均値の推移をグラフ化し、介入効果の平均値の測定を行う
●パネル・データ分析の強み
介入グループに属する全ての主体に対して介入効果の分析が可能であり、分析できる対象の範囲が狭いRDデザインや集積分析に比べて優れた点である。
●パネル・データ分析の弱み
仮定が非常に難しい。X以外の要因が重なれば、たちまち平行推移が成り立たなくなってしまう。
また、複数機関のデータを介入グループと比較グループの両方について収集する必要がある。
6 実践編
どうすればデータ分析をビジネス戦略や政策形成に生かせるのだろうか?
①データ分析専門家との協力関係を築く
データ分析とは、ただデータを取ってそれをエビデンスとして示せばいいというものではない。収集すべきデータは何なのかといった、「コンピュータにデータが上がって来る前の段階も含めたスキルや経験」が重要になる。そのため、データ分析の結果を利用する「現場の人間」とデータ分析官の協力が必要である。
②データへのアクセスをひらく
なるべく多くの団体・企業が、行政データ・経営データを利用できるような環境を整える。
7 データ分析の限界
①データ自体に問題がある(数値が正しく記録されていない、大量の欠損値がある、サンプルが偏っている)ときは、優れた分析手法でも解決できない。
②実験や自然実験で得られた分析結果が、分析で使われたサンプル以外にも適用できるかわからない→「外的妥当性」の問題。データの取得範囲に依存する。
③データ分析者やデータ分析のパートナーの意に沿わない結果は世の中に出てきにくい。
④介入グループに施した介入が比較グループにも「波及効果」を持つ可能性がある。
⑤小規模の実験の結果と大規模な政策の結果がズレる場合がありうる。続きを読む投稿日:2021.06.13
分かりやすい実例満載でとても読みやすかった。
因果関係って、あまり考えずに原因と結果を結び付けてしまう日常をすこし反省。投稿日:2024.03.12
新刊自動購入は、今後配信となるシリーズの最新刊を毎号自動的にお届けするサービスです。
- ・発売と同時にすぐにお手元のデバイスに追加!
- ・買い逃すことがありません!
- ・いつでも解約ができるから安心!
※新刊自動購入の対象となるコンテンツは、次回配信分からとなります。現在発売中の最新号を含め、既刊の号は含まれません。ご契約はページ右の「新刊自動購入を始める」からお手続きください。
※ご契約をいただくと、このシリーズのコンテンツを配信する都度、毎回決済となります。配信されるコンテンツによって発売日・金額が異なる場合があります。ご契約中は自動的に販売を継続します。
不定期に刊行される「増刊号」「特別号」等も、自動購入の対象に含まれますのでご了承ください。(シリーズ名が異なるものは対象となりません)
※再開の見込みの立たない休刊、廃刊、出版社やReader Store側の事由で契約を終了させていただくことがあります。
※My Sony IDを削除すると新刊自動購入は解約となります。
お支払方法:クレジットカードのみ
解約方法:マイページの「予約・新刊自動購入設定」より、随時解約可能です続巻自動購入は、今後配信となるシリーズの最新刊を毎号自動的にお届けするサービスです。
- ・発売と同時にすぐにお手元のデバイスに追加!
- ・買い逃すことがありません!
- ・いつでも解約ができるから安心!
- ・優待ポイントが2倍になるおトクなキャンペーン実施中!
※続巻自動購入の対象となるコンテンツは、次回配信分からとなります。現在発売中の最新巻を含め、既刊の巻は含まれません。ご契約はページ右の「続巻自動購入を始める」からお手続きください。
※ご契約をいただくと、このシリーズのコンテンツを配信する都度、毎回決済となります。配信されるコンテンツによって発売日・金額が異なる場合があります。ご契約中は自動的に販売を継続します。
不定期に刊行される特別号等も自動購入の対象に含まれる場合がありますのでご了承ください。(シリーズ名が異なるものは対象となりません)
※再開の見込みの立たない休刊、廃刊、出版社やReader Store側の事由で契約を終了させていただくことがあります。
※My Sony IDを削除すると続巻自動購入は解約となります。
お支払方法:クレジットカードのみ
解約方法:マイページの「予約自動購入設定」より、随時解約可能ですReader Store BOOK GIFT とは
ご家族、ご友人などに電子書籍をギフトとしてプレゼントすることができる機能です。
贈りたい本を「プレゼントする」のボタンからご購入頂き、お受け取り用のリンクをメールなどでお知らせするだけでOK!
ぜひお誕生日のお祝いや、おすすめしたい本をプレゼントしてみてください。※ギフトのお受け取り期限はご購入後6ヶ月となります。お受け取りされないまま期限を過ぎた場合、お受け取りや払い戻しはできませんのでご注意ください。
※お受け取りになる方がすでに同じ本をお持ちの場合でも払い戻しはできません。
※ギフトのお受け取りにはサインアップ(無料)が必要です。
※ご自身の本棚の本を贈ることはできません。
※ポイント、クーポンの利用はできません。クーポンコード登録
Reader Storeをご利用のお客様へ
ご利用ありがとうございます!
エラー(エラーコード: )
ご協力ありがとうございました
参考にさせていただきます。