Garbage In, Gospel Out—無意味なデータ入力による、無意味な結果出力

2017年 5月 29日

古代では、”oracle” は、聡明で洞察に富んだ神の啓示を受ける人を意味していました。

アッシリアからエジプト・ギリシャ時代には、神の言葉を伝える伝道者を意味しました。未来を知り、正しい判断をしたいと思う全ての文明に生きる人々にとって、”oracle”は、未知を知る術でした。

私たちの近代文明では、コンピュータやテクノロジが新しい “oracle”となりました（大きなソフトウェア会社がこの名前を採用したことも含め）。これまでにないほどにデータが増大し、人々は、データによって将来を予測する洞察を求めています。現在は、この歴史上最も、自分自身にとっての「デルフォイの神託（将来を予言する女司祭）」を欲しているのです。

テクノロジ企業は、この古代からある人類のニーズを満たそうと躍起になりました。今日新しい”oracle”は、AIであり、機械学習であり、ディープラーニング・アルゴリズムです。

そして、AIにとって、医療ほど魅力ある分野はありません。治療や診断への応用は、ほぼ無限の可能性を秘めています。多くの点で、これは納得のいくことです。医療は、非常に範囲が広く、非常に複雑な分野で、次から次へと新しい技術の進化が起きるものです。古代ギリシャで、デルフォイの知恵を探すように、AIによって将来を予知し、ケアにおける正しい意思決定ができるようになりたいと、私たちは思います。

しかし、AIや機械学習医療というゴールドラッシュ（取り組むものが殺到する状態）によって陥るところは、コンピュータの不変法則—Garbage in Garbage Out(無意味なデータ入力による、無意味な結果出力)—ではないでしょうか。すなわち、コンピュータは、よいデータ入力があって初めて有用であるのです。バイアスのかかったデータでAIを試したとき、バイアスのかかった結果しか得られないのは明白です。

単純にいうと、存在しない、あるいは不正確なデータであれば[i]、ディープラーニングも機会学習も、AI活用もできないということです。

存在しないデータのよい例があります [i]。どの病院の患者が、肺炎の合併症が起きるか予測するために使った機械学習技術に関する効果の研究（2015年）は、多くのケースで、よく機能しています。しかし、そのアルゴリズムには１つの重大な欠陥がありました。それは、医師に、ハイリスクなカテゴリであっても、ぜんそくの患者は家に帰すよう指示していたことです。これは、その病院での処置手順が、ぜんそく患者に対して自動的に集中ケアに送るとされており、システムが学んだことに基づき、ほとんどの患者には「さらにケアが必要」と記録に残されていませんでした。

The Master AlgorithmのPedro Domingo の言葉を借りると「人々はコンピュータが賢くなりすぎて、世界を支配するのではないかと懸念しているが、本当の問題は、コンピュータが愚かすぎることと既に世界を支配していることである」

多くの組織にとって、簡単な答えを得たいと思う要望は、初期のAIや機械学習で見たとおり、最も厳しい結果を生みます：Garbage in, gospel out (コンピュータは正しいと信じがちだが、過度に信用してはならない)　多くの文章で指摘されている通り、今日のコグニティブコンピューティングやディープラーニングといった最前線から学ぶことは、こうした成功は、よくわからないということを証明しています [ii]。わたしたちは、新しいテクノロジ ”oracle”の前提を、悪しくも信じたいと思っており、それは、技術を使うことで、洞察やよりよいケア、結果改善を導くと単に信じているだけなのです。

残念ながら、そういった期待は起こりません。

コンピュータの父と呼ばれるCharles Baggageが、1864年に書いた Passages from the Life of a Philosopher という文章の中でこう述べています。「2度ほど聞かれた。Babbageさん、機械に誤った入力をしたら、正しい答えはでるのか」と。私は、そんな質問がでるほどの誤解をすることが、正しく理解することができない」

では、思慮深い組織が、AIや機械学習を利用し、医療を真に改善させるのは、どうすればよいのでしょう。

新しいテクノロジを検討している組織にへの私の進言はシンプルです。

“プレスリリース”から戦略を立てない

データ戦略をアウトソースする、あるいは、実績のない技術を使い、計画もなく、複雑なビジネス上の課題を、魔法みたいに解決することのできると思うことは、愚か者の使い走りです。

これは、船の所有者にとって、２日ある幸せな日は、買った日と売った日である、ということです。プレスリリースによるAI戦略でも、これは真実であると言えると思います。大きなブレークスルーで問題が解決されるという最初のプレスリリースがあります。そして、上手くいかなかったプロジェクトが静かに終了したことをアナウンスするプレスリリースは、絶対に出てこないのです。

確たる戦略やデータサイエンスの骨折りにとって代われる、楽なマーケティングキャンペーンなどありません。こうした姿勢は、皆さまのある特定のベンダーに対するAI戦略にもつながります。あるAI技術を使って、何か大きなことをやっていることを公表するとき、１つのソリューションにロックインする傾向があります。AIシステムの正しい見方は、コンポーネントを簡単に更新するモジュールであるべき情報技術インフラの１つのセットであるということです。同じ様に、組織全体での機会学習アルゴリズムの構築、テスト、導入に当たっては、多様なシステムからの医療データの集約と正規化を支援する正しいデータ戦略の策定が必要です。この手法によって、組織は、機械学習の機能劣化のリスク低減とカスタム統合のコスト回避をしつつ、業界のイノベーションを活用することができます。

皆さまは、これを最初から月ロケットを打ち上げるようなものだと呼ばれるのでしたら、皆さまは、結果的に失敗することを、プロアクティブに開始している、以上のことをされていますか？

AI技術は、先生ではなく、生徒として扱う

その心臓部において、AIと機械学習技術は、人の認知と学習機能を、ただ早く複製することができるにすぎません。それゆえ、第２の学習戦略を持たなければ、AIや機械学習は、役に立ちません。簡単に聞こえますが、しばしば、見過ごされていることです。もう1つのキーポイントは、こうした技術を、意思をもつ生徒として扱い、成長を支援することです。
ビジネス上の意思決定において、予知や全知の”oracle”として扱うべきではありません。

メイヨークリニックのCIOである Criss Ross氏は、今日のAIの存在について次のように述べています。「AIは、まだ可愛い、もの言えぬ子です。侮蔑的に言っているのではなく・・・今日の最良のAIでも、言語と相互の単語の関係と、それらがどのように組み立てられているかを理解する、いわゆるセマンティックモデルによって全ては推進されているにすぎません。」こうした事が上手くいく、ただ１つの方法は、山のようなデータを与えて、いろいろ苦労して試行し、統計的に意味ある関係性を得るしかありません。そう、これは、2歳児が、丁度、話すこと、歩くこと、言葉にどう反応するかを学ぶのと同じようなものです。ストーブに手を置くと、よい事は起きません。これは、2歳の子供にとっては、すぐに分かることではないのです。

AIや機械学習には、癌の治療はできませんし、世界の飢餓を救うことも、地球に平和をもたらすこともできないでしょう。何ができるのか、それは、正しいデータの処理と分析をすることで、人の効率を上げることです。しかし、その支援ができるようになるには、AIは、訓練が必要です。よって、彼らを初心者として扱い、彼にとってよい状態を確立することが必要です。 [iii]

データ戦略の計画を立てる―　よいデータに代わるものはない

最後に、よいデータに代わるものはないのです。私たち全ては、コンピュータの普遍的法則を知っています。
GIGO—無意味なデータ入力による、無意味な結果出力—は、私たち全員が心に留めておく必要があります。AIは、質の悪いデータに基づいて、魔法の結果につながる近道を与えるものではありません。Forrester 社の John Bruno氏は、Salesforceにおける新しい AI、Einsteinについて、こう書いています。「営業プロセスを促進する未来分析は、明るい。しかし、進む道は、チャレンジなしには存在しない。現在のそして潜在的なSalesforceの顧客は、インテリジェントな進言を得るには、膨大なよい品質のデータが必要であることを忘れてはならない。よくないデータが投入されれば、よくない進言が出てくる。データのクレンジングと、進言のよいチューニングを繰り返すことが、長期的な成功にとって重要になる」 [iv]

現代の技術による収穫を少しでも利用したいという意思を持っていれば、AIは、超膨大なデータ量に、非常に依存しているということを知っていただきたい。この技術が適用できる唯一の場所は、バリエーションが十分狭く、大量の深くて豊富なデータセットがあるところです。

データが、AIの道を整備し、AIや機械学習からの利益を享受するためには、医療データ戦略の確立が必要です。医療において、それは、電子医療記録やデータウェアハウスのさらに上に進むことを意味します。AIあるいは機械学習の正しい土台があるか確認するには、医療データ戦略と皆さんが持つ全てのデータを実際に管理する方法が必要です。

これが、皆さんの月ロケットが、発射台だけでも得ることができるかが分かる唯一の方法です。

AIのデータ戦略について、さらに詳しく議論をしたい、あるいは、何か反対の見解をお持ちであれば、5月23日～25日に行われるBioIT Worldにおりますので、是非お声がけください。

*このBlogは、5/24に米国で投稿されたものの日本語訳です。
[i] Caruana, R. et al. ‘Intelligible models for healthcare: predicting pneumonia risk and hospital 30-day readmission’ Proc. 21th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining1721–1730 (ACM, 2015).

[ii] Davenport, Thomas H. "Lessons from the Cognitive Front Lines: Early Adopters of IBM's Watson." The Wall Street Journal. Dow Jones & Company, 03 Dec. 2015. Web. 15 May 2017.

[iii] Parmar, Arundhati, Arundhati Parmar | 1:42 Pm May 10, Stephanie Baum | 2:27 Pm May 15, Juliet Preston | 2:15 Pm May 15, and Erin Dietsche | 10:31 Am May 15. "AI Is "still Pretty Dumb" and like a "2-year-old"." MedCity News. N.p., 08 Mar. 2017. Web. 15 May 2017.

[iv] "John Bruno's Blog." Can Salesforce Really Prescribe An End-to-End Sales Process? | Forrester Blogs. N.p., n.d. Web. 15 May 2017.

InterSystems

この著者の他の記事を読む