医学におけるビッグデータの源

by Kevin Hwang、MD、MPH; Richard N. Fogoros、MDのレビュー

医学におけるビッグデータの源

医学におけるビッグデータの単純な定義は、「患者の医療と福利に関連するデータの完全性」である（Raghupathi 2014）。しかし、これらのタイプのデータは正確に何であり、どこから来ていますか？

以下は、ヘルスケア提供者、研究者、支払人、政策立案者、産業界にとって重要な大きなデータの種類と出所の概要です。

これらのカテゴリは相互に排他的ではありません。なぜなら、同じデータがさまざまなソースから発生する可能性があるからです。

ビッグデータ分析の実際的な適用が確実に拡大し続けるため、このリストは網羅的でもありません。

臨床情報システム

これらは、ヘルスケア提供者が慣れ親しんでいる伝統的な臨床データ源である。

人口統計、過去の病歴、積極的な医療問題、予防接種、アレルギー、薬、バイタルサイン、検査および放射線検査の結果、病理レポート、ヘルスケアによって作成された進行メモなどの電子健康記録（EHR）が収集、保存、プロバイダー、および管理および財務文書
電子カルテ（EMR）はEHRと同一ではなく、通常は特定の医師と一緒に保管されたデータに関係します。
健康情報交換は、異なる臨床情報システム間のハブとしての役割を果たす

医療機関が自らの患者のために維持する患者登録は、EHRにリンクされることが多い。他の登録簿は、より広い地理的規模で、予防接種、がん、外傷、およびその他の公衆衛生問題を追跡します。

患者ポータルは、患者が医療機関のEHRに格納された個人の健康情報にアクセスすることを可能にする。患者ポータルの中には、処方箋の補充を依頼したり、保健チームと安全な電子メッセージをやりとりすることもできます。

臨床データウェアハウスは、上記のEHRなどの複数の臨床情報システムから患者レベルのデータを集約します

支払人からのクレームデータ

公的支払人（例えば、メディケア）と私的支払人は、受益者に関するクレームデータの大きなリポジトリを持っています。いくつかの健康保険会社は現在、あなたの健康データを共有するためのインセンティブを提供しています。

研究の研究

研究データベースには、研究参加者、実験的治療、および臨床成果に関する情報が含まれています。大規模な研究は、通常、製薬会社または政府機関によって行われます。パーソナライズド・メディスンの応用は、個々の患者を臨床試験データのパターンに基づいて効果的な治療法に適合させることである。

このアプローチは、エビデンスベースの医療原則を適用することを超えて、ヘルスケア提供者は、患者が試験参加者と広い特徴（例えば、年齢、性別、人種、臨床状態など）を共有しているかどうかを判断する。大規模なデータ分析では、患者のがんの遺伝的プロファイル（下記参照）など、より詳細な情報に基づいて治療法を選択することが可能です。

臨床決定支援システム（CDSS）もまた急速に発展しており、現在は医学における人工知能（AI）の大きな部分を占めている。

彼らは、臨床医が意思決定を支援するために患者データを使用し、しばしばEHRと組み合わされる。

遺伝データベース

ヒトの遺伝情報のリポジトリは、急速なペースで蓄積し続けている。 Human Genome Projectは2003年に完成して以来、ヒトDNA配列決定のコストは100万倍も削減されました。ハーバード大学医学部が2005年に開始したパーソナル・ゲノム・プロジェクト（PGP）は、世界中の10万人のボランティアの完全なゲノムを配列決定し公表することを目指しています。膨大な量とデータの多様性のため、PGP自体は大きなデータプロジェクトの主要な例です。

個人のゲノムには約100ギガバイトのデータが含まれています。 PGPは、ゲノムの配列決定に加えて、EHR、調査、および微生物プロファイルからのデータも収集しています。

多くの企業が、商業ベースで健康、個人特性、および薬理遺伝学のための直接消費者遺伝子シーケンシングを提供している。

この個人情報は、大規模なデータ分析に従属する可能性があります。例えば、23andMeは、米国食品医薬品局（FDA）に準拠するため、2013年11月22日現在、新しい顧客に健康関連の遺伝子レポートを提供することを中止しました。しかし、同社は2015年にFDAの承認を得て、今度は遺伝子唾液検査の特定の健康成分を再度提供し始めた。

公的記録

政府は移民、婚姻、出産、死亡など、健康に関連する事象の詳細な記録を保管しています。米国国勢調査は1790年以来10年ごとに膨大な量の情報を収集しています.Censusの統計ウェブサイトは2013年現在で3700億個の細胞を有し、毎年約110億個が追加されています。

Web検索

Googleや他のウェブ検索プロバイダが収集したウェブ検索情報は、人口の健康に関するリアルタイムの洞察を提供することができます。しかし、従来の健康データ源と組み合わせることにより、ウェブ検索パターンからの大きなデータの価値が向上する可能性があります。

ソーシャルメディア

Facebook、Twitterなどのソーシャルメディアプラットフォームは、さまざまなデータを24時間体制で生成し、ユーザーの場所、健康行動、感情、社会的なやり取りを表示します。公衆衛生へのソーシャルメディアの大きなデータの適用は、デジタル疾患の検出またはデジタル疫学と呼ばれています。例えば、ツイッターは、一般住民のインフルエンザの流行を分析するために使われてきました。

ペンシルベニア大学で始まった世界福祉プロジェクトは、人々の経験と健康をより良く理解するためのソーシャルメディアを研究するもう一つの例です。このプロジェクトには、例えばFacebookやTwitterにステータス更新を書くときなど、オンラインでやり取りするときに使用される言語を分析する心理学者、統計学者、コンピュータ科学者が集まっています。科学者は、ユーザーの言語が自分の健康と幸福にどのように関係しているかを観察しています。自然言語処理と機械学習の進歩は、彼らの努力を助けています。ペンシルバニア大学の最近の出版物は、ソーシャルメディアを分析して精神疾患を予測する方法を検討しました。うつ病やその他の精神的健康状態の症状は、私たちのインターネットの使用を研究することで検出できるようです。科学者は将来、これらの方法がリスクの高い個体をよりよく同定し助けることができると期待している。

もののインターネット（IoT）

大量の健康関連情報も収集され、携帯電話や家庭の機器に保存されます。

スマートフォン：数千のmHealthアプリは、ユーザーの身体活動、栄養摂取量、睡眠パターン、感情、その他のパラメータに関する情報を取得します。ネイティブ携帯電話アプリ（GPS、電子メール、テキストメッセージなど）は、個人の健康状態についての手がかりも与えます。
ウェアラブルモニターとデバイス：肌の下に埋め込まれた歩数計、加速度計、眼鏡、時計、チップなども健康関連の情報を収集し、クラウドに送信することもできます。
遠隔医療装置により、医療従事者は、血圧、心拍数、呼吸数、酸素化、温度、ECG追跡、体重などの患者のパラメータを監視することができます。

金融取引

患者のクレジットカード取引は、Carolinas HealthCare Systemが病院に再入院するリスクが高い患者を特定するために使用する予測モデルに含まれています。シャーロットに拠点を置くヘルスケア提供者は、大きなデータを使って、病気や地理的位置などに基づいて、患者をさまざまなグループに分けます。

倫理的およびプライバシーに関する示唆

ヘルスケアでデータを収集してアクセスする際に重要な倫理的およびプライバシー上の影響がある場合があることを強調する必要があります。大きなデータの新しいソースは、個人や人口の健康にどのような影響を及ぼすのかの理解を向上させることができますが、異なるリスクを慎重に検討し、監視する必要があります。以前は匿名とみなされていたデータを再識別することができることも認識されています。例えば、HarvardのData Privacy LabのLatanya Sweeney教授は、Personal Genome Projectに参加している1,130人のボランティアをレビューしました。彼女と彼女のチームは、彼らが共有した情報（郵便番号、生年月日、性別）に基づいて参加者の42％を正確に名付けることができました。この知識は潜在的なリスクに対する意識を高め、より良いデータ共有の意思決定を助けることができます。

> 出典：

> Conway M、O'Connor D.ソーシャルメディア、大きなデータ、およびメンタルヘルス：現在の進歩と倫理的影響。 心理学における現在の意見 2016; 9：77-82。

> Fernandes L、O'Connor M、Weaver V.大きなデータ、より大きな成果。 米国健康情報管理協会のジャーナル 2012; 83（10）：38-43

> Guntuku S、Yaden D、Kern M、Ungar L、Eichstaedt J. ソーシャルメディアにおけるうつ病と精神疾患の検出：統合的レビュー。 行動科学における現在の意見 2017; 18：43-49。

> Lazer D、Kennedy R、King G、Vespignani A. Googleインフルの寓話：ビッグデータ分析のトラップ 科学 2014; 343（6176）：1203-1205。

> Raghupathi W、Raghupathi V.ヘルスケアにおける大きなデータ分析：約束と効力。 健康情報科学とシステム 2014; 2：3。

> Sweeney L、Abu A、Winn J. 名前による個人ゲノムプロジェクトの参加者の特定。 ハーバード大学。 データプライバシーラボ ホワイトペーパー1021-1。 2013年4月24日