(活動取消, 因應武漢肺炎疫情) 2020.3.26 (meet mentor) 知識圖譜應用於醫療決策,itri巨資中心,張博士

  • 活動起始:2020-03-26 00:00:00
  • 活動結束:2020-03-26 13:00:00
  • 活動地點:協會會址
  • 活動地址:協會

活動取消!!!

 3/26 itri 巨資中心,張博士, 知識圖譜應用於醫療決策 交流活動

 

因應疫情日益嚴峻,經會長指示我們不得已只能忍痛先暫停所有活動!!!

真的非常抱歉!

待疫情緩解,

我們定會馬上再安排時間。

懇請見諒!

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

目前的小型活動如下,非常歡迎大家參與,請隨時聯繫 Lillian。

3/26 
itri 巨資中心,
張博士
知識圖譜應用於醫療決策

 

活動聯繫窗口:  

T: 0911-216119 (Lillian) | E: lillian@tinva.org
T: 03-5912128 (Tammy) | E: tammy@tinva.org

 

****************************************************************

AI構建知識圖譜,醫學“連連看”揭示癥狀與疾病的關係

 2020年01月17日 15:46:06  發表評論  1047 views  

摘要

知識圖譜(Knowledge Graph)是谷歌(Google)在2012年提出的概念,具體指支持從

知識圖譜(Knowledge Graph)是谷歌(Google)在2012年提出的概念,具體指支持從語義角度組織網路數據,從而提供智能搜素服務的知識庫,能夠進一步查詢複雜的關聯信息,從語義層面理解用戶意圖,改進搜索質量。

 

顯然,健康知識圖譜(health knowledge graphs)便是專門應用於健康領域的知識庫。傳統構建的方法是由臨床專家手工編輯而成,費時又費力。最近,麻省理工學院人工智慧實驗室(CSAIL, MIT)和貝斯以色列女執事醫療中心(BIDMC)的一項聯合研究中表明,研究人員從患者數據中自動生成了圖譜,揭示了癥狀與疾病之間的關係,可幫助臨床診斷,研究結果還得出了如何提升整體系統性能的方法

 

AI構建知識圖譜,醫學「連連看」揭示癥狀與疾病的關係

圖片來源:Pixabay

 

在健康知識圖譜中,通常會分布著數百個節點,每個節點代表不同的疾病和癥狀。就像遊戲連連看那樣,線條代表著疾病與癥狀的關係,會將代表著某種疾病的癥狀準確連接。簡單舉個例子來說,糖尿症與過度口渴之間會被連接起來。與我們通常認知的AI預測某類疾病不一樣,知識健康圖譜則是通過學習疾病與癥狀的關係來進行臨床輔助決策。

 

該團隊長期研究健康知識圖譜在不同疾病、不同患者群體中的表現。首先,他們採用了27萬多名患有近200種疾病和770多種癥狀的患者數據,對模型進行訓練,而後基於這些真實數據他們還對現有的一些知識圖譜進行評估。

 

AI構建知識圖譜,醫學「連連看」揭示癥狀與疾病的關係

圖片來源:Pixabay

接下來,他們分析驗證了一些現有的演算法是如何「抓取」電子健康記錄(EHR)的數據,進而優化其演算法,使其能自動學習癥狀與疾病之間的相關模式。經測試,研究人員發現,對於某年齡階段患者比例高、或是單一性別患者比例高的疾病,現有模型進行關聯的能力差強人意。不過,這一缺點,可通過為演算法選擇更匹配的數據來改進。

 

這樣的分析驗證過程能規範、指導研究人員提供更具匹配度的數據集、以及建立性能更優的演算法。對於醫生來說,強大的知識圖譜讓他們如虎添翼,進行決策和診斷時,能發現更多癥狀與疾病的新聯繫。

 

AI構建知識圖譜,醫學「連連看」揭示癥狀與疾病的關係

圖片來源:Pixabay

隨後,研究人員要做的是進行嚴格的錯誤分析,來確定模型對哪些特定患者和疾病的治療效果不佳。他們將數據集分成疾病和癥狀的亞群,進而來觀察知識圖譜中癥狀-疾病聯繫性。經測試,研究結果被分成50種表現最差和50種表現最好的疾病。諸如心律不齊、足底筋膜炎等不分性別、年齡且常見的疾病在圖譜中的關聯性表現較好,而類似於前列腺癌、多囊卵巢綜合征等受性別因素限制的疾病以及一些罕見病的表現則較差

總結來說,對於幾乎所有疾病來說,具有Noisy OR(NOR)模型的圖譜性能最好。不過也存在缺點,若病人患有多種疾病和伴有多樣癥狀、或是其年齡偏大或偏小,演算法性能還是會有所下降,結果不具絕對性。

研究人員由此推斷:疾病-癥狀關聯模型表現不佳與疾病罕見程度以及一些混雜因素造成。這也就使得現有的知識圖譜很難將特定癥狀與特定疾病精準聯繫起來。

AI構建知識圖譜,醫學「連連看」揭示癥狀與疾病的關係

圖片來源:Pixabay

 

最後,研究人員試圖通過分類混雜因素,改善這些性能不足的癥狀-疾病聯繫模型。通常來說,機器學習模型在接受訓練的過程中,數據集越多越好,且數據越規整越好,這樣模型才會做出最具關聯繫性的判斷和預測。

 

於是,基於27萬名患者就診數據,研究人員提取了其中14,804位患者的完整EHR信息,並分成3個不同維度的數據集,分別是:每個患者的完整記錄為一個數據點(共計14,804個點集)、每個不同來源的醫療注釋(診斷記錄等)為單個數據點(共計740萬條醫療注釋)、每個連續30天及以上接受過診療的患者的「治療記錄」為單個數據點(共計140萬篇治療記錄)。

 

直觀地說,通過更全面數據劃分回顧了患者的患病歷史,形成多種數據集會為模型帶來更高的判斷準確性。基於這樣的推論,研究人員將常見的人口統計數據應用到知識譜圖中,模型正確地在預測前列腺癌時候排除了女性患者的可能,從而減少了混雜因素導致的誤差。

 

 

未來,研究人員則希望基於目前的發現,進而建立一個更有用的、強大的、適用於臨床環境的癥狀-疾病關聯性預測模型。同時他們認為,目前現有的關於疾病的預測模型以及健康知識圖譜都應接受更多「壓力測試」,以保證其優良性能。

 

本文由葯明康德AI整理編譯

來源:news.mit.edu