強化學習(RL)和因果推理都是機器學習不可缺少的組成部分,在人工智能中都發揮著至關重要的作用。 最初促使我整合這兩者的是機器學習在醫療保健和醫學領域的最新發展。 2020.12.20
回顧過去,人類自出生以來就不可避免地伴隨著疾病,並為追求健康而不懈地與疾病作鬥爭。 近幾十年來,機器學習的蓬勃發展促進了醫療保健領域的革命性發展:一些人工智能係統在癌症分類[1]、癌症檢測[8]、糖尿病視網膜病變檢測[3]、致盲性視網膜疾病 診斷[7]等方面已經接近甚至超過了人類專家。 得益於計算能力和能力的持續激增,人工智能(AI)無疑將幫助重塑醫學的未來。 想像一下這樣的場景:在未來,每個人都有一個個性化的人工智能醫生在自己的桌子上,記錄著他們從出生開始的所有病歷數據。 根據個人的醫療數據,可以提前預測和預防個人的死亡,或至少及時治愈,這在很大程度上可以延長人的預期壽命。
然而,目前成功應用於上述醫療問題的方法僅僅是基於關聯而不是因果關係。 在統計學中,人們普遍認為關聯在邏輯上並不意味著因果關係[10,12]。 關聯與因果之間的關係由萊辛巴赫·[14]將其形式化為著名的共同原因原理:如果兩個隨機變量{X}和{Y}在統計學上是相互依存的,那麼下面的 一個因果解釋必須成立:a) {X}導致{Y};b) {Y}導致{X};c)存在一個隨機變量{Z},它是引起{X}和{Y}的共同原因。 因此,與關聯相比,因果關係更進一步,探索變量之間更本質的關係。 因果推理的中心任務是揭示不同變量之間的因果關係。 理解一個系統的因果結構將使我們具備以下能力:(1)預測如果某些變量被干預會發生什麼;(2)評估影響干預及其結果[9]的混雜因素的影響;(3)使我們 能夠預測以前從未觀察到的情況的結果。 如果我們將醫學中的治療視為乾預,將治療效果視為結果(例如,理解藥物對患者健康的影響,評估未觀察到的混雜因素對治療和患者總體福祉的影響,評估患者疾病的不同治療 的存活率,等等),這些能力正是醫療保健所需要的,但大多數現有的方法尚未具備。 這就是為什麼因果關係在開發真正智能的醫療保健算法中扮演著關鍵角色。
在因果推理中實施干預概念的一個自然想法是利用RL中的動作概念[17,2]。 更具體地說,agent可以根據其當前狀態,通過採取不同的行動(干預)來觀察環境狀態的變化,並獲得即時的回報(結果)。 然而,agent的目標是最大化預期累積報酬,這表明RL本身不具備進行因果推理的能力。 因此,因果推理通過推斷狀態之間或狀態與動作之間的因果關係,如減少狀態或動作空間,處理混淆,進而幫助RL更高效、更有效地學習價值函數或策略。 可見因果關係與強化學習是互補的,可以從因果關係的角度加以整合,從而促進兩者的發展。
為此,我們建議將因果推理整合到RL中,使RL能夠在復雜的現實醫學問題中推斷數據之間的因果效應。 利用這兩方面的優勢,我們可以根據未觀察到的對患者健康的混雜因素的存在來評估治療的真正實際效果,並在與患者互動的過程中進一步找到最佳的治療策略。 以敗血症為例,敗血症是一種危及生命的疾病,當身體對感染的反應導致自身組織和器官受損時就會出現,它是重症監護病房死亡的主要原因,每年給醫院造成數十億[ 13]的損失。 在解決敗血症治療策略方面,RL通常將所測量的生理參數,包括人口統計、實驗室值、生命體徵和攝入/輸出事件[6,13]視為指導患者進一步治療和劑量的狀態。 然而,在這一過程中可能不可避免地會有一些未被觀察到的混雜因素對治療策略產生重大影響,這在目前的RL框架內很難處理。 幸運的是,我們可以利用因果推理來解決這個問題,評估潛在的隱性混雜因素對治療和患者健康的影響,從而相應地調整治療策略。
事實上,回顧科學史,人類總是以一種類似因果強化學習(causal reinforcement learning,因果RL)的方式前進。 更具體地說,人類從與大自然的互動中總結出規則或經驗,然後利用這些經驗來提高自己在下一次探索中的適應能力。 因果關係RL所做的就是模擬人類行為,從與環境溝通的agent那裡學習因果關係,然後根據所學到的因果關係優化其策略。
我強調這個類比的原因是為了強調因果性RL的重要性,毫無疑問,它將成為人工通用智能(AGI)不可缺少的一部分,不僅在醫療保健和醫藥領域,而且在所有其他的RL場景中 都有巨大的潛在應用。 與RL相比,因果RL繼承了因果推理的兩個明顯優勢:數據效率和最小的變化。 眾所周知,RL算法非常需要數據。 相反,因果性RL不是由數據驅動的,因為因果圖是最穩定的結構,它由“必須擁有”關係組成,而不是由聯想圖中的“nice-to-have”關係組成。 換句話說,只要存在因果關係,他們就不會受到數據的影響,不管影響有多大。 從因果推理的角度來看,一旦我們知道了因果結構,我們就可以不需要或只需要很少的實驗就可以回答大量的干涉性和反事實性問題,這將大大減少我們對數據的依賴。 例如,如果事先提供了一些關於行為的因果知識,或者可以從最初的實驗中學到一些知識,那麼行為空間就會按指數方式縮小。 另一個吸引人的特性是最小變化,我指的是當環境或領域發生變化時,只有最小的(條件)分佈集會發生變化。 從因果的觀點來看,假設條件的不變性是有意義的,如果條件代表因果機制[4,15,10]。 直觀上,因果機制可以被看作是物理世界的屬性,就像牛頓的運動定律,它不取決於我們給它餵食什麼。 如果輸入發生了變化,其因果機制仍保持不變[5,11]。 然而,反因果方向的條件將受到輸入[6]的影響。 因此,當環境發生變化時,因果關係的RL將發生最小的變化。 事實上,最小更改的一個直接好處是數據效率,因為代理可以將它們從一個環境學到的不變的因果知識轉移到另一個環境,而不需要從頭學習。
參考鏈接:
https://causallu.com/2018/12/31/introduction-to-causalrl/