化學家利用人工智能預測化學反應的未來

2023-01-15 11:34:18 編輯：朱苑飄來源：

導讀 A BartonHepburn化學教授AbigailDoyle帶領來自普林斯頓大學和默克公司的一組研究人員開發了最先進的軟件來預測最多四種組分變化時的反應產

A.BartonHepburn化學教授AbigailDoyle帶領來自普林斯頓大學和默克公司的一組研究人員開發了最先進的軟件來預測最多四種組分變化時的反應產量。他們的軟件旨在處理任何底物上的任何反應，使其成為加速新藥合成的強大工具。

為了制造藥物，化學家必須找到正確的化學物質組合來制造必要的化學結構。這比聽起來更復雜，因為典型的化學反應使用幾種不同的成分，并且涉及的每種化學物質都為計算增加了另一個維度。

德里克·阿內曼

DerekAhneman，2017年博士研究生，提議使用機器學習來模擬反應產率，同時修改四種不同的反應成分，這是一項比一次修改一個變量困難得多的努力。“一開始，我們就知道要克服許多挑戰，”他說。“我們甚至不確定這是否可能。”

在理想情況下，化學家希望預測哪種化學品組合能夠提供最高產率的產品并避免意外副產品或其他損失，但事實證明，預測這些多維反應的結果具有挑戰性。

耶穌埃斯特拉達

Doyle實驗室的研究生JesúsEstrada完成了使用“隨機森林”機器學習方法預測化學產量的軟件開發。

由普林斯頓大學A.BartonHepburn化學教授AbigailDoyle和默克研究實驗室的SpencerDreher領導的一組研究人員找到了一種方法，可以通過應用人工智能稱為機器學習。他們已將他們的方法轉化為軟件，供其他化學家使用。他們于2月15日在《科學》雜志上發表了他們的研究。

“我們開發的軟件旨在適應任何反應或底物類型，”Doyle說。“這個想法是讓某人應用這個工具，并希望在它的基礎上進行其他反應。”

她說，大量的資源和時間被花費在制造合成分子上，而且通常是以一種臨時的方式。使用這種新軟件，化學家可以更便宜、更高效地識別化學品和底物的高產組合。

“我們希望這將成為加速新藥合成的寶貴工具，”完成化學博士學位的DerekAhneman說。2017年在Doyle的實驗室工作，并在IBM工作。

“其中許多機器學習算法已經存在了很長一段時間，”Doyle實驗室的研究生JesúsEstrada說，他為這項研究和論文做出了貢獻。“然而，在合成有機化學界，我們確實還沒有利用機器學習提供的令人興奮的機會。”

“作為化學家，我們傳統上偏離了多維分析，”Doyle說。“我們一次只看一個變量，或者一系列底物的一組條件。”

當Ahneman告訴Doyle他想使用機器學習來解決多維問題時，她鼓勵了他。“我總是——尤其是對我最有才華的學生——試著讓他們在博士的最后一年自由發揮，”她說。“這是他向我提出的項目。”

Doyle和Ahneman著手在修改四種反應成分的同時模擬反應產率，這比一次修改一個變量要困難得多。

“一開始，我們就知道需要克服許多挑戰，”Ahneman說。“我們甚至不確定這是否可能。”

他說，從歷史上看，開發多維模型的一個障礙是收集足夠的反應產率數據以建立有效的“訓練集”。但最近，默克公司發明了機器人系統，可以在幾天內運行數千次反應。

“我很高興我們一起生成的數據質量非常高，而且他們能夠創建有效的模型，”默克化學能力和篩選部門的首席科學家Dreher說。“希望我們可以繼續開發這種方法，并減少我們對篩選的依賴，從而更快地制造出我們需要的設計分子。”

另一個挑戰是計算每種化學物質的定量描述符以用作模型的輸入。這些描述符通常是一個一個地計算出來的，這對于他們想要使用的大量化學組合來說是不切實際的。

他們通過編寫使用現有程序Spartan的代碼來計算并提取模型中使用的每種化學物質的描述符，從而克服了這一限制。

一旦他們有了定量描述符，他們就嘗試了幾種統計方法。首先，他們使用行業標準線性回歸，但發現它無法準確預測反應產率。然后，他們探索了多種常見的機器學習模型，發現一種稱為“隨機森林”的模型提供了驚人準確的產量預測。

隨機森林模型的工作原理是從訓練數據集中隨機選擇小樣本，并使用該樣本構建決策樹。然后，每個單獨的決策樹預測給定反應的產率，然后將結果在樹中取平均值以生成總體產率預測。

當研究人員發現使用隨機森林時，另一個突破出現了，“可以使用'僅'數百個反應(而不是數千個)的結果準確預測反應產率，這是一個沒有機器人的化學家可以自己完成的數字，”Ahneman說。

“Doyle教授和她的合作者以巧妙的方式應用人工智能來解決簡單線性模型無法很好處理的問題，”威斯康星大學麥迪遜分校數學和生物化學教授JulieMitchell說，她并未參與該項目。這個調查。“在化學空間中，微小的變化會產生戲劇性的結果，而這種現象可以更好地被他們的隨機森林模型捕捉到。”

Doyle的團隊還發現，隨機森林模型可以預測未包含在訓練集中的化合物的產量。

“所使用的技術完全是最先進的，”巴黎科學與文學大學計算生物學中心的機器學習研究員Chloé-AgatheAzencott說，他沒有參與這項研究。“論文中的相關圖非常好，我認為我們可以設想在未來依賴這些預測，這將限制對昂貴的實驗室實驗的需求。”

“這些結果令人興奮，因為它們表明這種方法可用于預測從未制造過起始材料的反應的產率，這將有助于最大程度地減少制造費時的化學品的消耗，”Ahneman說。“總的來說，這種方法有望(1)使用尚未制成的起始材料預測反應的產率，以及(2)預測與已知起始材料和產物反應的最佳條件。”

Ahneman完成學位后，Estrada繼續研究。Doyle說，我們的目標是創建不僅像Ahneman和Estrada這樣的計算機專家而且更廣泛的合成化學社區都可以訪問的軟件。

她解釋了該軟件的工作原理：“你畫出結構——起始材料、催化劑、堿——軟件將找出所有這些結構之間的共享描述符。那是你的輸入。結果是反應的產率。機器學習將所有這些描述符與產量相匹配，目標是你可以放入任何結構，它會告訴你反應的結果。

“我們的想法是幫助人們在無法憑直覺判斷結果的多維空間中導航，”Doyle說。

DerekAhneman、JesúsEstrada、ShishiLin、SpencerDreher和AbigailDoyle的論文“使用機器學習預測C-N交叉偶聯的反應性能”于2月15日發表在《科學》雜志上。普林斯頓大學、安進青年研究者獎和Camille-Dreyfus教師學者獎提供了財政支持。

標簽：

免責聲明：本文由用戶上傳，如有侵權請聯系刪除！

本站除標明“本站原創”外所有信息均轉載自互聯網版權歸原作者所有。

郵箱：toplearningteam#gmail.com (請將#換成@)

欧美日韩激情电影,久久亚洲精品毛片,日日夜夜天天综合入口,亚洲激情六月丁香