2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ 備案號:
本站除標明“本站原創”外所有信息均轉載自互聯網 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)
在 Open AI新論文中指出:新訓練出的一個模型,通過對每個正確推理步驟進行獎勵(過程監督)來提高解決數學問題的水平,與之前的結果監督有很大的區別。這種方式最大的一個好處是能夠直接訓練模型產生被人類認可的思維鏈。

過程監督可以為思維鏈中的每一步提供反饋,而且打造的機器人性能提升的也很明顯。過程監督比結果監督有幾個對齊優勢,在生成的過程中,對每一步都可以做到精確化的監督,能夠有效的獎勵模型,遵循與人類一致的思維鏈。產生可以解釋的推理,希望會更大。之前采用的結果監督模型在處理復雜問題的時候很容易出現錯誤判斷或者產生幻覺,難以理解解決問題的整個過程。過程監督則會驗證每一個思維過程,確保出現的結果都是正確的。
2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ 備案號:
本站除標明“本站原創”外所有信息均轉載自互聯網 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)