Facebook研究人員構建了一個數據集來訓練個性化對話代理

2019-06-10 17:32:21 編輯：來源：

導讀 Facebook的研究人員最近編制了一個包含500萬個人物角色和7億個基于人物角色的對話的數據集。該數據庫可用于訓練端到端對話系統，從而在計算

Facebook的研究人員最近編制了一個包含500萬個人物角色和7億個基于人物角色的對話的數據集。該數據庫可用于訓練端到端對話系統，從而在計算機代理和人類之間產生更具吸引力和豐富的對話。

對話系統或會話代理(CA)是設計用于通過文本，語音，圖形或其他方法以連貫的方式與人類通信的計算機系統。到目前為止，已經發現基于神經架構的對話系統(例如LSTM或存儲器網絡)在實現流暢的通信方面特別有前途，特別是在直接對話對話日志時。

“他們的主要優勢之一是他們可以依靠現有對話的大型數據源來學習覆蓋各種領域而無需任何專業知識，”研究人員在他們的論文中寫道，該論文已預先發布在arXiv上。“然而，另一方面，他們也表現出有限的參與度，特別是在閑聊環境中：他們缺乏一致性，并且不會像(甚至部分)腳本聊天機器人那樣利用主動參與策略。”

在最近的一項研究中，蒙特利爾學習算法研究所(MILA)和Facebook AI的另一組研究人員創建了一個名為PERSONA-CHAT 的數據集，其中包括與文本配置文件或人物角色相關聯的代理之間的對話。他們發現，針對特定角色培訓對話系統可以提高他們對互動的參與度。

“然而，PERSONA-CHAT數據集是使用基于Mechanical Turk的人工數據收集機制創建的，”研究人員在他們的論文中解釋道。“因此，對話框和人物角色都不能完全代表真實的用戶 - 機器人交互，數據集覆蓋范圍仍然有限，包含超過1k個不同的角色。”

為了解決以前編譯的數據集的局限性，Facebook研究人員創建了一個新的，大規模的基于角色的對話數據集，由從在線平臺Reddit中提取的對話組成。他們的研究通過使用更具代表性的互動，使他們的前輩的工作更進一步。

“在本文中，我們使用以前從Reddit中提取的對話構建了一個非常大規模的基于角色的對話數據集，”研究人員寫道。“通過簡單的啟發式方法，我們創建了一個超過500萬個角色的語料庫，涵蓋超過7億個對話。”

為了評估其有效性，研究人員在他們新開發的數據集上訓練了基于人物的端對端對話系統。受過數據集培訓的系統能夠進行更具吸引力的對話，優于其他在培訓期間無法訪問人物角色的會話代理。

有趣的是，他們的數據集導致了最先進的結果，即使對話系統只是在其上進行了預訓練。將來，這些發現可能會導致更具吸引力的聊天機器人的發展，這些聊天機器人也可以個性化和訓練以獲得特定的角色。

研究人員寫道：“我們表明，訓練模型可以將答案與作者的角色和背景相結合，從而提高預測性能。” “由于預訓練可以帶來相當大的性能提升，未來的工作可以為各種對話系統微調這個模型。”

標簽： Facebook

免責聲明：本文由用戶上傳，如有侵權請聯系刪除！

本站除標明“本站原創”外所有信息均轉載自互聯網版權歸原作者所有。

郵箱：toplearningteam#gmail.com (請將#換成@)

欧美日韩激情电影,久久亚洲精品毛片,日日夜夜天天综合入口,亚洲激情六月丁香