2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ 備案號:
本站除標明“本站原創”外所有信息均轉載自互聯網 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)
數據對于建立偉大的人工智能至關重要 - 在工業革命期間,該領域的研究人員將其與煤炭進行了比較。擁有它的人將會前進。那些沒有的人將被遺忘。在當前的人工智能熱潮中,很明顯誰擁有它:谷歌,Facebook和百度等科技巨頭。

這是令人擔憂的消息。畢竟,這些公司中的許多公司在搜索和社交媒體等領域幾乎都處于壟斷地位。他們的位置幫助他們收集數據,這有助于他們建立更好的AI,這有助于他們保持領先于競爭對手。對于公司本身而言,這是一個良性循環,但如果沒有可行的競爭,公司可以 - 并且確實 - 濫用其主導地位。
現在,來自Mozilla(Firefox瀏覽器的非營利性創建者)的一個新項目正在試驗數據壟斷的替代方案,要求用戶匯集信息以便為開源AI計劃提供支持。該公司的第一個項目名為Common Voice,Mozilla要求志愿者捐贈聲音樣本,以建立一個開源語音識別系統,如為Siri和Alexa提供支持。
Mozilla新興技術副總裁肖恩懷特告訴The Verge,“目前,控制語音識別的能力最終只能在少數人手中,我們不希望看到這一點。” 他說要獲取數據,大公司“只能過濾掉所有內容”,但對于其他玩家來說,還需要其他方法。“對我們來說,有趣的問題是,我們能做到這一點,以便創建數據的人也受益嗎?”他問道。
目前,Mozilla正在收集數據,但計劃在今年年底之前提供開源語音識別功能。(它會進入Firefox瀏覽器嗎?懷特不會說,但補充說:“我們已經計劃了一些實驗。”)目前,任何人都可以通過讀出來到Common Voice網站并“捐贈”他們的聲音例句。他們還可以提供年齡,地點,性別和口音等傳記信息。懷特說,這些信息將有助于Mozilla避免偏見創建其語音識別系統,并確保該技術可以處理重音 - 谷歌和蘋果仍在努力解決這個問題。
Privacy International的研究員Frederike Kaltheuner表示,這些公司經常使用人工智能作為挖掘有價值的個人數據的“借口”,告訴用戶它將使他們能夠改善某些服務。她說,這可能是真的,但是為整個社會分享這些數據的后果不太清楚。“你們作為一個公民需要的東西與那個公司的利益之間存在著根本性的利益沖突,”Kaltheuner說。
那么像Common Voice這樣的計劃如何引誘用戶遠離現有的 - 并且無可否認的方便 - 服務?畢竟,開源項目比互聯網存在的時間更長,但除少數例外,它們無法與商業產品競爭。他們根本不提供類似的服務。
對于Mozilla來說,答案是個性化。畢竟,雖然針對人口規模的數據集進行過培訓的人工智能系統往往對普通人來說足夠好,但在滿足較小群體或未在其數據中表示的群體的需求時往往會失敗。(通常情況下,數據偏向于白人男性,業界默認。)
“為了讓我們在數據共享方面獲得成功,除了意識到有一天他們一直在泄露他們所有的個人數據之外,必須有一種動機[對于用戶而言],”懷特說。“我們必須讓他們的體驗更好,因為他們已經參與。”在Common Voice的情況下,White想要盡可能多的重音數據來改善這些人的語音識別。“我們希望系統能夠更好地為您工作,因為您的一些數據包含在內,”他說。
提供個性化以換取數據是一個很好的主張,但對于那些打擊數據壟斷的人來說,它并不是一顆銀彈。首先,大公司可以向用戶提供他們自己的類似報價。(“Alexa不理解你?閱讀這個10分鐘的劇本,我們將改進其語音識別。”)或者他們可以花錢來填補他們自己的數據集中的空白。例如,谷歌讓第三方公司向Redditors支付口音,以記錄他們自己的語音樣本。
White承認Common Voice項目對許多這些問題沒有答案,但Mozilla仍然致力于開放數據的核心原因。“這感覺就像一場真正的民主化活動,”他說。并且有很多組織都有這種精神。有機器學習社區Kaggle,它有大量用戶貢獻的數據集供AI科學家使用; Elon Musk資助的OpenAI,開放其所有工作; 和Healthcare.ai,發布免費使用的醫療算法。其中一些人在銷售他們自己的商業產品(如自動駕駛汽車初創公司Comma.AI)時共同分享開源數據和研究。
盡管我們每天與之互動的人工智能系統都建立在專有數據基礎之上,但是整個世界的研究人員和機構都在發布有用的,如果是基本的開源替代方案。
然而,要將這些項目提升到新的水平,開源數據的支持者可能會擁有更高的權力來接管科技巨頭。深度學習公司Skymind的首席執行官Chris Nicholson表示,“我們可能需要第三方介入 - 非政府組織,政府,小型私營公司的聯盟 - 并匯總他們的數據。”Nicholson建議共享醫療保健數據可以改善醫療成像技術和駕駛員數據可以使自動駕駛汽車在路上更加自然和直觀。他說,分享這些類型的數據集“具有明顯的公共利益。”
那么,捐出你的聲音可能只是一個開始。
2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ 備案號:
本站除標明“本站原創”外所有信息均轉載自互聯網 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)