超級計算加速了深度學習培訓

2019-06-24 11:26:11 編輯：來源：

導讀來自加州大學伯克利分校，加州大學戴維斯分校和德克薩斯高級計算中心(TACC)的一組研究人員發表了一項研究結果，旨在利用超級計算機的力量訓

來自加州大學伯克利分校，加州大學戴維斯分校和德克薩斯高級計算中心(TACC)的一組研究人員發表了一項研究結果，旨在利用超級計算機的力量訓練深度神經網絡(DNN)的圖像迅速認識。

研究人員在TACC 的Stampede2超級計算機上有效地使用了1024個Skylake處理器，在11分鐘內完成了與AlexNet的100-epoch ImageNet培訓 - 這是迄今為止記錄的最快時間。使用1600個Skylake處理器，他們還在32分鐘內完成了使用ResNet-50的90年代ImageNet培訓，擊敗了Facebook的先前結果，對于批量超過20,000的批次，他們的準確性遠高于Facebook的。(近年來，ImageNet基準測試 - 一種專為圖像識別研究而設計的可視化數據庫 - 在評估DNN培訓的不同方法方面發揮了重要作用。)

在Stampede2上使用512個Intel Xeon Phi芯片，他們在24分鐘內完成了100個紀元的AlexNet，并在60分鐘內完成了90個紀元的ResNet-50。

“這些結果表明，使用先進的計算資源，如TACC，以及大型小批量啟用算法，以交互方式和分布式方式訓練深度神經網絡的潛力，”TACC研究科學家趙章說。領先的超級計算中心。“鑒于我們龐大的用戶群和巨大的容量，這將對科學產生重大影響。”

他們于2017年11月在Arxiv上公布了他們的結果。

DNN培訓系統實現了最先進的“前1”測試準確度，這意味著模型應答(概率最高的那個)的情況的百分比恰好是預期的答案。使用ResNet-50(微軟開發的卷積神經網絡贏得了2015年ImageNet大規模視覺識別競賽并超越了ImageNet數據集中的人類表現)，他們實現了超過75%的準確率 - 與Facebook和亞馬遜的批量培訓水平相當。在這項工作中，將數據的批量大小縮放到32,000只會損失0.6%的前1精度。

相對較慢的訓練速度會影響科學的速度，以及研究人員愿意探索的那種科學。谷歌的研究人員指出，如果培訓神經網絡需要一到四天的時間，研究人員認為這是可以容忍的。如果需要一到四周，該方法將僅用于高價值實驗。如果需要一個多月，科學家們甚至都不會嘗試。如果研究人員能夠在喝咖啡休息期間完成培訓過程，那么它將顯著提高他們的生產力。

該小組的突破涉及層智能自適應速率調整(LARS)算法的開發，該算法能夠有效地將數據分發到多個處理器，以使用比批量大小更多的項目(最多32,000個項目)同時進行計算。

LARS在一個前向/后向傳遞中包含更多訓練示例，并根據從前一次迭代中收集的度量自適應地調整神經網絡的每一層之間的學習速率。

由于這些變化，他們能夠利用Stampede2上提供的大量Skylake和Intel Xeon Phi處理器，同時保持準確性，而以前的大批量方法則不然。

“對于深度學習應用程序，更大的數據集和更大的模型可以顯著提高準確性，但代價是延長培訓時間，”加州大學伯克利分校數學與計算機科學教授James Demmel說。“使用LARS算法，由Y. You與B. Ginsburg和I. Gitman在NVIDIA實習期間共同開發，使我們能夠保持準確度，即使批量為32K。這種大批量的尺寸使我們能夠有效地使用分布式系統，并在1024 Skylake處理器上使用AlexNet在11分鐘內完成ImageNet培訓，這是對先前結果的重大改進。

這些發現顯示了使用專用硬件(GPU，Tensor Flow芯片，FPGA或其他新興架構)進行深度學習的趨勢的替代方案。該團隊編寫了基于Caffe的代碼，并使用了支持多節點培訓的Intel-Caffe。

深度神經網絡的訓練階段通常是深度學習中最耗時的部分。直到最近，由加州大學伯克利分校領導的團隊完成的過程將花費數小時或數天。快速分布式培訓的進步將影響科學的速度，以及研究人員可以用這些新方法探索的科學類型。

該實驗是TACC更廣泛努力的一部分，用于測試CPU硬件在深度學習和機器學習應用程序和框架(包括Caffe，MXNet和TensorFlow)中的適用性。

TACC的專家展示了在使用resNet-50處理器將Caffe擴展到1024個Skylake處理器時，該框架的運行效率約為73%，比單個Skylake處理器快750倍。

“使用商用HPC服務器在大量數據集上快速訓練深度學習算法是測量和模擬研究的強大新工具，”TACC數據密集計算總監Niall Gaffney說。“通過不必在專用硬件系統之間遷移大型數據集，減少了數據驅動發現的時間，并且可以顯著提高整體效率。”

隨著研究人員和科學學科越來越多地使用機器和深度學習從大規模實驗和模擬數據集中提取見解，擁有能夠處理這種工作量的系統非常重要。

最近的研究結果表明，現在可以通過Stampede2等國家先進的計算資源向開放科學界提供此類系統。

標簽：深度學習培訓