UC伯克利LLM排行榜 GPT-4穩(wěn)居榜首 30億參數(shù)位列開(kāi)源第一名

2023-06-24 18:37:26 編輯：?jiǎn)斡谘约? 來(lái)源：

導(dǎo)讀近日，備受各界關(guān)注的伯克利LLM排行榜再次更新了，Chat gpt-4在這份榜單中仍舊是排列在榜首的位置，Gpt-3.5僅僅排列在他的后面。由該團(tuán)隊(duì)...

近日，備受各界關(guān)注的伯克利LLM排行榜再次更新了，Chat gpt-4在這份榜單中仍舊是排列在榜首的位置，Gpt-3.5僅僅排列在他的后面。由該團(tuán)隊(duì)發(fā)布的最新參數(shù)大模型Vicuna則沖到了第五名的位置，以330億參數(shù)成為了眾多開(kāi)源模型中最好的成績(jī)，領(lǐng)先微軟華人團(tuán)隊(duì)開(kāi)發(fā)的300億參數(shù)模型。這一次排行榜不僅加入了更多的新模型，而且還加入了兩個(gè)全新的評(píng)價(jià)標(biāo)準(zhǔn)。

從各項(xiàng)數(shù)據(jù)中來(lái)看，GPT-3.5、Claude-v1和Claude-instant-v1這幾個(gè)模型的排行簡(jiǎn)直是很難分出高低，而且在得分上咬的十分緊，甚至在某些得分領(lǐng)域，都有著互相反超的趨勢(shì)，和這些專(zhuān)有模型相比。一些開(kāi)源模型則是有著比較明顯的差距，比如谷歌的開(kāi)源模型就落后眾多開(kāi)源模型，在評(píng)估人類(lèi)偏好的時(shí)候，傳統(tǒng)的基準(zhǔn)測(cè)試通常是在封閉式的問(wèn)題中完成測(cè)試，并且會(huì)提供一些簡(jiǎn)潔的輸出作為評(píng)價(jià)依據(jù)。

這家來(lái)自UC伯克利的團(tuán)隊(duì)在這一次的排行中增加了一項(xiàng)新的基準(zhǔn)測(cè)試，競(jìng)技場(chǎng)的具體評(píng)價(jià)機(jī)制是基于收到的42000個(gè)匿名投票，并且采用elo評(píng)價(jià)機(jī)制完成評(píng)分，這一方法已經(jīng)經(jīng)過(guò)了驗(yàn)證，是一個(gè)精心測(cè)試的基準(zhǔn)測(cè)試功能。其中是包含了80個(gè)高質(zhì)量的多輪問(wèn)題，通過(guò)這些問(wèn)題，能夠評(píng)估模型在多輪對(duì)話中的遵循能力與對(duì)話流程能力，其中是包含了一些常見(jiàn)的日常使用場(chǎng)景，還添加了更多富有挑戰(zhàn)性的指令。

團(tuán)隊(duì)在最新的論文中還公布了一項(xiàng)系統(tǒng)研究，該研究的結(jié)果顯示，gpt-4這樣強(qiáng)大的評(píng)判者，在一致性上是超過(guò)了80%。這種一致性的水平已經(jīng)能夠和兩個(gè)人類(lèi)評(píng)判者中的一致性相媲美，基于chat gpt的評(píng)分能夠更好的去對(duì)其他的模型做出排名，而且可以和人類(lèi)偏好做出更好的匹配。如果使用得當(dāng)?shù)脑挘@種評(píng)論模型能夠作為人類(lèi)偏好發(fā)展的拓展解釋。