午夜免费福利小电影,欧美日韩国产首页,亚洲国产精品av

　　本文來自于微信公眾號(hào) 量子位 (ID:QbitAI)，作者:唐璜。

　　OpenAI開源的數(shù)學(xué)數(shù)據(jù)集，中國廠商新成績一舉沖到最前列!

　　就在9月16日，國產(chǎn)大模型在權(quán)威推理評(píng)測集GSM8K中，首次達(dá)到了80%正確率，大幅領(lǐng)先GPT-3.5(57.1%)和LLaMA2-70B(56.8%)。

　　而且這家廠商在大模型榜單上刷新全球紀(jì)錄，已經(jīng)不是第一次了。

　　它背后的公司在風(fēng)起云涌的大模型技術(shù)江湖中，也頻頻被提及，越來越受關(guān)注。

　　不賣關(guān)子，它正是天工大模型，由昆侖萬維打造。

　　怎么做到的?具體來看。

　　大模型推理能力Benchmark躋身前列

　　天工大模型這次一戰(zhàn)成名的，是大模型數(shù)學(xué)推理能力評(píng)測基準(zhǔn)，GSM8K。

　　GSM8K由OpenAI發(fā)布，是一個(gè)涵蓋8500個(gè)小學(xué)水平高質(zhì)量數(shù)學(xué)題的數(shù)據(jù)集，設(shè)計(jì)原則有四:

　　高質(zhì)量、高多樣性、中等難度和自然語言解決方案。

　　所以這家伙現(xiàn)在一般被用做測試各家大模型推理能力的Benchmark。

　　上個(gè)月，微軟和中國科學(xué)院聯(lián)合發(fā)布了一項(xiàng)關(guān)于WizardMath的研究結(jié)果，主要在GSM8K和另一個(gè)常見數(shù)學(xué)基準(zhǔn)上測試了市面上主流開閉源大模型的性能。

　　閉源模型上，拿下最高分的是GPT-4，正確率92%;GPT-3.5的正確率為57.1%。

　　開源模型這邊，不同參數(shù)規(guī)模的LLaMA-2最高正確率56.8%，最高分則被微軟的WizardMath-70B拿走，正確率81.6%。

　　那么，天工大模型的成績?cè)趺礃?

　　正確率80%。

　　這個(gè)成績，比目前最強(qiáng)數(shù)學(xué)垂域開源模型的WizardMath-70B低了1.6%，與ChatGPT、540B參數(shù)的PaLM-2幾乎持平。

　　并且大幅超過GPT-3.5和各個(gè)規(guī)模的LLaMA2。

　　同時(shí)在小米公開的中文數(shù)學(xué)測試集Cmath上，天工大模型平均準(zhǔn)確率為76.8%(ChatGPT74.8%)。

　　為了做個(gè)驗(yàn)證，按照慣例，天工大模型和GPT-3.5面臨了來自GSM8K測試集的英文同題考驗(yàn)。

　　Round one

　　問:每天，Wendi給每只雞喂三杯混合雞飼料，其中包括種子、黃粉蟲和蔬菜，以幫助它們保持健康。她分三餐給雞喂食。上午，她給雞群喂15杯飼料。下午，她再給雞喂25杯飼料。

　　如果Wendi有20只雞，那么一天的最后一餐，她需要給雞喂多少杯飼料?

　　天工大模型答，一天的最后一餐中要喂20杯飼料，才能確保雞崽子們一天都吃飽。

　　GPT-3.5答，Wendi需要在一天的最后一餐中給雞崽子們喂21杯飼料。

　　OK，這一局，GPT-3.5輸了。

　　Round two

　　問:道費(fèi)爾姐妹帶著從動(dòng)物收容所領(lǐng)養(yǎng)的7只小貓開車回家時(shí)，媽媽打來電話，告訴她們家里的兩只貓剛生了小貓。媽媽說，Patchy貓貓生了三倍于被領(lǐng)養(yǎng)數(shù)量的小貓，而另一只Trixie貓貓生了12只。

　　現(xiàn)在道費(fèi)爾一家一共有多少只小貓?

　　天工大模型答，當(dāng)然是有40只小貓啦～

　　GPT-3.5答，道費(fèi)爾一家現(xiàn)在共有33只小貓。

　　看來第二局還是天工大模型贏了。

　　Round3

　　問:巨龍高坐在法爾博山上，向1000英尺范圍內(nèi)的任何東西瘋狂噴火。波莉可以將壓制巨龍的武器投擲400英里，但當(dāng)她拿著藍(lán)寶石時(shí)，能比不拿寶石時(shí)把標(biāo)槍扔得遠(yuǎn)三倍。

　　如果拿著寶石，波莉能站在龍焰射程之外多遠(yuǎn)的地方，用金標(biāo)槍擊中龍?

　　天工大模型給出的解題思路如下，并且生成答案為200英尺。

　　GPT-3.5給出的解題思路也擺在這，最后答案也是200英尺。

　　這次二位打成了平局。

　　但是可以看到，相比GPT-3.5，天工大模型的解題思路更簡單直接，解題步驟也更少更短。

　　一般來說，目前主流大模型們最近不太流行公開評(píng)測結(jié)果，但昆侖萬維放話了:

　　雖然現(xiàn)在還是內(nèi)測階段，但天工大模型這次不僅對(duì)外公布了評(píng)測結(jié)果，還宣布后續(xù)會(huì)部署上線基座，供用戶體驗(yàn)。

　　更重要的是，天工大模型允許研究人員、開發(fā)者申請(qǐng)API，對(duì)上述結(jié)果進(jìn)行驗(yàn)證。

　　PS申請(qǐng)方法:

　　提供“姓名”“手機(jī)號(hào)”“所屬機(jī)構(gòu)/單位”，發(fā)送至官方郵箱neice@kunlun-inc.com進(jìn)行申請(qǐng)。

　　若通過，三個(gè)工作日內(nèi)將收到回復(fù)郵件，內(nèi)含測試API及相關(guān)信息。

　　(截止時(shí)間為9月27日0點(diǎn)) 多個(gè)榜單躋身前列

　　除了GSM8K，另一個(gè)推理評(píng)測基準(zhǔn)HumanEval，以及兩個(gè)通識(shí)評(píng)測基準(zhǔn)MMUL、C-Eval上，天工大模型也有出色表現(xiàn)。

　　HumanEval同樣出自O(shè)penAI，是OpenAI為了評(píng)估Codex模型的有效性而創(chuàng)建的數(shù)據(jù)集。

　　通過這個(gè)數(shù)據(jù)集，研究人員可以對(duì)Codex模型進(jìn)行評(píng)估，并了解其在代碼生成方面的準(zhǔn)確性和效果。

　　在這個(gè)數(shù)據(jù)集上，天工大模型成績是37.2%。

　　MMLU是UC伯克利等打造，集合了科學(xué)、工程、數(shù)學(xué)、人文、社會(huì)科學(xué)等領(lǐng)域的57個(gè)科目。

　　其主要目標(biāo)，是對(duì)模型的英文跨學(xué)科專業(yè)能力進(jìn)行深入測試。天工大模型的成績是65%。

　　C-EVAL評(píng)測基準(zhǔn)由上海交大、清華以及愛丁堡大學(xué)聯(lián)合創(chuàng)建，是一個(gè)面向中文語言模型的綜合考試評(píng)測集，覆蓋了52個(gè)來自不同行業(yè)領(lǐng)域的學(xué)科。

　　天工大模型的得分為65，超過了GPT-3.5的54.4的成績。

　　成績亮眼的天工大模型，發(fā)布在今年4月。

　　其AI生成能力可滿足文案創(chuàng)作、知識(shí)問答、代碼編程、邏輯推演、數(shù)理推算等多元化需求。

　　4月發(fā)布，9月能取得醬紫的成績，昆侖萬維是怎么飼養(yǎng)天工大模型這匹黑馬的?

　　先拿模型實(shí)力來說話。

　　這是一個(gè)雙千億大模型(指天工擁有千億預(yù)訓(xùn)練基座模型和千億RLHF模型。)，目前版本最高支持1萬字以上文本對(duì)話，實(shí)現(xiàn)20輪次以上用戶交互。

　　二者的“強(qiáng)強(qiáng)聯(lián)手”之下，天工大模型的優(yōu)勢便凸顯了出來。

　　而模型層之外，為大模型積攢實(shí)力的無外乎算法、算力、數(shù)據(jù)三大件。

　　算法層方面，天工大模型也有自己的秘籍。

　　通常來說，市面上大模型們普遍采用Transformer架構(gòu)。在此基礎(chǔ)上，天工團(tuán)隊(duì)首次引入了蒙特卡洛搜索樹算法(AlphaGo背后也是這算法)。

　　再說天工大模型背后的算力，基于中國最大的GPU集群之一。

　　強(qiáng)勁算力鼎力支持的，是天文數(shù)字版的數(shù)據(jù)量——按照借助“開源力量”的策略，天工從數(shù)十萬億的數(shù)據(jù)中，最終清洗、篩選出了近3萬億單詞的數(shù)據(jù)。

　　現(xiàn)在，天工大模型在推理、通識(shí)多個(gè)榜單開花，可以想見因?yàn)楸澈笏懔Α⑺惴ā?shù)據(jù)扎實(shí)儲(chǔ)備，天工大模型擁有的已經(jīng)不是模型規(guī)模優(yōu)勢，技術(shù)創(chuàng)新和推理性能方面，也有了新突破。國產(chǎn)大模型繞不過的狠角色

　　其實(shí)，推理能力大幅超過GPT-3.5和LLaMA2，已經(jīng)不是昆侖萬維攜天工大模型第一次拿成績炸場。

　　不久之前，天工大模型多模態(tài)團(tuán)隊(duì)的Skywork-MM用了大約50M的圖文數(shù)據(jù)，以遠(yuǎn)小于其他大模型的數(shù)據(jù)量(>100M)，登頂了多模態(tài)榜單。

　　昆侖萬維另一則引得眾人矚目的新聞，是AI大牛顏水成的加入。

　　他出任天工智能聯(lián)席CEO、2050全球研究院院長，將在新加坡、倫敦、硅谷三地建立2050全球研究院的研究中心，并逐步開展幾個(gè)領(lǐng)域的研究:

　　下一代Foundation Model的基礎(chǔ)研究和研發(fā);

　　Agent的研發(fā)和智能體進(jìn)化的研究;

　　生物智能等前沿技術(shù)領(lǐng)域的探索。

　　顏水成道出加盟昆侖萬維的原因:

　　在通用人工智能領(lǐng)域，從研究、研發(fā)到產(chǎn)品是完整的鏈條，缺一不可，只有將三者完全打通，研究才能發(fā)揮最大價(jià)值。

　　在國內(nèi)，能將研究、研發(fā)、產(chǎn)品三線合一的平臺(tái)少之又少，昆侖萬維布局了AI大模型、AI動(dòng)漫、AI社交、AI游戲、AI搜索和AI音樂六大方向，同時(shí)昆侖萬維的核心業(yè)務(wù)面向全球市場，其能力矩陣和生態(tài)系統(tǒng)非常具有想象空間。

　　大模型潮流，浩浩蕩蕩。

　　今年以來國產(chǎn)大模型的發(fā)展勢頭迅猛，吸引越來越多的人才加入其中，由此助力各家大模型不斷地迭代升級(jí)，涌現(xiàn)出更強(qiáng)大的能力，適配更廣泛的應(yīng)用場景。

　　昆侖萬維在大模型的變革中，戰(zhàn)略重視，動(dòng)作頻頻，而且也有業(yè)務(wù)場景。

　　可以不夸張地說一句，昆侖萬維和它家的天工大模型，已經(jīng)是大模型江湖中，一個(gè)繞不過去的狠角色了。