午夜免费福利小电影,欧美日韩国产首页,亚洲国产精品av -->

國產(chǎn)大模型推理能力已超GPT-3.5!沖進(jìn)OpenAI評(píng)測榜第一梯隊(duì)

海外模型

2023年09月18日

鏈接已復(fù)制

  本文來自于微信公眾號(hào) 量子位 (ID:QbitAI),作者:唐璜 。

  OpenAI開源的數(shù)學(xué)數(shù)據(jù)集,中國廠商新成績一舉沖到最前列!

  就在9月16日,國產(chǎn)大模型在權(quán)威推理評(píng)測集GSM8K中,首次達(dá)到了80%正確率,大幅領(lǐng)先GPT-3.5(57.1%)和LLaMA2-70B(56.8%)。

  而且這家廠商在大模型榜單上刷新全球紀(jì)錄,已經(jīng)不是第一次了。

  它背后的公司在風(fēng)起云涌的大模型技術(shù)江湖中,也頻頻被提及,越來越受關(guān)注。

  不賣關(guān)子,它正是天工大模型,由昆侖萬維打造。

  怎么做到的?具體來看。

  大模型推理能力Benchmark躋身前列

  天工大模型這次一戰(zhàn)成名的,是大模型數(shù)學(xué)推理能力評(píng)測基準(zhǔn),GSM8K。

  GSM8K由OpenAI發(fā)布,是一個(gè)涵蓋8500個(gè)小學(xué)水平高質(zhì)量數(shù)學(xué)題的數(shù)據(jù)集,設(shè)計(jì)原則有四:

  高質(zhì)量、高多樣性、中等難度和自然語言解決方案。

  所以這家伙現(xiàn)在一般被用做測試各家大模型推理能力的Benchmark。

  上個(gè)月,微軟和中國科學(xué)院聯(lián)合發(fā)布了一項(xiàng)關(guān)于WizardMath的研究結(jié)果,主要在GSM8K和另一個(gè)常見數(shù)學(xué)基準(zhǔn)上測試了市面上主流開閉源大模型的性能。

  閉源模型上,拿下最高分的是GPT-4,正確率92%;GPT-3.5的正確率為57.1%。

  開源模型這邊,不同參數(shù)規(guī)模的LLaMA-2最高正確率56.8%,最高分則被微軟的WizardMath-70B拿走,正確率81.6%。

  那么,天工大模型的成績?cè)趺礃?

  正確率80%。

  這個(gè)成績,比目前最強(qiáng)數(shù)學(xué)垂域開源模型的WizardMath-70B低了1.6%,與ChatGPT、540B參數(shù)的PaLM-2幾乎持平。

  并且大幅超過GPT-3.5和各個(gè)規(guī)模的LLaMA2。

  同時(shí)在小米公開的中文數(shù)學(xué)測試集Cmath上,天工大模型平均準(zhǔn)確率為76.8%(ChatGPT74.8%)。

  為了做個(gè)驗(yàn)證,按照慣例,天工大模型和GPT-3.5面臨了來自GSM8K測試集的英文同題考驗(yàn)。

  Round one

  問:每天,Wendi給每只雞喂三杯混合雞飼料,其中包括種子、黃粉蟲和蔬菜,以幫助它們保持健康。她分三餐給雞喂食。上午,她給雞群喂15杯飼料。下午,她再給雞喂25杯飼料。

  如果Wendi有20只雞,那么一天的最后一餐,她需要給雞喂多少杯飼料?

  天工大模型答,一天的最后一餐中要喂20杯飼料,才能確保雞崽子們一天都吃飽。

  GPT-3.5答,Wendi需要在一天的最后一餐中給雞崽子們喂21杯飼料。

  OK,這一局,GPT-3.5輸了。

  Round two

  問:道費(fèi)爾姐妹帶著從動(dòng)物收容所領(lǐng)養(yǎng)的7只小貓開車回家時(shí),媽媽打來電話,告訴她們家里的兩只貓剛生了小貓。媽媽說,Patchy貓貓生了三倍于被領(lǐng)養(yǎng)數(shù)量的小貓,而另一只Trixie貓貓生了12只。

  現(xiàn)在道費(fèi)爾一家一共有多少只小貓?

  天工大模型答,當(dāng)然是有40只小貓啦~

  GPT-3.5答,道費(fèi)爾一家現(xiàn)在共有33只小貓。

  看來第二局還是天工大模型贏了。

  Round3

  問:巨龍高坐在法爾博山上,向1000英尺范圍內(nèi)的任何東西瘋狂噴火。波莉可以將壓制巨龍的武器投擲400英里,但當(dāng)她拿著藍(lán)寶石時(shí),能比不拿寶石時(shí)把標(biāo)槍扔得遠(yuǎn)三倍。

  如果拿著寶石,波莉能站在龍焰射程之外多遠(yuǎn)的地方,用金標(biāo)槍擊中龍?

  天工大模型給出的解題思路如下,并且生成答案為200英尺。

  GPT-3.5給出的解題思路也擺在這,最后答案也是200英尺。

  這次二位打成了平局。

  但是可以看到,相比GPT-3.5,天工大模型的解題思路更簡單直接,解題步驟也更少更短。

  一般來說,目前主流大模型們最近不太流行公開評(píng)測結(jié)果,但昆侖萬維放話了:

  雖然現(xiàn)在還是內(nèi)測階段,但天工大模型這次不僅對(duì)外公布了評(píng)測結(jié)果,還宣布后續(xù)會(huì)部署上線基座,供用戶體驗(yàn)。

  更重要的是,天工大模型允許研究人員、開發(fā)者申請(qǐng)API,對(duì)上述結(jié)果進(jìn)行驗(yàn)證。

  PS申請(qǐng)方法:

  提供“姓名”“手機(jī)號(hào)”“所屬機(jī)構(gòu)/單位”,發(fā)送至官方郵箱neice@kunlun-inc.com進(jìn)行申請(qǐng)。

  若通過,三個(gè)工作日內(nèi)將收到回復(fù)郵件,內(nèi)含測試API及相關(guān)信息。

  (截止時(shí)間為9月27日0點(diǎn)) 多個(gè)榜單躋身前列

  除了GSM8K,另一個(gè)推理評(píng)測基準(zhǔn)HumanEval,以及兩個(gè)通識(shí)評(píng)測基準(zhǔn)MMUL、C-Eval上,天工大模型也有出色表現(xiàn)。

  HumanEval同樣出自O(shè)penAI,是OpenAI為了評(píng)估Codex模型的有效性而創(chuàng)建的數(shù)據(jù)集。

  通過這個(gè)數(shù)據(jù)集,研究人員可以對(duì)Codex模型進(jìn)行評(píng)估,并了解其在代碼生成方面的準(zhǔn)確性和效果。

  在這個(gè)數(shù)據(jù)集上,天工大模型成績是37.2%。

  MMLU是UC伯克利等打造,集合了科學(xué)、工程、數(shù)學(xué)、人文、社會(huì)科學(xué)等領(lǐng)域的57個(gè)科目。

  其主要目標(biāo),是對(duì)模型的英文跨學(xué)科專業(yè)能力進(jìn)行深入測試。天工大模型的成績是65%。

  C-EVAL評(píng)測基準(zhǔn)由上海交大、清華以及愛丁堡大學(xué)聯(lián)合創(chuàng)建,是一個(gè)面向中文語言模型的綜合考試評(píng)測集,覆蓋了52個(gè)來自不同行業(yè)領(lǐng)域的學(xué)科。

  天工大模型的得分為65,超過了GPT-3.5的54.4的成績。

  成績亮眼的天工大模型,發(fā)布在今年4月。

  其AI生成能力可滿足文案創(chuàng)作、知識(shí)問答、代碼編程、邏輯推演、數(shù)理推算等多元化需求。

  4月發(fā)布,9月能取得醬紫的成績,昆侖萬維是怎么飼養(yǎng)天工大模型這匹黑馬的?

  先拿模型實(shí)力來說話。

  這是一個(gè)雙千億大模型(指天工擁有千億預(yù)訓(xùn)練基座模型和千億RLHF模型。),目前版本最高支持1萬字以上文本對(duì)話,實(shí)現(xiàn)20輪次以上用戶交互。

  二者的“強(qiáng)強(qiáng)聯(lián)手”之下,天工大模型的優(yōu)勢便凸顯了出來。

  而模型層之外,為大模型積攢實(shí)力的無外乎算法、算力、數(shù)據(jù)三大件。

  算法層方面,天工大模型也有自己的秘籍。

  通常來說,市面上大模型們普遍采用Transformer架構(gòu)。在此基礎(chǔ)上,天工團(tuán)隊(duì)首次引入了蒙特卡洛搜索樹算法(AlphaGo背后也是這算法)。

  再說天工大模型背后的算力,基于中國最大的GPU集群之一。

  強(qiáng)勁算力鼎力支持的,是天文數(shù)字版的數(shù)據(jù)量——按照借助“開源力量”的策略,天工從數(shù)十萬億的數(shù)據(jù)中,最終清洗、篩選出了近3萬億單詞的數(shù)據(jù)。

  現(xiàn)在,天工大模型在推理、通識(shí)多個(gè)榜單開花,可以想見因?yàn)楸澈笏懔Α⑺惴ā?shù)據(jù)扎實(shí)儲(chǔ)備,天工大模型擁有的已經(jīng)不是模型規(guī)模優(yōu)勢,技術(shù)創(chuàng)新和推理性能方面,也有了新突破。 國產(chǎn)大模型繞不過的狠角色

  其實(shí),推理能力大幅超過GPT-3.5和LLaMA2,已經(jīng)不是昆侖萬維攜天工大模型第一次拿成績炸場。

  不久之前,天工大模型多模態(tài)團(tuán)隊(duì)的Skywork-MM用了大約50M的圖文數(shù)據(jù),以遠(yuǎn)小于其他大模型的數(shù)據(jù)量(>100M),登頂了多模態(tài)榜單。

  昆侖萬維另一則引得眾人矚目的新聞,是AI大牛顏水成的加入。

  他出任天工智能聯(lián)席CEO、2050全球研究院院長,將在新加坡、倫敦、硅谷三地建立2050全球研究院的研究中心,并逐步開展幾個(gè)領(lǐng)域的研究:

  下一代Foundation Model的基礎(chǔ)研究和研發(fā);

  Agent的研發(fā)和智能體進(jìn)化的研究;

  生物智能等前沿技術(shù)領(lǐng)域的探索。

  顏水成道出加盟昆侖萬維的原因:

  在通用人工智能領(lǐng)域,從研究、研發(fā)到產(chǎn)品是完整的鏈條,缺一不可,只有將三者完全打通,研究才能發(fā)揮最大價(jià)值。

  在國內(nèi),能將研究、研發(fā)、產(chǎn)品三線合一的平臺(tái)少之又少,昆侖萬維布局了AI大模型、AI動(dòng)漫、AI社交、AI游戲、AI搜索和AI音樂六大方向,同時(shí)昆侖萬維的核心業(yè)務(wù)面向全球市場,其能力矩陣和生態(tài)系統(tǒng)非常具有想象空間。

  大模型潮流,浩浩蕩蕩。

  今年以來國產(chǎn)大模型的發(fā)展勢頭迅猛,吸引越來越多的人才加入其中,由此助力各家大模型不斷地迭代升級(jí),涌現(xiàn)出更強(qiáng)大的能力,適配更廣泛的應(yīng)用場景。

  昆侖萬維在大模型的變革中,戰(zhàn)略重視,動(dòng)作頻頻,而且也有業(yè)務(wù)場景。

  可以不夸張地說一句,昆侖萬維和它家的天工大模型,已經(jīng)是大模型江湖中,一個(gè)繞不過去的狠角色了。

海報(bào)生成中...

+1

來源:微信公眾號(hào)量子位

延展資訊

最新新聞

熱門新聞

狠狠色综合网站久久久久久久| 国产精品毛片大码女人| 高清亚洲成在人网站天堂| 国产一区二区三区四区在线| 欧美日韩国产色视频| 无码人妻精品一区二区蜜桃网站| 激情六月婷婷久久| 国产成人综合av| 亚洲欧美自拍视频| 亚洲桃花岛网站| 美女被到爽高潮视频| 色8久久精品久久久久久蜜| 成人免费观看视频在线观看| 26uuu成人网一区二区三区| 久久久久网址| 免费成人在线观看视频| 国产在线观看一区二区三区| 国产精品久久影视| 久久久亚洲成人| 午夜婷婷在线观看| 精品国产视频在线| 久久精品一区二区三| 日韩电影在线观看永久视频免费网站| 黄色网址在线视频| 欧美乱妇一区二区三区不卡视频| 91亚洲一区二区| 亚洲成人激情自拍| 日韩精品―中文字幕| 中文在线一区二区| 黑人巨茎大战欧美白妇| 久久精品人人爽人人爽| 7777在线视频| 亚洲国产成人私人影院tom| 国产成人一二三区| 国产精品麻豆欧美日韩ww| 国产一区二区片| 中文字幕欧美一| 国产v片免费观看| 亚洲女人的天堂| 免费大片在线观看| 精品国产乱码久久久久久天美| 国产又大又黄又猛| 色94色欧美sute亚洲13| 亚洲天堂av网站| 欧美一区二区高清| 欧洲性xxxx| 夜夜嗨av色一区二区不卡| 国产一级一片免费播放放a| 中文国产成人精品久久一| 久久午夜免费视频| 韩国一区二区电影| 亚洲精品一级片| 97免费高清电视剧观看| 激情成人综合网| 日本在线视频一区| 久久久久久久国产精品影院| 国产综合中文字幕| 欧美午夜视频一区二区| 中文在线永久免费观看| 日韩风俗一区 二区| 国产在线综合网| 性色av一区二区三区免费| 亚洲国产精品二区| 精品蜜桃传媒| 久久精品人人爽人人爽| 中文字幕国产传媒| 91精品国产综合久久福利软件 | 这里只有精品视频在线| 亚洲成熟少妇视频在线观看| 国产精品中文在线| 国产91精品欧美| 欧美爱爱视频免费看| 色拍拍在线精品视频8848| 国产又黄又粗视频| 欧美黑人性猛交| 玖玖玖国产精品| 天天做天天爱天天高潮| 精品久久久视频| 一级片黄色录像| 97av在线播放| 国产真实乱子伦精品视频| 日本一级黄视频| 色综合色综合色综合色综合色综合| 人妻av无码一区二区三区| 欧美乱大交xxxxx| 视频一区二区三区中文字幕| 精品91一区二区三区| 欧美性xxxxx极品娇小| 亚洲一级理论片| 91干在线观看| 国产不卡在线播放| 国产色视频在线播放| 亚洲精品久久久一区二区三区| 精产国品一区二区| 国产呦系列欧美呦日韩呦| 18成人在线视频| 免费在线观看你懂的| 久久欧美在线电影| 国产精品一区在线| 做a视频在线观看| 一区二区在线免费视频| 性xxxx视频| 日韩欧美一区三区| 亚洲第一精品夜夜躁人人爽| 国产精品无码在线播放| 亚洲在线不卡| 欧美狂野另类xxxxoooo| 一级片免费在线播放| 欧美国产一二三区| 一区二区三区在线免费观看视频 | 伦伦影院午夜日韩欧美限制| 精品一区二区日韩| 日本中文字幕二区| 欧美超级乱淫片喷水| 黄色资源网久久资源365| 欧美精品性生活| 日韩在线免费高清视频| 精品一二三四区| 毛片毛片毛片毛| 欧美另类极品videosbest最新版本| 久久国产精品免费| 思思久久精品视频| 国色天香2019中文字幕在线观看| aaa亚洲精品一二三区| 久久久国产精品无码| 热久久这里只有精品| 欧美激情自拍偷拍| 永久免费未视频| 91影院未满十八岁禁止入内| 婷婷中文字幕综合| 国产精品成人无码| 91黄色在线看| 中文字幕欧美日韩精品| 国产福利一区二区三区视频| 国产精品无码在线| 91久久精品美女| 欧美日韩在线免费观看| 一区精品在线观看| 少妇高潮毛片色欲ava片| 国产亚洲欧洲高清| 成人午夜伦理影院| 国产jjizz一区二区三区视频| 国产一区欧美二区三区| 亚洲成人777| 在线视频你懂得| 鲁一鲁一鲁一鲁一澡| 久热99视频在线观看| 91麻豆福利精品推荐| 国产一区第一页| 欧美日韩免费观看一区| 精品久久久久久亚洲综合网| 蜜桃久久久久久| 中文字幕 日本| 91视频免费在线观看| 欧美日韩午夜精品| 日韩精品一级二级| 亚洲久久久久久| 国产伦精品一区二区三区照片91| 欧美老女人第四色| 黄页视频在线91| 国产在线免费看| 一个色的综合| 久久久91精品国产| 亚洲美女在线一区| 999免费视频| 在线观看网站黄| 91情侣偷在线精品国产| 51午夜精品国产| 久久国产免费看| 日本黄色特级片| 欧美国产视频在线观看| 国产亚洲视频在线| 国产精品视频麻豆| 国产又粗又猛又爽又黄视频| www.超碰97.com| 亚洲自拍小视频免费观看| 日韩欧美国产综合一区| 丰满亚洲少妇av| 国产在线观看免费av| 黄色一级视频在线播放| 日本精品免费一区二区三区| 91国偷自产一区二区开放时间| 日韩电影免费在线| 天天鲁一鲁摸一摸爽一爽| 一区二区三区四区五区精品| 欧美激情精品久久久久久| 亚洲成a人片综合在线| 久久综合婷婷| 四虎永久免费在线| 日本福利视频在线| 成人精品视频99在线观看免费| 日韩女优av电影| 国产色综合久久| 国产xxxx孕妇| 日本理论中文字幕| 日韩黄色片在线| 国产情人节一区| 日韩电影中文字幕一区| 亚洲黄色片在线观看| 成人久久精品人妻一区二区三区| 亚洲无人区码一码二码三码的含义| 日本道在线视频| 国产精品久久久久久婷婷天堂| 日韩一区二区免费电影| 国产欧美一区在线| 熟妇人妻中文av无码| 成人黄色a级片| 黄色免费视频大全| 国产精华一区二区三区| 久热精品视频在线| 欧美日本在线观看| 国产亚洲欧美激情| 亚洲av激情无码专区在线播放| 亚洲一级二级片| 一女二男3p波多野结衣| 神马影院一区二区| 欧美在线一区二区视频| 亚洲精品国产电影| 午夜国产不卡在线观看视频| 国产精品一级黄| 国产精品怡红院| 91久久国产综合| www.桃色.com| 欧美—级高清免费播放| 久久久久亚洲av无码专区 | 欧美私人情侣网站| 久久一区精品| 操日韩av在线电影| 亚洲成色www.777999| 久久久国产精品人人片| 色哟哟中文字幕| 色欧美片视频在线观看| 国产91在线播放九色快色| 亚洲综合婷婷久久| 二区三区四区视频| 性猛交xxxx乱大交孕妇印度| 中国丰满人妻videoshd| 久久亚洲国产成人精品性色| 欧美日韩精品在线视频| 国产精品av在线播放| 国产又粗又猛又爽又黄| 奇米影视一区二区三区| 美女网站色91| 精品国产户外野外| 91精品视频一区| 国产伦精品一区二区三区视频网站| 4438成人网| 91成人在线观看喷潮蘑菇| 亚洲精品菠萝久久久久久久| 在线观看17c| 韩日欧美一区二区三区| 国产一区欧美二区三区| 少妇影院在线观看| 国产精品欧美一区二区三区| 深夜福利国产精品| 一级黄色电影片| 国产在线精品免费| 午夜精品视频网站| 五月激情五月婷婷| 日本激情一区二区| 日韩av综合中文字幕| 中文字幕一区二区三区乱码| 日韩高清一区二区| 91免费综合在线| 国产第100页| 日韩成人性视频| 国产色综合天天综合网| 91国内精品久久| 亚洲一区视频在线播放| 欧美一级日韩免费不卡| 噜噜噜在线视频| 色妞www精品视频| 一区二区三区|亚洲午夜| 亚洲网站在线免费观看| 国产精品狼人久久影院观看方式| 99在线观看| 欧美 亚洲 另类 激情 另类| 亚洲欧美国产制服动漫| 制服诱惑一区| www.日本在线观看| 亚洲色图日韩av| 中文字幕一区二区三区人妻电影| 91精品国产综合久久福利| 欧美午夜精品一区二区| 国产一区二区不卡在线 | 欧美精品色一区二区三区| 国产成人精品av| 91丨porny丨在线中文 | 亚洲精品电影久久久| 亚洲图片小说视频| 国产女精品视频网站免费| 韩国一区二区在线观看| 中文有码久久| 亚洲特黄一级片| 男人天堂1024| 久久一二三国产| 中文字幕久久一区| 国产精品视频久久久久久| 久久福利视频网| 国产精品第72页| 永久免费看mv网站入口亚洲| 怡红院一区二区三区| 成人一区二区视频| 久久手机精品视频| 欧美福利第一页| 国产亚洲激情在线| 中文字幕在线观看高清| 欧美极品美女视频网站在线观看免费| 熟女少妇a性色生活片毛片| 欧美一区二区三区免费观看视频| 国产乱淫av片杨贵妃| www.爱爱.com| 国产精品一区二区性色av| 久久 天天综合| 日韩精品国内| 亚洲妇女屁股眼交7| 美女视频久久久| 国产精品99久久久久久www | 亚洲成人a**站| 国产精品99无码一区二区| 在线播放91灌醉迷j高跟美女 | 毛片视频网站在线观看| 国外成人在线直播| 国产三级第一页| 国产日韩亚洲欧美| 欧美日韩在线视频播放| 国产视频综合在线| 麻豆91精品91久久久| 777午夜精品福利在线观看| 久久久午夜电影| 国产成人a亚洲精v品无码| 亚洲一区二区在线观看视频| 亚洲天堂av网站| 亚洲国产精品成人精品| 一女被多男玩喷潮视频| 色婷婷综合五月| 手机免费观看av| 欧美成人剧情片在线观看| 天堂中文在线观看视频| 亚洲一级片免费| 91大神福利视频在线| 亚洲欧美日韩国产手机在线| 久久久久久激情| 久久久av网站| 波多野结衣大片| 666精品在线| 99久久99久久久精品棕色圆| 亚洲自拍三区| 香港成人在线视频| 亚洲美女在线播放| 欧美成人性战久久| 色在线观看视频| 久久噜噜噜精品国产亚洲综合| 亚洲av无码乱码国产麻豆| 国产午夜福利视频在线观看| 亚洲人成电影在线播放| 少妇高潮一区二区三区69| 免费成人看片网址| 欧美日韩亚洲一区二| 中文字幕第四页| 日韩国产精品视频| 精品美女久久久久| 久久精品五月婷婷| 欧美日韩黄色大片| 中文无码av一区二区三区| 人妻无码一区二区三区四区| 不卡伊人av在线播放| 亚洲国产一二三| 日本不卡视频在线| 日韩一卡二卡在线观看| 中文视频一区视频二区视频三区| www国产精品com| 91小视频在线| 国产一线在线观看| 国产精品美女久久| 国产一二精品视频| 午夜一区二区三区免费| 日韩av电影在线网| 99国产精品久| 午夜成人亚洲理伦片在线观看| 91国产一区在线| 久久只有精品| 欧美性受黑人性爽| 欧美丰满美乳xxx高潮www| 国产成人精品一区二| 精国产品一区二区三区a片| 国产精品污www一区二区三区| 亚洲精品成人少妇| 国产精品久久久久久在线| 激情综合网婷婷| 91久久爱成人| 亚洲成人自拍偷拍| 中日韩一级黄色片| 综合视频免费看| 欧美精品一本久久男人的天堂| 国内精品在线播放| 亚洲综合视频在线播放| 国产真实乱人偷精品人妻| 国产精品一区二区羞羞答答| 亚洲高清视频一区| 国产精品国产精品国产专区不卡| 最近2019中文字幕mv免费看| 欧美日韩视频在线| 国产精品丝袜在线| 国模私拍视频在线| 日韩人妻无码精品综合区| 久久久久久99| 精品视频在线视频| 免费成人在线观看| 久久久久亚洲天堂|