<var id="ll75r"><acronym id="ll75r"><strike id="ll75r"></strike></acronym></var>
  • <table id="ll75r"></table>
      1. <input id="ll75r"><output id="ll75r"></output></input><input id="ll75r"><output id="ll75r"></output></input>
        1. <var id="ll75r"></var>
              1. 創業頭條
              2. 前沿領域
              3. AI智能
              4. 正文

              歷時400多天,國產大模型全面趕超GPT-4?

               2024-05-10 13:56  來源:A5專欄  我來投稿 撤稿糾錯

                域名預訂/競價,好“米”不錯過

              稍微留意下近期的新聞,“趕超GPT-4”正在成為國產大模型的新熱點。

              百度文心一言、商湯日日新以及阿里云剛剛發布的通義千問2.5,均已邁入“全面趕超GPT-4”陣營。

              把時間線稍微拉長一些的話,過去大半年時間里,“超越GPT-4”的消息可謂屢見不鮮,即使在報道中刻意加上了多項基準、部分指標等前綴,依然賺足了眼球,成為國產大模型佐證自身能力的有力指標。

              簡單做個復盤的話,國產大模型對GPT-4的追趕已經進行了400多天,其中“趕超進程”可以粗分為三個階段。

              第一階段:部分性能超越GPT-4

              2023年3月14日,OpenAI正式推出了GPT-4,彼時大多數國產大模型還未開放,少數內測大模型的比較對象還是GPT-3。作為業界標桿的GPT-4,就像是科幻照進了現實,被無數人捧上神壇。

              但在短短半年后,GPT-4就出現在了國產大模型廠商的比較名單里。

              2023年8月底,商湯科技對外公布了一則新進展:擁有1230億個參數的“書生·浦語”,在全球51個知名評測集共計30萬道問題集合上,測試成績排名全球第二,并在綜合考試agieval、知識問答commonsenseqa、閱讀理解和推理的十項評測中位列第一,分數超過風頭正盛的GPT-4。

              2023年10月17日的“生成未來”發布會上,百度正式發布了文心大模型4.0版本,李彥宏在現場依次演示了大模型的理解、生成、邏輯和記憶四大核心能力的特點與應用場景。盡管沒有給出評測數據,李彥宏卻自信地表示:文心大模型4.0的綜合水平,“與GPT-4相比毫不遜色”。

              國產大模型趕超GPT-4的序幕正式拉開,此后一兩個月里,不少大模型給了這樣的營銷口徑:整體能力已經不輸于GPT-3.5,并且在部分性能指標上開始超越GPT-4。

              第二階段:整體性能逼近GPT-4

              時間來到2024年初,國內的“百模大戰”進入收斂期,一些不被資本市場認可的大模型,漸漸成了一個數字,只有幾家科技大廠和獨角獸仍活躍在大模型一線。“活下來”的大模型,勢必要在能力上證明自己。

              綜合性能逼近GPT-4,開始成為新的營銷話術。

              2024年1月中旬的智譜AI技術開放日上,正式發布了新一代基座大模型GLM-4。按照智譜AI官方的說法:在權威的英文測試榜單中,GLM-4已經整體逼近GPT-4,平均能達到GPT-4 90%以上的水平,在個別項目上表現持平;而在國內企業更加看重的中文任務上,GLM-4的表現全面超過GPT-4。

              同樣是在2024年1月,科大訊飛發布了星火認知大模型V3.5,在邏輯推理、語言理解、文本生成、數學答題、代碼、多模態等核心能力均顯著提升,其中語言理解、數學能力已經超過GPT-4 Turbo,代碼能力達到GPT-4 Turbo 96%,多模態理解達到GPT-4V 91%。“在中文理解方面,甚至遙遙領先。”

              回頭來看,智譜AI和科大訊飛的營銷策略還是有些“保守”,百川智能在同一時間段發布的Baichuan 3,對外表示已經在CMMLU、GAOKAO等中文評測中超越GPT-4。

              第三階段:全面趕超GPT-4 Turbo

              2023年11月的OpenAI首屆開發者大會,GPT-4 Turbo可以說整個活動的焦點,不僅比GPT-4更聰明,文本處理的上限更高,推理的速度更快,價格也更便宜,國產大模型隨即迎來了新的比較對象。

              先是2024年4月份發布的日日新5.0,擁有6000億參數,并在發布會上引用了OpenCompass的評測數據:日日新5.0達到或超越了GPT-4 Turbo版本,幾乎全方位碾壓了同期發布的 Llama 3-70B。

              再然后就是阿里云剛剛發布的通義千問2.5,根據媒體報道中的說法:模型性能全面趕超GPT-4-Turbo,成為“地表最強”中文大模型;通義千問1100億參數開源模型在多個基準測評收獲最佳成績,超越Meta的Llama-3-70B,成為開源領域最強大模型。

              可以篤定的是,日日新5.0和通義千問2.5只是個開始,后續將有更多國產大模型在能力上超越GPT-4-Turbo。

              畢竟科大訊飛早已預熱了上半年發布星火認知大模型V4.0的消息,將全面對標GPT-4系列;文心一言4.0的發布已經超過半年,不排除新版本正在準備中,且大概率會在性能上再上一個臺階……

              “跑分”的意義在哪里?

              不管是一開始的“部分性能超越”,還是現在進行中的“全面趕超”,依據都是第三方評測結果,或者說大模型廠商的主觀判斷。比如商湯和阿里云爭相引用的OpenCompass,就是上海人工智能實驗室開源的大模型評測平臺。

              對于一些大模型沉迷于刷榜、跑分的現象,上海人工智能實驗室領軍科學家林達華教授曾在媒體采訪中直言:通過題海戰術提高大模型成績,對于模型實際能力的反應是失真的,影響了模型研發團隊的改進方向和模型的商業落地,“高分低能”傷害的是機構本身;榜單上任何具體的名字只是大模型成長過程中無數次測試中的一次,一時的排名高低并不真正反映模型的能力。

              何況很多大模型測試集為了公開透明,測試題目或者提綱都是公開的,大模型廠商不難通過“針對性的訓練”來提高分數。只要將足夠的的測試題喂給大模型,在開卷考試的機制下,分數總不會太低。

              也就是說,分數高并不一定代表大模型的能力強。“跑分”的意義僅僅是讓客戶或開發者對大模型能力有一個初步的認識,最終的評估因素永遠是“能不能解決問題”,“能不能在場景中帶來實實在在的生產力”。

              特別是在大模型走向落地應用的趨勢下,一味炒作“超越GPT-4”、“跑分第一”,妄顧落地應用的實效,可能會適得其反。以大模型應用中比較常見的財報分析為例,如果大模型連一家企業的財報都看不懂,再高的計算分數也不會讓客戶信服,反而會被排除在合作名單外。

              而參考中信證券等機構的研究報告,目前OpenAI的GPT-5正處于紅隊測試階段,有望在今年夏天正式發布,可能在多模態理解、長文本輸入、zero-shot學習等方面實現重大突破,且性能將遠超GPT-4。即使國產大模型花費400多天追平了GPT-4,在相當長一段時間里,仍將處于追趕的姿態。

              大模型的價值是解決日常問題的生產力工具,趕超GPT-4的階段性升級,可以看作是國產大模型有序迭代部署、不斷拉近差距的標志,切莫像手機跑分那樣,在過度營銷的作用下,淪為被群嘲的對象。

              申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!

              相關標簽
              大模型

              相關文章

              • 大模型爭霸的下一站:不僅是超越GPT-4,更是尋求模型之間的平衡應用

                文|智能相對論作者|沈浪知名科學雜志《Nature》發表了一篇關于大模型規模參數大小爭議的文章《InAl,isbiggeralwaysbetter?》——AI大模型,越大越好嗎?隨著大模型應用走向實踐,這一問題不可避免地成為了當前AI行業發展的焦點與爭議。有人認為,大模型當然是越大越好,參數越大,性

                標簽:
                大模型
              • 解密Kimi:大模型應用當紅頂流是如何練成的?

                拋開營銷戰,或許在中國也可以探索新的大模型應用聚合方式、供給方式以及商業利潤分配的方式,對大模型公司來說,這將是一個新議題。

                標簽:
                大模型
              • 大模型的現在進行時:走出對話框,走向產業端

                大模型熱潮涌動了一年多后,越來越多人平復了激動的情緒,開始從客觀的視角重新思考大模型的價值和機會。紅杉資本在AlAscent2024的開場演講中提到,大模型的創造能力和推理能力,第一次實現了以類似人類的方式進行交互,將支撐起數十萬億美元的市場。然而和AGI的遙遠夢想相比,大模型的創業者們卻不得不正視

                標簽:
                大模型
              • 李彥宏放話:百度AI大模型絕不搶開發者飯碗

                關注盧松松,會經常給你分享一些我的經驗和觀點。昨晚,李彥宏內部講話稱:AI大模型開源意義不大,百度絕不搶開發者飯碗。但你一定要說話算話哦,可千萬別說:“我永遠不做手機,誰再敢提做手機就給我走人”,結果5年后自己的手機銷量排名第一。如果百度也這么干的話估計AI也沒人用了。李彥宏認為:從商業模式的角度來

                標簽:
                大模型
              • 360 AI員工“紅衣”入職事業部 承擔多項安全運營工作

                近日,科技巨頭360公司宣布,其全新AI員工“紅衣”正式入職事業部,標志著公司向智能化、自動化方向邁出了堅實的一步。據悉,“紅衣”由360安全大模型支持,具備高度智能化和自主學習能力,能夠在多個領域提供高效、精準的服務?!凹t衣”是首位正式入職的數字安全專家,由360安全大模型支持,在安全運營工作中,

                標簽:
                大模型
              • 生產力工具中的“六邊形戰士”:解密海螺AI“紅海突圍”的底氣

                2023年可以說是人工智能行業最振奮的一年,大模型的能力每隔一段時間就會上一個新臺階,洶涌澎湃的技術革命迅速影響著每一個人的生活,AGI不再是一種技術理想,而是觸手可及的現實。到了2024年,人工智能的熱度不減,但口口相傳的“百模大戰”并未上演。資本市場罕見地“降溫”,不少大模型悄無聲息地消失,有機

              • 谷歌發布多模態大模型重回領先,中國大模型誰能一戰

                多模態是AI大模型發展的未來方向。

                標簽:
                谷歌
                大模型
              • 大模型“黑洞”能否逆襲成盈利“金礦”?揭秘未來走向!

                ChatGPT運行日耗70萬美金!GPT-4訓練成本破10億美金大關!OpenAI2024年財務警鐘敲響,破產風險浮現!國產大模型燒錢大戰升級!百度、科大訊飛、阿里、騰訊等巨頭已燒掉上百億資金!大模型背后的“燒錢”豪賭,誰能笑到最后?降低成本大模型成本怎么降低?有兩條比較實用的路徑大模型背后的成本確

              • 百度文心智能體有什么用、怎么創建和如何使用?

                前言:這是白楊SEO公號原創第530篇。為什么寫這個?一個星期多前在白楊流量匯群看到有人問,自己實戰測試研究了下分享給大家,也許對大家有點用。本文大綱:1、百度智能體是什么?2、百度智能體有什么用?3、百度智能體怎么創建?4、百度智能體如何用(營銷)?百度智能體是什么?百度智能體,準確的叫法應該是百

                標簽:
                百度文心
              • 通義千問GPT-4級主力模型降價97%,1塊錢200萬tokens

                C114訊5月21日消息(九九)阿里云今天拋出重磅炸彈:通義千問GPT-4級主力模型Qwen-Long,API輸入價格從0.02元/千tokens降至0.0005元/千tokens,直降97%。這意味著,1塊錢可以買200萬tokens,相當于5本《新華字典》的文字量。這款模型最高支持1千萬toke

              • OpenAI發布GPT-4o 能讀取人類情緒

                近日,OpenAI宣布推出其最新旗艦生成式AI模型GPT-4o。相較于GPT-4Trubo,GPT-4o速度更快、價格也更便宜據悉,ChatGPT可以讀取人類的情緒,但讀取過程有一點困難。OpenAI,是一家位于美國舊金山的人工智能研究公司,現由營利性公司OpenAILP及非營利性母公司OpenAI

                標簽:
                chatgpt

              編輯推薦