展望2025年,國產大模型已然超越了“百模大戰”的喧囂,正毅然邁向更深的探索領域。然而,一年之后,誰能在這場技術盛宴中穩坐牌桌,仍是一個充滿變數的謎團。百度、阿里、字節,這三張顯而易見的“明牌”,憑借其在算力、技術、數據三大硬指標上的全球領先地位,未來完全有潛力與GPT5一較高下。
與此同時,六小虎和DeepSeek等新興勢力雖來勢洶洶,但Scaling Law的失靈以及對“AI領軍者”光環的祛魅,或許將促使這些創業公司將精力聚焦于實際產生回報的商業化道路上,尋求與大廠差異化競爭的策略。
那么,2025年,AI應用將走向何方?被譽為AI應用元年的這一年,又有哪些方向值得我們滿懷期待呢?
01. 聚焦兩大方向
據彭博社報道,OpenAI在其發展規劃中,為通往人工智能通用智能(AGI)的道路設定了五個清晰階段。從第一階段的聊天機器人,到第二階段的推理者,再到第三階段的Agent——即能夠采取行動的系統,OpenAI一步步穩步前行。去年9月,OpenAI宣布開發了一系列新的AI模型,這些模型在復雜的推理任務上取得了重大進步,代表了人工智能能力的新水平。因此,OpenAI將這一系列模型命名為OpenAIo1,標志著其已進入通向AGI目標的第二階段。
隨著這些模型準確度的不斷提升,一個全新的產業方向正逐漸浮出水面:能夠代替用戶進行具體操作的Agent技術。這一技術的落地場景將遍布各類終端,智能助理將成為其中的佼佼者。想象一下,借助Apple Intelligence,Siri將能夠在Apple和第三方應用內及跨應用執行數百項新操作,如輕松調出閱讀列表中的文章或一鍵發送照片給朋友。這背后,需要模型具備強大的規劃能力,能夠準確調用第三方應用,并確保每一步操作的準確率都達到極致。
與此同時,OpenAI和谷歌DeepMind在multi agent研究領域的加速布局,也進一步預示著這一領域的研究和發展將迎來新的高潮。兩家公司均在官方網站上發布了multi agent研究團隊的招聘信息,吸引了眾多科研人才的關注。
而另一大產業方向,則是自動駕駛技術的持續加速。特斯拉作為全球自動駕駛龍頭,其FSD系統的每一次迭代都牽動著整個行業的神經。預計于2025年第一季度正式在中國與歐洲市場推出的FSD系統,將帶來接管率的提升、真·智能召喚功能的推送以及Cybertruck自動泊車功能的實現等一系列改進。特斯拉的快速迭代,無疑將加速全行業的技術進步,推動自動駕駛技術邁向新的高度。
在國內,華為也發布了ADS 3.0系統,并在鴻蒙智行享界S9車型上首發。該系統采用了全新端到端架構和全場景全天候智能硬件感知系統,實現了全向防碰撞3.0的超全感知、超快響應、超前驗證三大能力升級。同時,享界S9還首發了車位到車位的智駕功能,支持全場景貫通的智能駕駛體驗。銷量方面,鴻蒙智行連續蟬聯30萬元以上新能源車型月銷第一,充分驗證了其技術實力和市場接受度。
更令人振奮的是,據華為常務董事余承東透露,鴻蒙智行的“第四界”產品尊界已進入整車驗證階段,計劃于年底下線,明年上半年上市。這一消息無疑為自動駕駛技術的發展注入了新的動力。
國盛證券認為AI應用應關注三大方向:
1)算力側:寒武紀、中科曙光、海光信息、云賽智聯、軟通動力、中際旭創、新易盛、浪潮信息、工業富聯、神州數碼、協創數據、弘信電子、高新發展等。
2)端側 AI:立訊精密、東山精密、傳音控股、鵬鼎控股、中科創達、漫步者。
3)自動駕駛:華為智車:江淮汽車、賽力斯、長安汽車、北汽藍谷等;國內自動駕駛產業鏈:德賽西威、萬馬科技、中科創達、經緯恒潤、海天瑞聲、金溢科技、萬集科技、千方科技、鴻泉物聯等;特斯拉產業鏈:特斯拉、世運電路、三花智控、拓普集團等。
02. AI應用下一個催化劑是什么?
基于OpenAI的《Scaling Laws for Neural Language Models》論文,我們了解到,語言建模性能會隨著模型大小、數據集大小以及訓練計算量的增加而平穩提升。為了達到最佳性能,這三個因素必須同時擴展,且當其中一個因素不受其他兩個因素限制時,模型性能與每個因素之間呈現出冪律關系。這一思想促使大模型公司通過擴大預訓練模型的規模、數據集大小和訓練計算量來提升模型能力,這已成為當前的主流做法。
以Meta開源的Llama系列模型為例,其迭代歷程和MMLU評測基準上的得分充分展示了這一趨勢。Llama2基于2T token數據進行預訓練,包含了7B、13B和70B三個參數規模的版本。而Llama3則在超過15T token的數據上進行了預訓練,訓練數據集比Llama2大了7倍,包含的代碼量也是Llama2的4倍。因此,8B的Llama3在MMLU上的得分已經接近70B的Llama2,而70B的Llama3更是取得了80.9分的高分。進一步地,Llama3.1 405B模型在保持15T token訓練數據量的同時,由于參數規模的擴大,在MMLU上的得分高達88.6分。
然而,冪律關系也意味著性能提升的邊際回報會逐漸放緩,理論上需要指數級別的規模增長才能帶來模型性能的線性提升。除了算力成本外,模型規模的擴大也帶來了工程上的挑戰。據《MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs》論文所述,大規模LLM訓練面臨兩個具體挑戰:一是實現大規模的高訓練效率,即提高模型FLOP利用率(MFU),這直接轉化為端到端的訓練速度;二是實現大規模下的高訓練穩定性,以保持整個訓練過程中的高效訓練。
同時,高質量訓練數據的獲取也是提升模型性能的關鍵難點。阿里研究院的《2024大模型訓練數據白皮書》指出,高質量數據是大模型技術發展的主要瓶頸之一。能夠拓展大模型知識邊界、推動大模型推理和泛化能力提升的數據更多偏向于視頻、圖片等多模態數據以及特定行業中的領域知識數據。這些數據主要來源于人類的創造、制作和經驗積累,其規模、類型和質量因客觀條件而異。
此外,o1模型的強大推理能力得益于強化學習和思維鏈推理。OpenAI文檔顯示,o1通過強化學習訓練可以執行復雜的推理,它在回答用戶問題前會進行長時間的“思考”,產生長的內部思維鏈。這種過程極大地提高了模型的推理能力。o1模型還引入了推理token,用于分解對提示的理解并考慮多種生成響應的方法。然而,o1目前主要在數學、編程等領域表現出色,其在其他領域的應用尚有待探索。同時,o1的推理速度相對較慢,可能對某些需要快速響應的應用場景造成限制。此外,調用o1系列模型API的成本也相對較高。
盡管如此,o1模型的成功仍然驗證了提升模型能力的新方向。其技術思路可能被業界其他大模型效仿,成為在預訓練模型規模提升邊際回報放緩情況下的重要技術范式。目前,預訓練階段的Scaling Law仍然有效,GPT MoE的參數量已達到1.8萬億。因此,我們期待OpenAI的下一代模型GPT-5的發布。模型準確度是AI應用落地的關鍵指標,如果GPT-5能夠通過進一步擴大模型參數量和訓練數據規模,在各項任務上取得準確度的大幅提升,那么AI應用的創新將迎來全面爆發。