2025年11月3日,以“前沿發明,引領智能躍遷”為主題的“2025百度十大科技前沿發明”發布會在北京召開。今年發布的前沿發明涵蓋大模型、深度學習框架、AI算力、智能體、AI搜索、數字人、無人駕駛等AI技術突破,展現百度AI應用加速走向效果涌現背后的底層創新實力。
百度首席技術官王海峰表示,百度始終站在AI創新前沿,人工智能全領域專利連續7年排名國內第一,生成式AI和大模型專利申請量中國第一、全球領先,深度學習專利申請量全球第一,高級別自動駕駛專利族全球領先。百度重視通過專利保護自主創新成果,也致力于推動成果轉化,為產業,為社會創造價值,將AI的便利與價值帶給每一個人。

百度首席技術官王海峰
北京市知識產權局黨組書記、局長孟波指出,保護知識產權就是保護創新,北京市知識產權局深入貫徹落實國家知識產權戰略,整合知識產權資源,不斷提升首都知識產權全環節改革力度、全鏈條保護能力、全領域服務水平,北京市展現出強勁的創新實力和活力。百度憑借人工智能專利申請布局和高活躍度的開源項目,展現了其在科技創新行業中的領先地位和對行業發展的引領擔當。希望百度繼續加強科技創新,力爭推出更多原創性、顛覆性發明,持續走在全國乃至全球技術創新前列,助力北京在人工智能領域率先實現高水平科技自立自強。
當前,國家政策支持AI大模型廣泛應用,深入實施“人工智能+”行動方案,人工智能迎來爆發式發展階段,AI技術加速迭代,應用加速落地效果涌現。百度持續自主創新,攻關人工智能關鍵核心技術,積累自主知識產權,以前沿創新引領產業的發展趨勢。
會上,百度專利事務部總經理崔玲玲發布“2025百度十大科技前沿發明”并表示,每一項成果,都代表著對技術邊界的勇敢突破,彰顯著百度在創新道路上的堅定決心與不懈追求。這些前沿發明是AI行業新技術趨勢的重要反映,多模態、多智能體協同、大規模集群訓練、高說服數字人等均是今年最前沿的技術方向。如“大模型訓練全流程高效容錯技術”攻克集群訓練中故障定位與召回恢復兩大關鍵難題,已成功應用于文心大模型系列的高效穩定訓練,萬卡集群任務訓練有效率超98%,處于國際領先水平。“信息流端到端內容理解與序列生成技術”突破現有推薦系統中內容理解與分發模型相互割裂的局限,構建了“理解生成-分發反饋-再理解生成”的自增強閉環,已推動Feed業務大幅增長,并落地百度地圖、電商等眾多場景。據悉,該發明所在“心流”團隊曾于9月獲得今年百度最高獎。
十大科技前沿發明中,不少技術已支撐百度AI應用實現效果涌現?!皠”掘寗拥母哒f服力數字人技術”,推動數字人技術進入高質量、低成本、廣應用的普惠時代,使數字人具備超擬真、高表現力、AI大腦自主決策、劇本智能創作等特性。該技術曾支撐近期爆火的羅永浩數字人直播首秀創下GMV5500萬元行業紀錄;“兼容端到端軌跡方案的自動駕駛橫縱聯合控制技術”支撐了Apollo領先的控制技術方案,大幅提升自動駕駛車輛的安全性和乘坐舒適性,助力蘿卜快跑全球化落地。蘿卜快跑已累計提供超1400萬次出行服務,安全行駛里程超2億公里;“蒸汽機(文心專精)音視頻一體化生成大模型技術”支撐百度蒸汽機提供分鐘級優質畫質與大師級運鏡控制能力,同時大幅降低視頻生成成本,該技術已在搜索、文小言等業務采用,同時對外賦能,在影視創作、營銷推廣等場景展現應用潛力。
百度2025十大科技前沿發明,具體如下:
1、自回歸統一建模的原生多模態大模型
本發明是新一代文心大模型的核心技術,提出了業界首個能夠同時支持語言、圖像、視頻、音頻統一建模的多模態大模型技術框架,實現了多模態原生統一的融合建模,可同時支持任意模態的理解與生成;在此基礎上構建了一種面向大模型的獎勵系統,為多環境多任務場景提供高質量的強化學習獎勵信號?;诒景l明的新一代文心大模型,在各模態任務上較上一代模型均有顯著提升,可支持更加廣泛的應用場景,同時獎勵系統顯著提升了并發能力并降低響應時間,推動大模型能力的持續快速進化。
2、大模型訓練全流程高效容錯技術
本發明提出了大模型訓練高效容錯技術,構建了完備高效的軟硬件故障自動召回定位恢復體系,創新性地提出基于大模型通信行為的全場景故障定位方法和零損失訓練快照機制,攻克了集群訓練中故障定位與召回恢復兩大關鍵難題。同時,通過研制層次清晰、架構合理的容錯接入體系及全流程測試框架,在大模型訓練過程中實現了高效部署與驗證,顯著提升故障恢復效率,降低系統故障概率。該發明已成功應用于文心大模型系列的高效穩定訓練,萬卡集群任務的訓練有效率超過98%,處于國際領先水平,顯著提升資源利用效率,加速模型訓練迭代。
3、劇本驅動的高說服力數字人技術
本發明構建了高說服力數字人方案,依托數字人視頻生成大模型基座,設計了多模協同、高表現力、超長時長的數字人視頻生產方案,涵蓋可控視頻生成技術、超擬真唇形驅動技術、劇本智能創作和AI大腦自主決策4個核心能力,突破大表情/大動作、音容話一致、人-物-場復雜交互等一系列業界難題。基于該發明的技術創新,推動數字人技術進入高質量、低成本、廣應用的普惠時代,不僅使數字人表現超擬真,還具備了AI大腦,靈活調度助播、場控、運營等角色共同促進轉化,真正實現了一個人就是一個營銷團隊。基于該技術打造的羅永浩數字人直播間,成為業界首個雙數字人互動的直播,單場GMV超過5500萬元,后驗數據全面超真人。
4、基于多智能體協同的AI搜索引擎
該發明創新性地提出了一種AI搜索引擎技術,其核心框架 DeepSearch 以Master-Planner–Executor-Generator 四層智能體體系為技術底座,模擬人類信息處理的 “感知–規劃–執行–生成”全流程,動態適配從單輪事實查詢到復雜多階段推理的全場景需求。AI搜索引擎,系統地融合顯式任務規劃、動態工具調用與實時反思機制,為新一代智能搜索提供了核心技術支撐。該發明已在百度文心助手中全流量落地,支撐文心助手復雜問題拆解、富媒體呈現、MCP調用、個性化滿足、深度研究等多項關鍵能力,顯著提升日活躍用戶和用戶留存;同時,該AI搜索引擎能力已對外開放賦能廣大合作伙伴。
5、蒸汽機(文心專精)音視頻一體化生成大模型技術
本發明是全球首個中文音視頻一體化生成模型,通過多模態信息的精準同步與自然交互,支持分鐘級多人有聲音視頻生成與交互;該發明由自回歸擴散建模、有聲一體化訓練、高性能訓推優化三大技術核心構成;通過極致的中文場景高質量數據清洗與結構化描述、訓推一致性優化,調教支持長視頻生成基座;搭載首創的Latent Multi Modal Planner技術重構生成邏輯,實現視頻的全流程有聲一體化生成;極致工程優化突破傳統擴散模型限制,壓縮視頻成本,滿足生成實時交互。該發明提供分鐘級優質畫質與大師級運鏡控制,大幅降低影視創作、營銷推廣等場景的制作成本,提升效率。相關技術對內賦能商業內容生產、搜索妙筆、內容生態、feed短篇、文小言、AI助手等業務,推動百度AI視頻生態繁榮;對外憑借其長視頻實時交互生成能力,將AI視頻從“單向生成”引入“雙向共創”新階段,引領視頻生成領域創新方向。
6、從芯片到集群的跨層級訓推一體AI基建系統性技術
本發明提出了從芯片到集群的跨層級協同優化、訓推一體的 AI 基建系統性創新技術,計算架構上,首創 UltraServer 柜級超節點,兼容多卡;自研 XPU Link與PD分離架構,全棧優化軟硬件協同;存儲系統上,自適應元數據架構突破大規模管理瓶頸,專屬KV Cache加速方案適配 AI業務;網絡技術上,推理專屬 2 跳可達架構+彈性 eRDMA,構建低時延傳輸通道;云原生能力上,全鏈路智能運維(異常自感知/診斷/恢復),AI網關增LLM智能路由。基于本發明成功構建起完備的AI基礎設施技術體系,在計算方面,XPU Link帶寬提升8倍,MoE單節點性能提升5-10倍;PD分離使 Decode/Prefill階段的整體性能預計可分別提升95%和36%;在存儲方面,支持千億級文件,空間利用率超90%;網絡時延壓至4微秒;實現5000節點集群分鐘級故障自愈。
7、兼容端到端軌跡方案的自動駕駛橫縱聯合控制技術
本發明提出了一種可兼容端到端軌跡方案的自動駕駛橫縱聯合控制技術,基于車輛的橫縱耦合動力學,設計線性時變模型預測控制器,實現車輛運動的橫、縱向聯合協同控制,模型假設近似更少,對上游數據依賴更少,橫縱向指令更加穩定,實現對傳統方案的升級和超越。該發明可完美適配Apollo ADFM的端到端上游軌跡方案,大幅提升安全性和乘坐舒適性,對于低速橫向晃動幅度可優化70%,100%消除彎道橫向抽動的控制問題,使自動駕駛車輛的動態響應更加接近經驗豐富的駕駛員的操作習慣,實現了真正意義上的擬人化控制,保證了Apollo控制技術的領先,有效支撐蘿卜快跑全球化戰略,助力蘿卜快跑駛入香港、迪拜、阿布扎比等全球16座城市,截止8月,蘿卜快跑累計提供超1400萬次服務,安全行駛里程超2億公里。
8、信息流端到端內容理解與序列生成技術
本發明突破了現有推薦系統中內容理解與分發模型相互割裂的局限,首創端到端多模態內容理解與序列生成技術,構建了“理解生成-分發反饋-再理解生成”的自增強閉環。通過全新的多模態語義對齊和動態Token統一量化技術,融合用戶快慢反饋,將多模態知識對齊與生成式行為建模深度融合,實現Feed信息流系統從記憶檢索,邁向深度理解生成推理的新階段。該發明已應用于信息流推薦業務,完成了生成式信息流系統重構,全面提升了對內容資源的多模態理解能力與個性化生成效果,大幅推動Feed業務增長;并落地百度地圖、電商、搜索等眾多場景。
9、飛槳科學計算高效求解技術
本發明基于飛槳的科學計算核心技術,通過組合算子拆分、高階自動微分、符號表達式的推理和神經網絡編譯器技術,實現了微分方程的高效求解,解決了科學計算場景高階微分方程求解的難題。本發明的微分方程求解速度較傳統方法提升2到4個數量級,比PyTorch提速115%,被國際知名微分方程求解庫DeepXDE唯一推薦;已在飛槳框架中實現,集成于PaddleScience、PaddleCFD等產品,并實現產業化應用。本發明技術支持中科院力學所、大氣物理所、蘇州實驗室等近20所高校與科研機構協同創新,應用于上海交通大學支撐其“AI for Science”科學數據開源開放平臺建設;應用于中車集團“斫輪”大模型,研制出空氣動力學仿真大模型“斫輪·風馳”,加速科學計算領域的創新發展。
10、基于智能體的自進化應用生成技術
本發明以大模型與強化學習為核心,構建了由“需求模型、代碼模型、創意模型”組成的三重自進化學習架構,通過自然語言理解用戶需求,經由代碼模型實現高質量代碼生成,并在用戶反饋與強化學習機制下形成持續優化的數據飛輪。基于該發明技術的系統不僅能執行代碼生成任務,更能在實踐中自我學習、逐步提升智能水平,真正實現“越用越聰明”的AI開發助手;其多模型協同機制與端到端軌跡學習技術,打破了傳統無代碼平臺的靜態瓶頸,形成可持續演化的智能體編程體系。單應用從開發到上線,由傳統的大約4人周、2萬元縮減到小于1小時、低于50元,純無代碼生成應用已達到38萬。

