《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > OpenAI發布全新ChatGPT智能體發布

OpenAI發布全新ChatGPT智能體發布

瀏覽網站、寫代碼、做 PPT 樣樣精通
2025-07-18
來源:IT之家
關鍵詞: OpenAI ChatGPT AI智能體

OpenAI 今日凌晨宣布將在 ChatGPT 中推出一款通用型 AI 智能體,該公司表示該智能體可以幫助用戶完成各種基于計算機的任務。

OpenAI 介紹稱,該智能體可以自動生成可編輯的演示文稿和幻燈片、查看用戶的日歷來簡要介紹即將到來的客戶會議、計劃并購買制作家庭早餐的食材,以及運行代碼等。

該工具名為 ChatGPT agent,結合了 OpenAI 之前多種智能體工具的功能,包括 Operator 點擊網站的能力,以及 Deep Research 從數十個網站中綜合信息生成簡潔研究報告的能力。OpenAI 表示用戶只需通過自然語言提示 ChatGPT 即可與該智能體進行交互。

為了開發這個新工具,OpenAI 將其背后的 Operator 和 Deep Research 團隊合并為一個統一的團隊。外媒 The Verge 報道稱,這個新團隊由產品和研究部門共 20~35 人組成。

OpenAI 表示 ChatGPT 智能體比其之前的任何產品都要強大得多,可以訪問 ChatGPT 連接器,允許用戶連接像 Gmail 和 GitHub 這樣的應用,智能體可以根據用戶的提示找到相關信息。此外,OpenAI 表示 ChatGPT 智能體可以訪問終端,并可以使用 API 來訪問某些應用。

000.jpg

根據 OpenAI 的說法,ChatGPT 智能體的底層模型在多個基準測試中提供了最先進的性能。ChatGPT 智能體模型在 Humanity's Last Exam(pass@1)中得分率為 41.6%,這是一項由數千個問題組成的、涵蓋超過一百個學科的困難測試。這個分數大約是 OpenAI o3 和 o4-mini 得分的兩倍。

1.jpg

在已知最難的數學基準測試之一 FrontierMath 中,OpenAI 表示,當 ChatGPT 智能體可以訪問工具(IT之家注:如用于代碼執行的終端)時,其得分為 27.4%,之前的最佳分數來自 o4-mini(得分僅為 6.3%)。

在 DSBench 測試中,該測試旨在評估智能體在涵蓋數據分析和建模等現實數據科學任務中的表現,ChatGPT 智能體顯著超越了之前的最先進模型 —— 尤其在數據分析任務中,其表現明顯優于人類水平。

2.jpg

在 SpreadsheetBench 平臺上,該平臺通過評估模型在處理基于真實世界場景的電子表格編輯任務時的表現來進行評分,ChatGPT 智能體創下了新的行業領先水平(SOTA),其性能較當前行業領先的 GPT 4o 提升了超過一倍。當具備直接編輯電子表格的能力時,ChatGPT 智能體的得分進一步提升至 45.5%,與 Excel 中 Copilot 的 20.0% 相當。

3.jpg

在內部基準測試中,該模型展現了其處理投資銀行分析師(1 至 3 年經驗)任務的能力,例如為《財富》500 強企業構建符合規范的財務報表模型(包括格式和引用),或為私有化交易構建杠桿收購模型。ChatGPT 智能體所采用的模型在該測試中顯著優于深入研究和 o3 模型。每個任務均根據數百項與正確性和公式使用相關的標準進行評分。

4.jpg

在 WebArena 基準測試中(該測試旨在評估網絡瀏覽智能體在完成真實世界網絡任務時的性能),該模型相較于由 o3 驅動的 CUA(即驅動 Operator 的模型)表現更佳。

5.jpg

ChatGPT 智能體在 BrowseComp 上的表現方面(OpenAI 今年早些時候發布的基準測試),用于衡量瀏覽智能體在網絡上查找難以找到的信息的能力。該模型以 68.9 的成績創下了新的 SOTA 紀錄,比深入研究高出 xx 個百分點。

6.jpg

具體使用場景方面:

在工作中,用戶可以自動處理重復性任務,例如將截圖或面板轉換為由可編輯矢量元素組成的演示文稿、重新安排會議、規劃并預訂外出活動,以及在保持原有格式的同時,用新的財務數據更新電子表格。

在個人生活中,用戶可以規劃并預訂旅行行程、設計并預訂整個晚宴活動,或尋找專業人士并安排預約。

安全方面,OpenAI 表示用戶將始終掌握控制權。ChatGPT 在執行重要操作前會先征得用戶的許可,用戶可隨時中斷操作、接管瀏覽器或停止任務。

用戶可以通過編輯器中的工具下拉菜單直接激活 ChatGPT 的新智能體功能,只需在任何對話的任何階段選擇“智能體模式”即可。只需描述希望完成的任務 —— 無論是進行深入研究、制作幻燈片,還是提交費用報銷。在執行任務時,屏幕上的語音播報會實時展示 ChatGPT 的具體操作流程。用戶可隨時中斷并接管瀏覽器操作,確保任務始終與目標保持一致。

此外,用戶可設置已完成的任務自動重復執行,例如每周一早上自動生成周度指標報告。

ChatGPT 智能體即日起向 Pro、Plus 和 Team 版用戶開放,Enterprise 和 Education 版用戶將于 7 月獲得使用權限。Pro 版用戶每月可執行近乎無限的任務,其他付費用戶每月可執行 50 次任務,額外使用量可通過靈活的積分額度選項獲取。

OpenAI 表示,ChatGPT 智能體仍處于早期階段—— 它能夠處理多種復雜任務,但仍可能出現錯誤。盡管官方認為該功能在生成幻燈片方面具有巨大潛力,但目前該功能仍處于測試階段 —— 當前生成的內容在格式和細節處理上可能顯得較為粗糙,尤其是在沒有現有文檔的情況下開始創建時。此外,盡管目前您可以上傳現有電子表格供 ChatGPT 編輯或作為模板使用,但此功能尚未適用于幻燈片。

OpenAI 正在訓練 ChatGPT 幻燈片創建功能的下一代版本,以生成更精致、更復雜的輸出,并具備更廣泛的功能和改進的格式化能力。

OpenAI 計劃以定期的節奏逐步添加重大改進,并使 ChatGPT 智能體隨著時間的推移對更多人越來越有用。


Magazine.Subscription.jpg

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 亚洲精品国产精品乱码不卡√| 国产乱码精品一区二区三| heyzo加勒比高清国产精品| 无码人妻一区二区三区免费n鬼沢| 亚洲av无码成人网站在线观看| 污网站免费观看污网站| 再深点灬舒服灬在快点视频| 被女同桌调教成鞋袜奴脚奴| 国产福利拍拍拍| а√天堂中文在线官网| 我要看特级毛片| 久久久精品中文字幕麻豆发布| 果冻传媒91制片厂| 亚洲国产精品无码成人片久久 | 女人国产香蕉久久精品| 中文字幕在线视频免费| 日本视频www色| 五月婷婷久久综合| 欧美人与动欧交视频| 亚洲欧美日韩三级| 爱情岛论坛亚洲高品质| 免费传媒网站免费| 综合欧美一区二区三区| 国产一区二区三区乱码在线观看| 黑人与中国女一级毛片不卡| 国产福利在线视频尤物tv| 18欧美乱大交| 国产视频一二三区| 97亚洲熟妇自偷自拍另类图片| 天堂√最新版中文在线天堂| xxxxx国产| 小雪老师又嫩又紧的| 三级黄色在线观看| 成年女人黄小视频| 中文字幕在线电影| 无码毛片视频一区二区本码| 久久亚洲日韩看片无码| 日本高清va在线播放| 久久国产精品麻豆映画| 日韩免费无码一区二区视频| 久久精品小视频|