首頁(yè)|必讀|視頻|專(zhuān)訪|運(yùn)營(yíng)|制造|監(jiān)管|芯片|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車(chē)|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|大數(shù)據(jù)|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 人工智能 >> 正文

OpenAI 史上最強(qiáng) ChatGPT 智能體發(fā)布:瀏覽網(wǎng)站、寫(xiě)代碼、做 PPT 樣樣精通

2025年7月18日 11:28  IT之家  作 者:汪淼

OpenAI 今日凌晨宣布將在 ChatGPT 中推出一款通用型 AI 智能體,該公司表示該智能體可以幫助用戶(hù)完成各種基于計(jì)算機(jī)的任務(wù)。

OpenAI 介紹稱(chēng),該智能體可以自動(dòng)生成可編輯的演示文稿和幻燈片、查看用戶(hù)的日歷來(lái)簡(jiǎn)要介紹即將到來(lái)的客戶(hù)會(huì)議、計(jì)劃并購(gòu)買(mǎi)制作家庭早餐的食材,以及運(yùn)行代碼等。

該工具名為 ChatGPT agent,結(jié)合了 OpenAI 之前多種智能體工具的功能,包括 Operator 點(diǎn)擊網(wǎng)站的能力,以及 Deep Research 從數(shù)十個(gè)網(wǎng)站中綜合信息生成簡(jiǎn)潔研究報(bào)告的能力。OpenAI 表示用戶(hù)只需通過(guò)自然語(yǔ)言提示 ChatGPT 即可與該智能體進(jìn)行交互。

為了開(kāi)發(fā)這個(gè)新工具,OpenAI 將其背后的 Operator 和 Deep Research 團(tuán)隊(duì)合并為一個(gè)統(tǒng)一的團(tuán)隊(duì)。外媒 The Verge 報(bào)道稱(chēng),這個(gè)新團(tuán)隊(duì)由產(chǎn)品和研究部門(mén)共 20~35 人組成。

OpenAI 表示 ChatGPT 智能體比其之前的任何產(chǎn)品都要強(qiáng)大得多,可以訪問(wèn) ChatGPT 連接器,允許用戶(hù)連接像 Gmail 和 GitHub 這樣的應(yīng)用,智能體可以根據(jù)用戶(hù)的提示找到相關(guān)信息。此外,OpenAI 表示 ChatGPT 智能體可以訪問(wèn)終端,并可以使用 API 來(lái)訪問(wèn)某些應(yīng)用。

根據(jù) OpenAI 的說(shuō)法,ChatGPT 智能體的底層模型在多個(gè)基準(zhǔn)測(cè)試中提供了最先進(jìn)的性能。ChatGPT 智能體模型在 Humanity's Last Exam(pass@1)中得分率為 41.6%,這是一項(xiàng)由數(shù)千個(gè)問(wèn)題組成的、涵蓋超過(guò)一百個(gè)學(xué)科的困難測(cè)試。這個(gè)分?jǐn)?shù)大約是 OpenAI o3 和 o4-mini 得分的兩倍。

在已知最難的數(shù)學(xué)基準(zhǔn)測(cè)試之一 FrontierMath 中,OpenAI 表示,當(dāng) ChatGPT 智能體可以訪問(wèn)工具(IT之家注:如用于代碼執(zhí)行的終端)時(shí),其得分為 27.4%,之前的最佳分?jǐn)?shù)來(lái)自 o4-mini(得分僅為 6.3%)。

在 DSBench 測(cè)試中,該測(cè)試旨在評(píng)估智能體在涵蓋數(shù)據(jù)分析和建模等現(xiàn)實(shí)數(shù)據(jù)科學(xué)任務(wù)中的表現(xiàn),ChatGPT 智能體顯著超越了之前的最先進(jìn)模型 —— 尤其在數(shù)據(jù)分析任務(wù)中,其表現(xiàn)明顯優(yōu)于人類(lèi)水平。

在 SpreadsheetBench 平臺(tái)上,該平臺(tái)通過(guò)評(píng)估模型在處理基于真實(shí)世界場(chǎng)景的電子表格編輯任務(wù)時(shí)的表現(xiàn)來(lái)進(jìn)行評(píng)分,ChatGPT 智能體創(chuàng)下了新的行業(yè)領(lǐng)先水平(SOTA),其性能較當(dāng)前行業(yè)領(lǐng)先的 GPT 4o 提升了超過(guò)一倍。當(dāng)具備直接編輯電子表格的能力時(shí),ChatGPT 智能體的得分進(jìn)一步提升至 45.5%,與 Excel 中 Copilot 的 20.0% 相當(dāng)。

在內(nèi)部基準(zhǔn)測(cè)試中,該模型展現(xiàn)了其處理投資銀行分析師(1 至 3 年經(jīng)驗(yàn))任務(wù)的能力,例如為《財(cái)富》500 強(qiáng)企業(yè)構(gòu)建符合規(guī)范的財(cái)務(wù)報(bào)表模型(包括格式和引用),或?yàn)樗接谢灰讟?gòu)建杠桿收購(gòu)模型。ChatGPT 智能體所采用的模型在該測(cè)試中顯著優(yōu)于深入研究和 o3 模型。每個(gè)任務(wù)均根據(jù)數(shù)百項(xiàng)與正確性和公式使用相關(guān)的標(biāo)準(zhǔn)進(jìn)行評(píng)分。

在 WebArena 基準(zhǔn)測(cè)試中(該測(cè)試旨在評(píng)估網(wǎng)絡(luò)瀏覽智能體在完成真實(shí)世界網(wǎng)絡(luò)任務(wù)時(shí)的性能),該模型相較于由 o3 驅(qū)動(dòng)的 CUA(即驅(qū)動(dòng) Operator 的模型)表現(xiàn)更佳。

ChatGPT 智能體在 BrowseComp 上的表現(xiàn)方面(OpenAI 今年早些時(shí)候發(fā)布的基準(zhǔn)測(cè)試),用于衡量瀏覽智能體在網(wǎng)絡(luò)上查找難以找到的信息的能力。該模型以 68.9 的成績(jī)創(chuàng)下了新的 SOTA 紀(jì)錄,比深入研究高出 xx 個(gè)百分點(diǎn)。

具體使用場(chǎng)景方面:

在工作中,用戶(hù)可以自動(dòng)處理重復(fù)性任務(wù),例如將截圖或面板轉(zhuǎn)換為由可編輯矢量元素組成的演示文稿、重新安排會(huì)議、規(guī)劃并預(yù)訂外出活動(dòng),以及在保持原有格式的同時(shí),用新的財(cái)務(wù)數(shù)據(jù)更新電子表格。

在個(gè)人生活中,用戶(hù)可以規(guī)劃并預(yù)訂旅行行程、設(shè)計(jì)并預(yù)訂整個(gè)晚宴活動(dòng),或?qū)ふ覍?zhuān)業(yè)人士并安排預(yù)約。

安全方面,OpenAI 表示用戶(hù)將始終掌握控制權(quán)。ChatGPT 在執(zhí)行重要操作前會(huì)先征得用戶(hù)的許可,用戶(hù)可隨時(shí)中斷操作、接管瀏覽器或停止任務(wù)。

用戶(hù)可以通過(guò)編輯器中的工具下拉菜單直接激活 ChatGPT 的新智能體功能,只需在任何對(duì)話的任何階段選擇“智能體模式”即可。只需描述希望完成的任務(wù) —— 無(wú)論是進(jìn)行深入研究、制作幻燈片,還是提交費(fèi)用報(bào)銷(xiāo)。在執(zhí)行任務(wù)時(shí),屏幕上的語(yǔ)音播報(bào)會(huì)實(shí)時(shí)展示 ChatGPT 的具體操作流程。用戶(hù)可隨時(shí)中斷并接管瀏覽器操作,確保任務(wù)始終與目標(biāo)保持一致。

此外,用戶(hù)可設(shè)置已完成的任務(wù)自動(dòng)重復(fù)執(zhí)行,例如每周一早上自動(dòng)生成周度指標(biāo)報(bào)告。

ChatGPT 智能體即日起向 Pro、Plus 和 Team 版用戶(hù)開(kāi)放,Enterprise 和 Education 版用戶(hù)將于 7 月獲得使用權(quán)限。Pro 版用戶(hù)每月可執(zhí)行近乎無(wú)限的任務(wù),其他付費(fèi)用戶(hù)每月可執(zhí)行 50 次任務(wù),額外使用量可通過(guò)靈活的積分額度選項(xiàng)獲取。

OpenAI 表示,ChatGPT 智能體仍處于早期階段—— 它能夠處理多種復(fù)雜任務(wù),但仍可能出現(xiàn)錯(cuò)誤。盡管官方認(rèn)為該功能在生成幻燈片方面具有巨大潛力,但目前該功能仍處于測(cè)試階段 —— 當(dāng)前生成的內(nèi)容在格式和細(xì)節(jié)處理上可能顯得較為粗糙,尤其是在沒(méi)有現(xiàn)有文檔的情況下開(kāi)始創(chuàng)建時(shí)。此外,盡管目前您可以上傳現(xiàn)有電子表格供 ChatGPT 編輯或作為模板使用,但此功能尚未適用于幻燈片。

OpenAI 正在訓(xùn)練 ChatGPT 幻燈片創(chuàng)建功能的下一代版本,以生成更精致、更復(fù)雜的輸出,并具備更廣泛的功能和改進(jìn)的格式化能力。

OpenAI 計(jì)劃以定期的節(jié)奏逐步添加重大改進(jìn),并使 ChatGPT 智能體隨著時(shí)間的推移對(duì)更多人越來(lái)越有用。

編 輯:章芳
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦新聞              
 
人物
中國(guó)移動(dòng)董事長(zhǎng)楊杰:聚“AI+”時(shí)代合力 共啟數(shù)字經(jīng)濟(jì)新篇章
精彩視頻
飛象趣談第二十九期!物流無(wú)人機(jī),低空經(jīng)濟(jì)崛起中的“雙輪引擎”
未來(lái)出行的芯力量 向“智能移動(dòng)終端”躍遷
飛象訪談:對(duì)話InterDigital副總裁兼無(wú)線實(shí)驗(yàn)室負(fù)責(zé)人Milind Kulkarni
2025MWC上海丨中興通訊副總裁熊杰就AI萬(wàn)兆全光園區(qū)話題進(jìn)行交流
精彩專(zhuān)題
2025 MWC 上海
2025工業(yè)互聯(lián)網(wǎng)大會(huì)
2025世界電信和信息社會(huì)日大會(huì)
第八屆數(shù)字中國(guó)建設(shè)峰會(huì)
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱(chēng): 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像