国产精品夜色视频一级区_hh99m福利毛片_国产一区二区成人久久免费影院_伊人久久大香线蕉综合影院75_国产精品久久果冻传媒

您的位置:首頁(yè) >聚焦 >

全球首個(gè)大模型Agent產(chǎn)品爆款出場(chǎng)!動(dòng)動(dòng)嘴讓PC成為打工人

2023-08-31 05:50:24    來(lái)源:程序員客棧


(資料圖片)


新智元報(bào)道

編輯:編輯部 【新智元導(dǎo)讀】有了這個(gè)實(shí)在的Agent小助手,文秘小帥的辦公流程,簡(jiǎn)直叫一個(gè)行云流水。
最近,有了一個(gè)神秘助手的小帥,辦公效率比過(guò)去提高了十倍不止。 今天,他需要把銷售人員的銷售金額做個(gè)排序,再把清單通過(guò)釘釘發(fā)給張總。 不用多費(fèi)口舌,小助手立馬準(zhǔn)確讀取了小帥的需求。 隨后,小助手干脆利落地給自己列出了行動(dòng)計(jì)劃,不到一分鐘,銷售金額從高到低排序的清單,就赫然出現(xiàn)在了桌面上。 然后,小助手打開(kāi)釘釘,自動(dòng)選定了發(fā)送對(duì)象——張總,然后把清單發(fā)送了出去。 這行云流水的一套流程,簡(jiǎn)直讓人看呆了。莫非《鋼鐵俠》中的賈維斯AI助理成真了?

你說(shuō),PC做——AI開(kāi)啟人類辦公新篇章

在介紹這位神秘助手的身份之前,我們先回顧一下,77年前的人類,是怎樣使用電腦的。 時(shí)間回到1946年,世界上第一臺(tái)計(jì)算機(jī)ENIAC誕生。連接一堆線纜、切換一堆開(kāi)關(guān),就是人類歷史上首次使用電腦的方式。 77年后的今天,ChatGPT的誕生顛覆了人類社會(huì)。GPT-4、PaLM、Llama等大模型的相繼爆發(fā),讓AI迎來(lái)了歷史性的「iPhone時(shí)刻」。 微軟辦公Office 365接入GPT-4,PaLM整合進(jìn)谷歌Workspace。AI大模型的誕生和崛起,讓打工人的辦公場(chǎng)景發(fā)生了根本性變革。 最近爆火的智能體Agent,更是讓賈維斯、《科幻世界》中的機(jī)器人小秘書(shū)和《星際穿越》中的「塔斯」(Tars)機(jī)器人,從科幻走進(jìn)現(xiàn)實(shí)。 正如開(kāi)頭所演示的,我們只要?jiǎng)觿?dòng)嘴,電腦就能自己動(dòng)起來(lái),讓原本枯燥繁瑣的工作搖身一變,成為——「你說(shuō),PC做」。 而這位能夠「聽(tīng)得懂,想明白,看得見(jiàn),動(dòng)起來(lái)」的數(shù)字助理,便是實(shí)在智能發(fā)布的業(yè)內(nèi)首款基于大模型的Agent產(chǎn)品TARS-RPA-Agent,也叫ChatRPA。 它不僅能夠理解人類的意圖,還能操作所有桌面軟件,包括各種復(fù)雜的CS架構(gòu)軟件,甚至對(duì)不開(kāi)放接口的軟件也能操作。 在CV大模型ISSUT(智能屏幕語(yǔ)義理解技術(shù))的加持下,TARS-RPA-Agent就像戴上了酷炫的屏幕洞察眼鏡,眨眼間就能秒懂屏幕上的一切。 甚至,不僅是在電腦上,任何屏幕(比如車載平板)都可以實(shí)現(xiàn)這個(gè)操作。 舉個(gè)例子,這意味著,后續(xù)在汽車環(huán)境下,除了當(dāng)下已通過(guò)接口方式實(shí)現(xiàn)對(duì)所有車載設(shè)備進(jìn)行控制,如控制車窗空調(diào)、播放音樂(lè)、導(dǎo)航等簡(jiǎn)單操作之外,還可以通過(guò)語(yǔ)音指令輕松指揮車載平板上所有的軟件APP(如釘釘、微信、甚至是WPS、美圖秀秀等)自動(dòng)完成各種復(fù)雜工作任務(wù)。 可以說(shuō),TARS-RPA-Agent成就的是更加科幻感滿滿的未來(lái),促進(jìn)人類實(shí)現(xiàn)真正的人機(jī)協(xié)同。 在未來(lái),人類與電腦/手機(jī)的協(xié)同方式一定是讓技術(shù)適應(yīng)人,而非人適應(yīng)技術(shù)。產(chǎn)品也不再是以系統(tǒng)為中心,而是以人為中心。 在這種全新人機(jī)協(xié)同模式下,AI將更加智能化、人性化。 與此同時(shí),人類也不用花費(fèi)大量時(shí)間去學(xué)習(xí)如何操作一個(gè)新的應(yīng)用或工具,而Agent可以理解我們的需求和習(xí)慣,做出調(diào)整。 這意味著,當(dāng)AI從一個(gè)被動(dòng)工具,變?yōu)橐粋€(gè)智能助手,將會(huì)更加重視我們的習(xí)慣,確保在執(zhí)行任務(wù)要求同時(shí),為人類創(chuàng)造出更加人性化的體驗(yàn)。

想讓Agent替你打工?層層難關(guān)需攻克

然而,這項(xiàng)劃時(shí)代性技術(shù),需要克服的困難,遠(yuǎn)比我們想象的要多。 尤其是,想要讓AI Agent在行業(yè)中發(fā)揮出真正的商業(yè)價(jià)值,更非易事。 當(dāng)你要求Agent幫自己請(qǐng)假時(shí),大模型雖然能做到「理解意圖」,但要操作像釘釘這種沒(méi)有可解析的網(wǎng)頁(yè)源代碼,或可調(diào)用的API接口的應(yīng)用時(shí),還需要另尋它法。 相比之下,RPA可以模擬人類行為的方式,對(duì)電腦軟件完成操作。由此可見(jiàn),大模型+RPA方式是執(zhí)行如上幫你請(qǐng)假等任務(wù)的一種必然模式。 但隨之而來(lái)的另一個(gè)問(wèn)題是,傳統(tǒng)的RPA由于不能對(duì)軟件頁(yè)面進(jìn)行精準(zhǔn)識(shí)別,比如哪個(gè)是輸入框,哪個(gè)是登錄入口等等,在面對(duì)諸多任務(wù)時(shí)也還是會(huì)一籌莫展。 而當(dāng)前計(jì)算機(jī)視覺(jué)CV大模型的發(fā)展,能夠?yàn)榇颂峁┮环N解決方案,讓RPA在執(zhí)行任務(wù)時(shí)「看見(jiàn)」操作頁(yè)面,秒懂屏幕畫(huà)面。 接下來(lái),在解決了接口調(diào)用、圖像理解這兩個(gè)問(wèn)題之后,AI Agent還需要突破四大難關(guān),才能成為真正意義上的「數(shù)字員工」: 「能否自主拆解任務(wù)、能否感知當(dāng)前環(huán)境、能否執(zhí)行并且反饋、能否記憶歷史經(jīng)驗(yàn)?!? 1. 如何輕松實(shí)現(xiàn)任務(wù)的自主拆解? 首先,在實(shí)際的場(chǎng)景中,人類給出的指令是非常復(fù)雜的,但所用的語(yǔ)句卻非常簡(jiǎn)潔。如何從蘊(yùn)含龐雜信息和邏輯命令的指令中,理解并拆解任務(wù)是非常難的。 比如「訂一張明天到上海的高鐵車票」,就涉及到數(shù)量「一張」、時(shí)間「明天」、行程「到上?!?、目標(biāo)「買高鐵票」。 想要最終完成這個(gè)任務(wù),就要求Agent必須能夠理解指令,并將其拆解成可執(zhí)行的子任務(wù)和步驟。比如,登錄購(gòu)票網(wǎng)站、查詢余票信息、完成車票預(yù)訂等多個(gè)步驟。 2. 如何實(shí)現(xiàn)任務(wù)元素的精準(zhǔn)定位? 除了要把任務(wù)分解成可執(zhí)行的子模塊外,Agent還必須知道自己是誰(shuí)、在哪。 比如,訂明天的票,就意味著Agent需要知道今天是幾號(hào);有了終點(diǎn)上海,也需要知道自己所處的起點(diǎn)是哪個(gè)城市。 與此同時(shí),Agent還需要對(duì)周邊的環(huán)境有充分的認(rèn)知、理解和交互。 還是以剛剛的購(gòu)票任務(wù)為例,要完成「登錄購(gòu)票網(wǎng)站」這一步,就需要Agent明確地知道,賬號(hào)輸入、密碼輸入,以及登錄按鈕分別在屏幕上的什么位置。 3. 錯(cuò)誤會(huì)不斷積累,需要及時(shí)去更正 在執(zhí)行任務(wù)時(shí),人類會(huì)隨時(shí)關(guān)注進(jìn)度,并通過(guò)不斷的「執(zhí)行-反饋-修正」來(lái)確保任務(wù)的正常進(jìn)行。 對(duì)于Agent來(lái)說(shuō),同樣需要保證每一步操作的正確性,不會(huì)因?yàn)轭I(lǐng)會(huì)錯(cuò)了意圖,或者前一步操作失誤,而導(dǎo)致當(dāng)前步驟點(diǎn)錯(cuò)按鈕、輸錯(cuò)賬號(hào)或者發(fā)錯(cuò)郵件。 最好是還能夠進(jìn)行單步尋優(yōu),并且把每一步的執(zhí)行過(guò)程和結(jié)果都展示和反饋出來(lái)。 4. 解決長(zhǎng)時(shí)記憶,實(shí)現(xiàn)自主迭代能力 最后,Agent還需要具有從經(jīng)驗(yàn)中學(xué)習(xí),并通過(guò)歷史案例不斷能提升自己決策的能力。 特別是在人類的幫助下完成一項(xiàng)任務(wù)之后,可以在下次遇到同樣的任務(wù)時(shí),自己去正確地執(zhí)行。 舉個(gè)例子,為了解決這個(gè)困擾大模型已久的長(zhǎng)時(shí)記憶問(wèn)題,AutoGPT選擇的就是利用內(nèi)存管理的手段,來(lái)實(shí)現(xiàn)上下文保留和決策優(yōu)化能力。

AI Agent時(shí)代的爆款:TARS大模型智能助理

面對(duì)這一系列的挑戰(zhàn),實(shí)在智能創(chuàng)新性地把CV大模型(ISSUT)、LLM(TARS大模型),以及RPA整合在了一起,并通過(guò)不同的技術(shù)、設(shè)計(jì)和方法解決了上述難點(diǎn)。 由此誕生的TARS-RPA-Agent,也成為了一個(gè)能夠自主拆解任務(wù)、感知當(dāng)前環(huán)境、執(zhí)行并且反饋和記憶歷史經(jīng)驗(yàn)的超自動(dòng)化智能體。 在TARS-RPA-Agent的加持下,對(duì)于發(fā)郵件這種基本操作,你只需要在對(duì)話框中,輸入「使用163郵箱給×××發(fā)送郵件,說(shuō)你好」即可。 接下來(lái),TARS-RPA-Agent將這個(gè)描述的請(qǐng)求拆解為2個(gè)步驟。第一步:打開(kāi)163郵箱;第二步:登錄郵箱發(fā)送郵件。在每個(gè)計(jì)劃中,都包含了詳細(xì)的執(zhí)行步驟。 確認(rèn)無(wú)誤后,直接點(diǎn)擊「執(zhí)行」,就能看到TARS-RPA-Agent嗖嗖嗖,開(kāi)始掃描頁(yè)面,完成給定的任務(wù)。 除了發(fā)郵件,諸如請(qǐng)假等各種辦公場(chǎng)景,TARS-RPA-Agent也全能覆蓋,而且還有著優(yōu)秀的泛化能力。 比如,當(dāng)你想買一款筆記本電腦,但又不知道選哪款比較好時(shí),就可以問(wèn)Agent「京東上最暢銷的筆記本電腦是什么」。 很快,Agent就給自己定出了行動(dòng)計(jì)劃,然后根據(jù)我們的需求,自己登入京東進(jìn)行搜索排序,并進(jìn)入第一個(gè)結(jié)果的詳情頁(yè)。 值得一提的是,TARS-RPA-Agent還考慮到了現(xiàn)有的Agent容易陷入死循環(huán)并消耗大量tokens的問(wèn)題,在任務(wù)過(guò)程中可允許人工修改、調(diào)優(yōu)等,在產(chǎn)品上能夠更好地支持人機(jī)協(xié)同操作。 比如,遇到不能執(zhí)行的步驟,我們只需動(dòng)動(dòng)嘴,或者點(diǎn)擊頁(yè)面的元素,就能讓它自動(dòng)創(chuàng)建后面的流程,基本上無(wú)需人類操作就能完成。 另外,如果這過(guò)程中我們有了新的計(jì)劃,直接用嘴告訴TARS-RPA-Agent就可以。 在記錄下選中的產(chǎn)品信息之后,還會(huì)貼心地幫你保存下來(lái)。 以往,這些功能都得需要在已有組件上去做各種形式的流程實(shí)現(xiàn),不僅復(fù)雜,而且難度高。 而現(xiàn)在,有了TARS大模型的加持,直接讓TARS-RPA-Agent擁有「遇河搭橋」的能力。即便是沒(méi)有可調(diào)用的組件,TARS-RPA-Agent也能夠直接生成一個(gè)組件,讓整個(gè)工作流暢通無(wú)阻。 對(duì)于那些沒(méi)有編程能力的人來(lái)說(shuō),無(wú)疑是釋放了生產(chǎn)效能。 不僅如此,在大模型的加持下,同樣的操作也可以輕松泛化到其他平臺(tái)上。而這一點(diǎn)的實(shí)現(xiàn),只需要你把「京東」這兩個(gè)字換成「淘寶」就可以了。 此外,在流程執(zhí)行結(jié)束后,也還可以繼續(xù)對(duì)話,并增加新的執(zhí)行計(jì)劃來(lái)完成流程能。 這些看起來(lái)十分簡(jiǎn)單的操作,實(shí)際上體現(xiàn)的是TARS-RPA-Agent三種強(qiáng)大的能力——視覺(jué)識(shí)別、邏輯推理,和代碼生成。 首先,TARS大模型本質(zhì)上是一個(gè)語(yǔ)言模型,能夠分析推理,卻「看不到」要執(zhí)行的對(duì)象。但有了ISSUT視覺(jué)技術(shù)的加持,它就像是有了一雙眼睛,能夠進(jìn)一步操作對(duì)象,驅(qū)動(dòng)RPA去創(chuàng)建整個(gè)流程。 其次的邏輯推理能力,讓TARS-RPA-Agent能夠?qū)⒏鱾€(gè)組件變量的邏輯關(guān)系進(jìn)行串聯(lián)。 而代碼生成能力,則是讓它可以在沒(méi)有基礎(chǔ)組件的流程步驟中直接生成一段代碼,封裝成自建組件,在之后可以隨時(shí)調(diào)用。 基于此,用戶只需動(dòng)嘴提出需求,Agent就能自動(dòng)拆解任務(wù),根據(jù)屏幕語(yǔ)言理解,夠完成實(shí)時(shí)流程搭建和執(zhí)行。 可以說(shuō),實(shí)在智能的TARS大模型在超自動(dòng)化場(chǎng)景與Agent的融合和應(yīng)用,是國(guó)內(nèi)企業(yè)向大模型Agent場(chǎng)景化應(yīng)用創(chuàng)新邁進(jìn)的重要一步。 并在最終,實(shí)現(xiàn)人類意圖的超越,成為駕馭桌面的終極力量。

「Agent」:AI引領(lǐng)下的下一個(gè)人機(jī)協(xié)同前沿

要知道,時(shí)間不是衡量偉大技術(shù)創(chuàng)新的標(biāo)準(zhǔn),有時(shí)候,速度才是真正的量尺。 當(dāng)今LLM(大語(yǔ)言模型)最主要的能力體現(xiàn)在,處理和生成內(nèi)容。但結(jié)果的生成,需要以輸入作為前提。 在當(dāng)前快速發(fā)展的背景下,LLM僅僅滿足于其擁有的聊天、創(chuàng)作、繪畫(huà)、社交等功能是遠(yuǎn)遠(yuǎn)不夠的。 而Agent作為一種能夠感知環(huán)境,做出決策的智能體,則可以在循環(huán)中運(yùn)行,生成自我導(dǎo)向的指令和操作,不依賴人類來(lái)指導(dǎo)對(duì)話,更加足以讓人放開(kāi)想象。 由此,我們可以讓LLM去充當(dāng)Agent的「大腦」。通過(guò)LLM和Agent的結(jié)合,能夠讓AI自動(dòng)化處理更加復(fù)雜的任務(wù)。 如此一來(lái),Agent智能助手就可以變身一個(gè)「數(shù)字打工人」,讓我們工作效率大大提升,最終為人類提供更多的實(shí)用價(jià)值。 而這,也是大模型下一階段的必然發(fā)展方向。 為了擴(kuò)展LLM的應(yīng)用,國(guó)外的研究人員提出了以AutoGPT,GPT-Engineer和BabyAGI等項(xiàng)目為代表的全新形式——集成大語(yǔ)言模型的Agent。 通過(guò)將大語(yǔ)言模型作為Agent的核心大腦,就可以實(shí)現(xiàn)復(fù)雜任務(wù)的分解,并在每個(gè)子步驟實(shí)現(xiàn)自主決策,無(wú)需用戶參與即可解決問(wèn)題。 比如,今年4月爆火的Auto-GPT,現(xiàn)在已經(jīng)在GitHub上狂攬了147k星。 這個(gè)項(xiàng)目的意義在于,Auto-GPT就像是給GPT-4模型裝了一個(gè)身體。在接到用戶提交的任務(wù)之后,自己就能提出并執(zhí)行相應(yīng)的計(jì)劃。不到5分鐘,一個(gè)網(wǎng)站就搭建好了。 接入GPT-4大模型的GPT-Engineer也是同樣的原理,只需動(dòng)動(dòng)嘴,給出一個(gè)提示,開(kāi)發(fā)者就可以構(gòu)建整個(gè)代碼庫(kù)。 然而,這些新晉頂流的Agent卻有著不少自身的局限性,比如使用GPT-4 API費(fèi)用高昂、需要一定的編程基礎(chǔ)、應(yīng)用范圍也相對(duì)較窄。 甚至,因?yàn)镚PT-4固有的局限性,比如胡說(shuō)八道、犯推理錯(cuò)誤,有時(shí)也會(huì)導(dǎo)致Auto-GPT等并不可靠。 除了學(xué)術(shù)上的探索外,在硅谷,已經(jīng)有人找出了讓Agent商業(yè)化落地的答案。 今年3月,由前OpenAI工程副總裁成立的初創(chuàng)企業(yè)Adept,一舉狂攬3.5億美元融資,除了General Catalyst和Spark Capital聯(lián)合領(lǐng)投,還有眾多機(jī)構(gòu)和硅谷明星創(chuàng)業(yè)者跟投。 簡(jiǎn)單來(lái)說(shuō),Adept創(chuàng)造了一個(gè)名為Action Transformer(ACT-1)的「AI隊(duì)友」,能夠?qū)⑽谋久钷D(zhuǎn)化為一系列行動(dòng)。 比如,通過(guò)連接到Chrome瀏覽器的擴(kuò)展程序,在人類的提示下進(jìn)行某些操作,或者與Salesforce和電子表格配合,以往需要點(diǎn)擊10次以上的復(fù)雜操作,一句話即可完成。

業(yè)界首家推出大模型Agent的公司

雖然,必須借助API才能實(shí)現(xiàn)軟件調(diào)用的形式極大地限制了ACT-1的使用場(chǎng)景,但Adept依然拿到了強(qiáng)有力的融資。由此也可以看出,行業(yè)內(nèi)對(duì)Agent辦公的強(qiáng)大信心,和這種趨勢(shì)的一致認(rèn)可。 現(xiàn)在,隨著技術(shù)的進(jìn)一步發(fā)展,AI Agent更是成為了業(yè)界公認(rèn)LLM落地的有效方式之一。 而國(guó)內(nèi)公司的腳步,自然也沒(méi)有落下。 作為國(guó)內(nèi)首家推出大模型Agent的企業(yè),實(shí)在智能才成立5年,就榮譽(yù)傍身。 連續(xù)3年獲評(píng)AI準(zhǔn)獨(dú)角獸企業(yè),通過(guò)國(guó)家高新技術(shù)企業(yè)及CMMI-5全球軟件成熟度最高級(jí)別認(rèn)證(全球不到1800家),擁有200余項(xiàng)獨(dú)立自主知識(shí)產(chǎn)權(quán)、實(shí)際授予的發(fā)明專利53項(xiàng),位列行業(yè)第一。 數(shù)十人的高水平算法團(tuán)隊(duì),NLP、CV、以及OCR技術(shù)在國(guó)內(nèi)均為第一梯隊(duì)。 實(shí)在智能不斷蝶變創(chuàng)新的背后,是技術(shù)研發(fā)實(shí)力深厚的體現(xiàn),以及倍增的實(shí)際效益。 2020年,這家公司首次推出了RPA產(chǎn)品,并在業(yè)界首次提出「融合拾取」技術(shù),讓RPA拾取精度實(shí)現(xiàn)跨越式發(fā)展。 2022年,智能屏幕語(yǔ)義理解技術(shù)ISSUT的發(fā)布,讓RPA戴上了「眼鏡」,從「拖拉拽」過(guò)渡到「點(diǎn)選用」。這種更新的IPA模式,也讓原本門檻極高的RPA工具變得人人可用。 2023年,實(shí)在智能憑借技術(shù)沉淀,再一次引領(lǐng)創(chuàng)新,將計(jì)算機(jī)視覺(jué)和大模型結(jié)合,推出TARS-RPA-Agent,這在全球的Agent領(lǐng)域也是不多見(jiàn)的,更是RPA領(lǐng)域的首創(chuàng)。 實(shí)在智能之所以選擇Agent作為產(chǎn)品的下一個(gè)發(fā)展方向,就是因?yàn)槿斯ぶ悄苌蔀轵?qū)動(dòng)管理系統(tǒng)提供了一種全新的方式,可以直接生成并執(zhí)行各種可操作的業(yè)務(wù)流程。 通過(guò)整合AIGC,產(chǎn)品能夠?qū)崿F(xiàn)智能化,并為B端用戶提供高效、可執(zhí)行的解決方案。其中,LLM如果與企業(yè)管理軟件融合好,大模型便能順利落地。LLM的私有化部署能力,往往意味著廠商們更大的商機(jī)。 而TARS-RPA-Agent所依賴的LLM——實(shí)在智能的自研垂直TARS大模型,具有優(yōu)異的文本生成、語(yǔ)言理解、知識(shí)問(wèn)答、邏輯推理等核心能力。 在TARS大模型的加持下,一種全新的「TARS + X」模式應(yīng)運(yùn)而生。 如今,我們可以看到,ChatRPA為超自動(dòng)化產(chǎn)品矩陣帶來(lái)的變革升級(jí),讓未來(lái)辦公「只動(dòng)嘴不動(dòng)手」。 與此同時(shí),實(shí)在智能的首款和文檔對(duì)話的產(chǎn)品Chat-IDP,也開(kāi)創(chuàng)了文檔交互、文檔處理的新模式。 基于OCR+NLP的「智能文檔審閱」IDP產(chǎn)品,更是已經(jīng)達(dá)到全國(guó)領(lǐng)先,廣泛應(yīng)用于金融、教育、工業(yè)等各個(gè)行業(yè)。 從2023年開(kāi)始,我們使用的電腦的方式,或?qū)⒈贿@家起步雖晚但技術(shù)雄厚、帶領(lǐng)行業(yè)彎道超車的AI準(zhǔn)獨(dú)角獸改變。

關(guān)鍵詞:

相關(guān)閱讀