你的位置:ky体育app最新版下载 > 新闻中心 > 开云kaiyun截图差别率被压缩至原始的60%-ky体育app最新版下载

开云kaiyun截图差别率被压缩至原始的60%-ky体育app最新版下载

发布日期:2025-02-10 08:19    点击次数:173

新闻中心

Eko团队 投稿量子位 | 公众号 QbitAI 抢先OpenAI的“Operator”,清华、复旦、斯坦福等辩论者趋奉起来整了个大活~ 他们建议了一个名为“Eko”的Agent开拓框架,开拓者只需用粗浅的代码和天然谈话,就能快速构建可用于分娩的“编造职工”: Agent不错吸收用户的电脑和浏览器,代替东说念主类完成各式任务。 而这个操作,恰是之前OpenAI被爆出的“Operator”所能罢了的。爆料称OpenAI将会这个月发布“Operator”,当今径直被截胡了。 更为关节的是,辩论团队

详情

开云kaiyun截图差别率被压缩至原始的60%-ky体育app最新版下载

Eko团队 投稿量子位 | 公众号 QbitAI

抢先OpenAI的“Operator”,清华、复旦、斯坦福等辩论者趋奉起来整了个大活~

他们建议了一个名为“Eko”的Agent开拓框架,开拓者只需用粗浅的代码和天然谈话,就能快速构建可用于分娩的“编造职工”:

Agent不错吸收用户的电脑和浏览器,代替东说念主类完成各式任务。

而这个操作,恰是之前OpenAI被爆出的“Operator”所能罢了的。爆料称OpenAI将会这个月发布“Operator”,当今径直被截胡了。

更为关节的是,辩论团队还把Eko给开源了。

来望望Eko是奈何让责任进程自动化的。

比如自动在雅虎财经上会聚纳斯达克的最新数据,包括主要股票的价钱变化、市值、来往量,分析数据并生成可视化叙述:

再举例:

面前登录页面自动化测试:正确的账户和密码是:admin / 666666请立地组合用户名和密码进行测试,以考证登录考证是否泛泛责任,举例:用户名不成为空、密码不成为空、用户名不正确、密码不正确临了,尝试使用正确的账户和密码登录,考证登录是否见效生成测试叙述并导出

清算面前目次下大于1MB的通盘文献

这是奈何罢了的?

开源版“编造职工”开拓框架

这项演技的中枢技能革命有三点:

羼杂智能体示意:建议了“Mixed Agentic representation”,通过无缝结合抒发高等次预料打算的天然谈话(Natural Language)与开拓者低档次罢了的门径谈话(Programming Language)。跨平台Agent框架:建议环境感知架构,罢了吞并套框架和编程谈话,同期撑抓浏览器使用、电脑使用、看成浏览器插件使用。分娩级干涉机制:现存Agent框架大王人强调自治性(Autonomous),即无需东说念主类干涉,而Eko框架提供了显性的分娩级干涉机制,确保智能体责任流不错随时被中断和调整,从而保险东说念主类对分娩级智能体责任流的灵验监管和治理。

环境感知架构(Environment-Aware Architecture)

主要场景包括:

i)浏览器使用:主要专注于通过图形用户界面(GUI)来操作网页和浏览器中的元素,常见的罢了神志包括截图和网页索求技能。

ii)电脑使用:与浏览器不同,Node.js 自动化则主要面向大喊行界面(CLI)操作和文献系统料理,改日还会引入GUI感知才调。

Eko的跨平台开拓是通过其环境感知架构(Environment-Aware Architecture)罢了的,这一架构由三个关节档次组成:通用中枢(Universal Core)、环境特定器用(Environment-Specific Tools)和环境桥接(Environment Bridge)。

通用中枢:这一层提供了与环境无关的基本功能,如责任流料理、器用注册料理、LLM(大谈话模子)集成和钩子系统。环境特定器用:每种环境(如浏览器扩张、Web 环境、Node.js 环境)王人提供了优化的器用集。环境桥接:这一层郑重环境的检测、器用注册、资源料理和安全甘休,确保不同平台之间大致凯旋互动和通讯。安全性和探询甘休:Eko针对不同环境实施了适合的安全顺次。浏览器扩张和Web环境王人收受了严格的权限甘休和API密钥料理,而Node.js环境则允许更泛泛的系统级探询,基于用户权限进行文献操作和大喊践诺,在需要时会在践诺前央求用户说明。

自动器用注册:通过 loadTools() 等器用,Eko自动注册适用于面前环境的器用,这使得开拓者不错在多个环境中无缝地切换,并确保器用的正确加载。

档次化斟酌(Hierachical planning)

团队建议档次化感知框架,将任务的拆解分为两层,包括Planning layer和Execution layer。

其中Planning layer郑重将用户的需求(天然谈话或代码谈话示意)和现存器用集拆解成一个有范畴特定谈话(Domain-specific language)示意的任务图(Task graph)。

任务图是一个有向无环图,描摹了子任务之间的依赖关系。该任务图由LLM一次性合成。在Execution layer中,把柄每个任务调用LLM来合成具体的践诺行为和器用调用。

多步合并优化:当Eko检测到两次践诺王人是对LLM的调用时,会触发框架的自动合并机制,将两次调用的system prompt自动整合,合并成一次调用。从而加速推理速率。

视觉-交互身分趋奉感知(Visual-Interactive Element Perception)

视觉-交互身分趋奉感知框架(VIEP)是一种新颖的浏览器感知贬责决策,通过将视觉识别与元素高下文信息结合,显赫晋升了在复杂网页中的任务精度和效果。

它通过索求网页中的交互元素(如A11y树),并将其映射到范畴特定谈话(DSL),生成高效的伪HTML代码,简化了元素的表征。

不同于传统的A11y+Screen shot决策,VIEP在视觉信号方面,引入了Set-of-Mark,确保每个元素的视觉标志符与伪HTML中的标志符逐一双应,晋升了元素识别的精度。

为了优化性能,截图差别率被压缩至原始的60%,同期画质压缩至50%,减少了资源阔绰,同期保抓了豪阔的识别质地。

与传统的HTML示意比较,VIEP通过简化交互元素和生成紧凑的伪HTML结构,幸免了径直处理遍及HTML实质的支拨。举例,Google首页的HTML从22万字符减少至仅1,058个字符,大幅提高了处理速率和准确度。

VIEP不仅优化了性能,裁减了资本,还晋升了跨环境安妥性,确保自动化操作在不同浏览器和操作系统中褂讪运行。

分娩级的可干涉机制

在构建AI驱动的自动化系统时,开拓者时常需要监控任务的践诺情况,随时调整行为,或在必要时进行干涉。

天然“钩子”是软件开拓中的常见办法,但在Eko中,它们承担了独到的扮装——在AI自动化和东说念主工监督之间架起了一座桥梁。

不详来说,不错在Workflow践诺前后插入我方的逻辑,比如考证输入、处理落幕、致使重试失败的任务。

代码如下:

Eko提供三种不同层级的钩子,每个层级王人具有独到的作用:

责任流钩子(Workflow Hooks)这些钩子位于责任流的最表层,用于全体甘休和监控自动化进程的启动和扫尾。举例,你不错在责任流启程点之前进行资源驱动化,或在责任流扫尾后进行清算和处理最终落幕。

子任务钩子(Subtask Hooks)这些钩子位于责任流的中间层,允许你在每个子任务启程点前和扫尾后进行监控和处理。举例,你不错在每个子任务前纪录日记,或在职务完成后对中间落幕进行处理。

器用钩子(Tool Hooks)这是最细粒度的钩子,允许你在每个器用践诺前后进行考证和修改。举例,你不错在器用践诺前考证输入参数,或在器用践诺后处理复返落幕。

钩子不错匡助开拓者及时优化责任流,提高自动化系统的精度和效果。

举例,在践诺某些任务时,开拓者不错通过钩子对输入数据进行考证,真贵诞妄信息传入系统;或在职务完成后,处理和治愈落幕,以便更好地欺诈输出。钩子还能匡助开拓者会聚践诺数据,进行性能分析,识别瓶颈并优化自动化进程。

除了旧例的监控和调试功能,Eko的钩子系统还撑抓更革命的使用场景。

举例,在一些关节任务践诺时,钩子不错暂停责任流并恭候东说念主工审批;在AI决策出现问题时,开拓者不错通过钩子进行东说念主工干涉或笼罩AI的判断,确保业务进程的顺畅。

作家简介

陆逸文,清华大学博士生,辩论深嗜为具身智能平台和智能体。

罗卓伟,FellouAI首席工程内行,咫尺从事东说念主工智颖异系范畴责任。

马骁腾,清华大学自动化系博士后,博士毕业于清华大学。主要辩论深嗜为强化学习和智能体。

陈家棋,复旦大学硕士生,斯坦福大学探询学生学者。主要辩论范畴为计较机视觉和智能体。

Homepage:https://eko.fellou.ai/Github link:https://github.com/FellouAI/ekoDocs:https://eko.fellou.ai/docs/开云kaiyun

服务热线
官方网站:bib-audio.com
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:17451898534
邮箱:9bc5fd1e@outlook.com
地址:新闻中心国际企业科技园477号
关注公众号

Powered by ky体育app最新版下载 RSS地图 HTML地图

Powered by站群
ky体育app最新版下载-开云kaiyun截图差别率被压缩至原始的60%-ky体育app最新版下载