
CHATGPT使您可以使用自己的虚拟计算机来考虑操作,积极选择工具和完成任务。特工AI的日子到了我们的想法。星期五凌晨,在北京时期,歌剧突然开始了新产品的现场直播。现在,已经启动了一个新的chatgpt代理,为公共代理的功能实现了密钥更新。与以前的基本模型更新不同,典型的代理计划自动使用各种工具来帮助完成复杂的任务,例如自动浏览用户日历,生成可编辑的PPT和执行代码。代理可以连接Gmail和GitHub网站,以恢复信息,解决问题并使用API访问不同的应用程序。代理商支持的AI智能已大大提高。基于Agen的ModelChatgpt TE在HLE参考点上获得了41.6%,几乎是双O3和O4 -Mini。 ChatGpt代理商目前向OpenAI Pro,Plus和Equipment Plan开放订户。想要使用它的用户只需在“ chatgpt工具” drop -down菜单中选择“代理模式”。歌剧说,公司和教育用户将在夏季晚些时候获得新功能。在官方版本时,专业用户通常可以每月使用该代理商的应用程序高达400次,而其他付款最多可以使用40次。目前尚不清楚何时可以为使用此免费功能的用户使用CHATGPT。这是迄今为止OpenAI的新大胆推出,从那时起,Chatgpt已成为可以为人们做家庭作业和分享的代理产品,而不是回答问题。请参阅Chatgpt代理执行复杂的任务,使我对我来说是一个真正的“ AGI Sense”时刻。查看计算机的思考,计划和执行会带来不同的感觉。 Chatgpt是独特的虚拟汇编,可以使用路由器从头到尾完成工作并处理复杂的任务。除了运行诸如“年度Fananci”之类的chatgpts。Al Reports“还可以智能地浏览网站,过滤结果,安全登录,运行代码,执行分析,提供可编辑的滑梯和电子表格以汇总调查结果。例如,输入“搜索和咨询代理以及旧金山市的年度集成代理商以及年度集成财务报告(2020-2024)(2020-2024)”:例如,输入通知”。 3天的详细行程,包括飞行安排,酒店储备和活动(比赛,远足,食物,水疗等)远足,素食主义者和水疗中心。总预算为$ 3,000。此内容:内容:内容:餐馆的激活和其他详细信息以及餐馆的其他详细信息。必要时购买票购买链接或预订。按照用户的说明,最终的启动工作流程。我们将继续重复并定期启动重要的改进,以提高,更实用并为更多用户服务。 “操作员和深入的搜索在深度搜索的自然演变。操作员可以移动,单击并输入网站,它们很好。要与网页进行交互,更多过滤结果或访问用户需要会话的内容。 Openai决定整合这两个优点,因为它发现许多用户正在尝试处理运营商,并且任务确实适合深入研究。通过将这些互补特性集成到chatgpt并引入更多工具,OpenAI将所有新功能解锁到模型中。您可以与网站积极互动。单击,过滤并收集更精确,更有效的结果。 Yonghu还可以在没有自然交流问题的情况下进行过渡,以在同一对话中进行特定的操作应用。 Openai配备了用于ChatGpt代理的完整工具。通过图形用户界面与网页进行交互的视觉浏览器,用于处理Web queriessimple推理的文本浏览器,终端(命令行接口)D直接调用API的能力。代理还可以使用ChatGpt连接器应用程序(例如AIL,GITHUB)连接,并且ChatGpt可以找到与消息相关的信息并在答案中使用它。用户还可以在负责浏览器的任何网站上登录其帐户。这可以帮助您找到信息并执行更深入,更广泛的任务。提供多种方法来访问网站上的信息并与信息进行交互,这意味着ChatGpt代理可以选择更有效地完成任务的最佳途径。例如,它通过API恢复用户日历信息,使用文本浏览器有效地处理大量文本内容,并通过视觉接口为人类设计。它还具有与网站无关的能力。所有这些操作都是在ChatGpt代理的虚拟机中进行的。这保留了使用多个工具时需要任务的上下文信息。 CHATGPT代理可以CHOOSE在必要时使用文本或视觉浏览器打开网页,从Internet下载文件,在终端中运行命令以处理文件,并通过Visual浏览器查看输出结果。同时,这些策略根据任务适应,并迅速,精确,精确,有效地运行。 ChatGpt代理专为重复和协作工作流而设计,比以前的型号更具交互性和灵活性。执行ChatGPT任务时,用户可以始终中断它,使指令更加清晰,移动您想要的地址或完全替换任务的内容。继续解决新信息,而不会失去以前的进度。同样,ChatGPT在必要时会积极请求用户详细信息,以确保任务与目标一致。如果任务所做的比预期的要多或减少,则用户可以选择暂停任务,请求进度摘要或直接完成任务并恢复当前结果。我f用户在手机上安装ChatGpt应用程序,完成任务后也将发送通知。参考结果:扩大现实世界的ChatGpt代理的实用性以及其背后的模型的功能改进反映在多个参考点的出色性能中,并评估包括Web导航和真实世界任务的完成功能的内容。其中,在对人类考试的最终评估中,以衡量AI在几个领域的专家问题上的表现,支持sipsit给chatgpt代理的模型在此评估中的通过@1得分为41.6。代理可以独立计划和选择工具,这使他们可以以不同的方式处理相同的任务。具有简单并行策略的量表意味着同时同时进行8个测试,并选择具有更大自我报告的可靠性的结果,代理人的HLE得分为44.4.44。前部这是用于精确测试的最困难的数学基础,包括新的和未发表的问题,通常需要数小时或几天数学的专家解决。 ChatGpt代理具有使用工具(例如访问终端和执行代码)的能力,在此测试中达到了27.4%的精度,远远超过了所有以前的模型。 OpenAI使用模拟复杂实际任务的参考点评估了模型。在基于知识的复杂和经济有价值的工作任务中评估模型表现的内部参考点,在大约一半的人类情况下,ChatGpt代理的生产与人类的生产相当。 DSBench的参考点用于评估代理在涵盖数据分析和建模的实际数据科学任务中的性能。 Chatgpt代理人超过人类平均表现,并具有明显的优势。电子表格电子表格的参考点用于评估模型处理真正的SPREA的能力DSheet任务。 Chatgpt代理远远超出了现有模型。赋予我直接编辑电子表格的能力,我获得了45.5%,而Excel Co -Pilot仅为20.0%。在这里,我们向您展示了如何执行此操作:Spradsheetbench的作者使用基于Windows系统的Micro Environmentsoft Excel评估电子表格任务。 Openai使用MacOS和Libreoffice系统,这可能会导致成绩细微的差异。例如,作者报告说,GPT-4O在一般难度限制的元素中获得了15.02%,而OpenAI的测量为13.38%。 OpenAI使用一个完整的参考测试集,其中包含912的所有问题。在内部参考点,Operai将创建模型的功能,以处理从第一年到第三年的投资银行分析师的建模任务,包括创建具有标准化格式的三个关键模型,并为《财富500强公司》的标准化格式和约会。在此评估中,CHA的模型TGPT模型代理远远优于深入研究和O3。 OpenAI还评估了BrowseCompomp的参考点上的ChatGpt代理。 OpenAT发布的参考点今年年初,它们用于衡量导航代理在网络上找到困难信息的能力。 ChatGpt代理在此测试中建立了新的CASSOCK(当前最佳性能),比深搜索的得分为68.9%,高17.4分。最后,在Webarena参考点,它用于评估Web导航代理完成真实Web任务的能力。 CHATGPT代理比配备O3的代理更好(即驱动操作员的模型)。有关基准测试的更多信息,请参见Cutgpt代理系统卡:系统卡地址:https://cdn.openai.com/pdf/839e66fc-602c-602c-48bf-81d3-b21acc3459d/chatgpt_agent_syssmetsstems_card。 Yultraman sam into to to to A Ultraman sam samppt年龄熟悉Ultraman Sam代表新的HeigAI系统能力的HTS,可以使用自己的计算机完成特殊的复杂任务。与操作员的性质进行了深入研究,但其实际功能远远超出了想象力。长时间思考,使用一些工具,更深入地思考,采取一些行动,更深入地思考。例如,在发布会上,他们进行了一次演示,为朋友的婚礼做准备。购买衣服,预订旅行,收集礼物等。它还提供了数据分析和创建工作表现的示例。它非常有用,但潜在风险也很棒。从强大的培训到用户控制,我们创建了许多安全性和警告措施,以及比以往任何时候都更广泛的缓解措施,但是我们无法预测一切。本着重复发展的精神,我们向用户发出许多警告,并赋予他们自由选择是否谨慎采取措施。我将向我的家人解释一下这是前卫和实验性的。这是一个opo测试未来的rtunity,但是直到有机会将其用于高风险应用程序或在现实世界中研究和改进它之前,我们不会获得太多个人信息。我们不知道会有什么影响,但是恶意的演员可以试图“欺骗”他们的IA代理,提供不应提供的隐私信息,并采取不需要预测自己的行动,而这些行动无法预测。为了降低隐私和安全性的风险,我们建议给代理商完成任务所需的最低访问权限。例如,您可以允许代理商访问日历以编程适当的食物时间。但是,如果我要你给我买衣服,他们就不需要访问。诸如“查看您昨晚收到的电子邮件,采取所有必要步骤来处理它们,而不是询问遵循问题的任务”更具风险。这将导致不可靠的内容不太了解的电子邮件,欺骗模型和数据泄漏。他们认为这是重要的NT可以从现实生活中学习,并且在量化和降低潜在风险时,人们必须仔细,缓慢地采用这些工具。与其他新水平的能力一样,社会,技术和风险降低风险策略也必须共同发展。互联网用户对该代理是否易于使用具有首次手动经验,许多互联网用户正在前进。 X Netizen @Rowancheung将提前访问,并允许Chatgpt代理商在20分钟内创建完整的退休计划。完成任务后,Chatgpt代理注册了温哥华的当地财政法,分析了平均每月支出率,计算了30岁退休的必要节省,研究了最佳的投资分配,发现了Rowan从未听说过的那些从未听说过的最佳战略性,并建立了几个早期退休的现有金融独立性(Fires Independent)(Fires Indepention),并最终采用了结果。罗恩正在做这项工作帽子如果财务顾问可能会花费超过5,000美元,并且可能已经持续了数周。其中,电子表格和幻灯片的生成功能肯定非常出色,但类似于使用Manus和Genspark等工具获得的功能。因此,我输入了快速单词,并在Genspark的Genspark Eric Jing Ocr Rowan Cheung的Co -Founder兼首席执行官。他说,Genspark的质量比Chatgpt代理人要高得多,只有一小部分时间和成本。一些互联网用户还要求Chatgpt代理商在Tesco Food Store完成购买,并要求烧烤晚餐和粘稠的焦糖布丁。 DIO的快速单词也很简单。帮助我们在这个周末为您的两个人为您提供Tesco商店烤晚餐。包括沙漠待遇。 “浏览网站,输入您的登录信息,将产品添加到购物车中并鼓励其独立完成整个过程是不可思议的。”但是,互联网用户也重新认识到ChatGpt代理商的整个过程大约需要20分钟,并且如果它自己手动操作,并且将来会有所改善。参考内容:https://openai.com/index/introduing-chatgpt-agent/https://x.com./openai/status/194589007777777782149HT //x.com/ericjing_ai/status/194591523478458272Https://x.com/tealexbanks/status/1945921363237052589