突破数据瓶颈！交大研发电脑智能体，让 AI 替你熬夜做 PPT-奥多也互动社区

突破数据瓶颈！交大研发电脑智能体，让 AI 替你熬夜做 PPT

奥多也互动社区

10个月前发布

06114

奥多码，点击查看详情

海外服务器25/月海外服务器25/月免签免挂码支付平台各类精品菠菜大全各类精品qp资源海外免10名域名注册交易

------正文内容展示，开始阅读新内容 ------

上海交通大学gair实验室研发pc agent：让ai帮你完成深夜ppt制作

深夜需要准备第二天论文分享的PPT？有了上海交通大学GAIR实验室研发的PC Agent，你只需告诉它要点和保存位置，第二天就能看到一份制作精良的PPT。这项研究由三位研究者完成，共同第一作者为上海交通大学ACM班三年级本科生何彦衡和金嘉禾，指导老师为刘鹏飞副教授。GAIR实验室主要研究方向包括大模型复杂推理、数据工程、多模态大模型和智能体。实验室主页：https://www.php.cn/link/543817ed62fa34e371bb229d4f7b603f

PC Agent通过认知迁移方法，高效收集人类认知轨迹进行训练（而非API调用），实现了像人类一样操作电脑：阅读屏幕、控制键盘鼠标，完成数十步跨软件的复杂任务。这标志着AI真正开始为人类减负！

PC Agent能轻松完成大量重复性工作，例如为多位图灵奖得主制作海报：

它还能像Claude 3.5 Sonnet一样，完成“AI调用AI”的任务，例如自行创建网站：

论文信息：

论文标题：PC Agent: While You Sleep, AI Works – A Cognitive Journey into Digital World
论文地址：https://www.php.cn/link/190b12368f262b0aa584cd9101ecc07c
代码地址：https://www.php.cn/link/a4e56c27a3e2a2fc8ccd7d91a2945f90

挑战与突破：深度电脑理解与精准视觉定位

当前智能体电脑使用能力远逊于人类，主要挑战在于深度电脑理解认知和精准视觉定位能力。

1. 视觉定位：GUI交互的基础是精准定位屏幕元素（如按钮）。现有模型，包括GPT-4o，缺乏此能力。

2. 认知理解：模型缺乏对电脑使用的认知理解，包括细粒度的电脑操作知识（例如，在PowerPoint中添加标题需要先点击文本框再输入）和智能体导向的训练（长程任务中的上下文关注、决策和策略调整）。

认知迁移：AI从对话窗口到数字世界的关键

团队提出人类认知迁移方法，包括高效采集人机交互数据的轻量级工具PC Tracker，以及从原始交互数据重建人类认知的完整流水线。PC Tracker开源，旨在加速社区研究。

该方法首先采集人类电脑操作轨迹，然后用大模型重建人类认知，最终得到包含人类认知的交互轨迹（Cognitive trajectory）。通过模仿学习，AI不仅模仿动作，还学习背后的认知理解。

仅在133条认知轨迹上训练，PC Agent就能执行50步复杂任务，展现了方法的高效性。

PC Tracker：高效采集人机交互数据

PC Tracker轻量级运行，仅在用户动作发生时记录，不会影响用户体验，并支持大规模数据采集。它具备以下特性：

轻量级数据采集
无损用户体验
大规模数据采集
统一动作空间
双采集模式（任务导向和无任务导向）
数据透明与隐私保护

认知轨迹重建：动作语义重建和思考过程重建

原始点击动作缺乏语义信息，需要重建。大模型通过上下文信息和动作语义，重建每步动作背后的思考过程。

PC Agent：基于开源模型的多智能体协作

PC Agent采用多智能体架构：规划智能体负责决策，视觉定位智能体负责执行点击动作。它利用Molmo模型进行视觉定位，并通过自我验证提高精度。

未来展望

团队未来将关注大规模泛化实验、长程规划与鲁棒性、无任务数据的利用、动作空间优化和复杂任务的评估。

------本页内容已结束，喜欢请分享------

海外服务器25/月海外服务器25/月免签免挂码支付平台各类精品菠菜大全各类精品qp资源文字广告位招租

感谢您的来访，获取更多精彩文章请收藏本站。

© 版权声明

文章作者

TorDarker

隐私政策

PrivacyPolicy

用户协议

UseGenerator

许可协议

NC-SA 4.0

THE END

科技资讯
# 科技资讯 # 电脑 # 产业 # qq # git # pc agent

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容