发布时间:2024-12-24
点击次数: 上海交通大学gair实验室研发pc agent:让ai帮你完成深夜ppt制作
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

深夜需要准备第二天论文分享的PPT?有了上海交通大学GAIR实验室研发的PC Agent,你只需告诉它要点和保存位置,第二天就能看到一份制作精良的PPT。这项研究由三位研究者完成,共同第一作者为上海交通大学ACM班三年级本科生何彦衡和金嘉禾,指导老师为刘鹏飞副教授。GAIR实验室主要研究方向包括大模型复杂推理、数据工程、多模态大模型和智能体。实验室主页:https://www.php.cn/link/543817ed62fa34e371bb229d4f7b603f
PC Agent通过认知迁移方法,高效收集人类认知轨迹进行训练(而非API调用),实现了像人类一样操作电脑:阅读屏幕、控制键盘鼠标,完成数十步跨软件的复杂任务。这标志着AI真正开始为人类减负!
PC Agent能轻松完成大量重复性工作,例如为多位图灵奖得主制作海报:

它还能像Claude 3.5 Sonnet一样,完成“AI调用AI”的任务,例如自行创建网站:


论文信息:
挑战与突破:深度电脑理解与精准视觉定位
当前智能体电脑使用能力远逊于人类,主要挑战在于深度电脑理解认知和精准视觉定位能力。
1. 视觉定位:GUI交互的基础是精准定位屏幕元素(如按钮)。现有模型,包括GPT-4o,缺乏此能力。
2. 认知理解:模型缺乏对电脑使用的认知理解,包括细粒度的电脑操作知识(例如,在PowerPoint中添加标题需要先点击文本框再输入)和智能体导向的训练(长程任务中的上下文关注、决策和策略调整)。
认知迁移:AI从对话窗口到数字世界的关键
团队提出人类认知迁移方法,包括高效采集人机交互数据的轻量级工具PC Tracker,以及从原始交互数据重建人类认知的完整流水线。PC Tracker开源,旨在加速社区研究。
该方法首先采集人类电脑操作轨迹,然后用大模型重建人类认知,最终得到包含人类认知的交互轨迹(Cognitive trajectory)。通过模仿学习,AI不仅模仿动作,还学习背后的认知理解。
仅在133条认知轨迹上训练,PC Agent就能执行50步复杂任务,展现了方法的高效性。
Tunee AI
新一代AI音乐智能体
1104
查看详情

PC Tracker:高效采集人机交互数据
PC Tracker轻量级运行,仅在用户动作发生时记录,不会影响用户体验,并支持大规模数据采集。它具备以下特性:

认知轨迹重建:动作语义重建和思考过程重建
原始点击动作缺乏语义信息,需要重建。大模型通过上下文信息和动作语义,重建每步动作背后的思考过程。

PC Agent:基于开源模型的多智能体协作
PC Agent采用多智能体架构:规划智能体负责决策,视觉定位智能体负责执行点击动作。它利用Molmo模型进行视觉定位,并通过自我验证提高精度。


未来展望
团队未来将关注大规模泛化实验、长程规划与鲁棒性、无任务数据的利用、动作空间优化和复杂任务的评估。


以上就是突破数据瓶颈!交大研发电脑智能体,让 AI 替你熬夜做 PPT的详细内容,更多请关注其它相关文章!
# 生命科学
# 夏日穿搭搜索关键词排名
# 萍乡网站推广服务商
# 三河优化seo
# 常州seo外包行者seo08
# 宁波seo页面优化
# 360推广深圳营销中心
# 五彩滩风力发电网站建设
# 济南seo搜索栏专业
# 惠州seo建站推广
# 白城抖音关键词搜索排名优化
# 嘉禾
# 交大
# 替你
# 内测
# 产业
# 多家
# 第二天
# 数据采集
# 就能
# 长程
# b12
# api调用
# claude
# ai
# qq
# 电脑
# git
# pc agent
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
意大利警察拟用AI预测犯罪 该算法被指种族歧视严重
全球首款AI裸眼3D平板 国产的售价破万
从数据中心到发电站:人工智能对能源使用的影响
高质量数据推动AI场景化应用快速发展及落地
GPT-4是如何工作的?哈佛教授亲自讲授
Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽
Meta 开源 AI 语言模型 MusicGen,可将文本和旋律转化为完整乐曲
探索AI前沿理念 2025全球人工智能技术大会在杭州开幕
独家视角:首次展示有人与无人协同打击的7000米高空察打一体无人机
苹果公司迅速拓展AR/VR团队,Vision Pro发布后7月份增设近100份工作机会
工信部信通院发布《2025大模型和AIGC产业图谱》 360智脑覆盖全产业链
13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组
全新升级的广州麦当劳:面积最大餐厅正式引入智慧机器人
Bing Chat 和 Bing Search 正式引入深色模式
有远见!华为四年前注册商标Vision Pro:苹果AR国内要改名
OpenAI夺冠:人工智能为云计算带来新变革
剧透!蜜小豆@2025世界人工智能大会多个亮点曝光
微软向美国政府提供GPT的大模型,安全性如何保证?
复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?
OpenAI CEO 山姆・阿尔特曼呼吁 AI 领域中美应当合作
从医疗康复外骨骼到通用人形机器人,傅利叶智能推动核心技术升级
OpenAI 为开发者推出 GPT 聊天机器人 API 大更新,同时降低价格
国内AI大模型“安卓时刻”到来!阿里云通义千问免费、开源、可商用
研究发现AI聊天机器人ChatGPT不会讲笑话,只会重复25个老梗
“踩油门,也要会踩刹车” 互联网企业高管谈人工智能发展
喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新
猿辅导推出Motiff,整合三大AI功能,助力UI设计生产力革新
中国最强AI研究院的大模型为何迟到了
人工智能驱动艺术,打开达利的超现实想象
再度重仓 AI 赛道,SaaS 巨头 Salesforce 扩大 AIGC 风投基金规模
解决导航“最后50米”难题 高德地图升级AR步行导航找终点功能
大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战
关于开展“与AI共创未来”——2025年全国青少年人工智能创新实践活动的通知
B站内测 AI 搜索功能,输入“?”即可体验
OpenAI宣布组建新团队 以控制“超级智能”人工智能
广州团建公司方案 | 绝密飞行 → X-PLANE无人机团建主题团建
OpenAI 静默关闭 AI 文本检测工具,准确率仅为 26%
Zoom远程会议应用:AI培训需经用户授权
科学家称,面对人工智能,人类未来或只有灭亡与虚拟永生两个选择
人工智能助力精准学习,猿辅导小猿学练机满足学生个性化学习需求
WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相
全国青少年无人机大赛重庆市选拔赛开赛 1252名中小学生参加
传字节内测对话式 AI 产品,代号「Grace」;马斯克嘲讽苹果 头显;比亚迪 F 品牌定名「方程豹」
AI绘画,还需要懂数学?
“智能体动作生成技术”现身WAIC:游戏AI技术为机器人科创注入新动力
OpenAI首席执行官引用《道德经》 呼吁就AI安全问题合作
“上海市民营企业人工智能赋能创新中心”揭牌成立
微软必应聊天现已在Chrome和Safari浏览器上可用,但仍有许多限制存在
映宇宙集团执行总编辑:元宇宙还是要以人为媒介
微软和谷歌面临的人工智能困境:需要投入大量资金才能获得盈利