ag官方app 牛津大学蚁合微软发布AUI-Gym，让AI成为UI界面的＂设想师+评委＂

ag官方网站登录入口

热点资讯

骰宝

你的位置：ag官方网站登录入口 > 骰宝 >

发布日期：2026-02-15 23:25 点击次数：203

ag官方app 牛津大学蚁合微软发布AUI-Gym，让AI成为UI界面的

这项由牛津大学的Kevin Qinghong Lin、新加坡国立大学的Siyuan Hu和微软的Linjie Li、Zhengyuan Yang、Lijuan Wang等盘问者蚁合完成的盘问发表于2025年11月，论文标题为"Computer-Use Agents as Judges for Generative User Interface"。感有趣的读者不错通过论文编号arXiv:2511.15567v1查询完整论文。

永久以来，咱们的电脑界面就像是专为东谈主类量身定作念的房屋——到处都是丽都的荫庇、细巧的动画恶果，以及各式为了好意思不雅而设想的复杂布局。关联词当AI助手搬进这些"屋子"时，它们就像一个戴着厚厚手套的东谈主在试图牵线搭桥——那些对东谈主类来说赏心悦筹画设想元素，对AI来说却成了完成任务的谢却。

盘问团队不雅察到一个有趣的征象：一方面，AI助手（他们称之为Computer-Use Agent，简称CUA）正变得越来越擅长操作电脑界面，或者像东谈主类相同点击按钮、填写表格、浏览网页；另一方面，有益用于编程的AI模子（盘问者称之为Coder）也展现出了惊东谈主的本领，或者字据一句话的形容就生成出完整的网页诈欺。这让盘问团队产生了一个斗胆的主义：既然AI仍是或者设想界面，也或者使用界面，为什么不让它们合作起来，有益为AI我方设想更好用的界面呢？

这个主义的中枢在于篡改咱们对界面设想的压根念念路。传统上，界面设想驯服的是"东谈主类设想，东谈主类使用，东谈主类评价"的模式——设想师字据东谈主类的审好意思和使用风俗创建界面，用户使用后给出反馈，设想师再字据用户体验进行优化。而盘问团队建议的新模式是"AI设想，AI使用，AI评价"——让编程AI动作设想师创建界面，让操作AI动作用户来试用这些界面，然后字据AI的使用体验来不绝改造设想。

为了考证这个主义的可行性，盘问团队率先需要创建一个全面的测试环境。他们诱导了名为AUI-Gym的基准测试平台，这就像是为AI量身定制的"装修样板间"。这个平台包含了52个不同类型的诈欺步调，涵盖了勤俭单器具到复杂游戏的各式界面类型，每个诈欺都配备了30个悉心设想的测试任务，悉数提供了1560个着实使用场景的模拟。

为了确保测试的可靠性，盘问团队还为每个任务诱导了自动考证系统。这就像给每个测试任务配备了一个"自动监考官"，或者准确判断AI是否到手完成了指定的操作。这个考证系管辖受了基于章程的查验方法，通过分析网页的里面结构来详情任务是否完成，比传统的东谈主工评估愈加客不雅和高效。

在这个基础上，盘问团队设想了一套完整的"AI合作装修"过程。编程AI（Coder）担任设想师的变装，细致字据需求形容生成驱动的界面设想，然后字据反馈进行迭代优化。操作AI（CUA）则上演抉剔用户的变装，本色使用这些界面来完成各式任务，并将使用过程中遭受的问题反馈给设想师AI。

这个过程中最有趣的创新是盘问团队诱导的"CUA模样板"系统。当操作AI在使用界面时，它会产生无数的操作记录——点击了那里、输入了什么、看到了什么反馈等等，这些记录就像一个详确的"使用日记"。关联词这些原始记录关于设想师AI来说太过冗长和复杂，就像让建筑师阅读居民的逐日生计活水账相同效能低下。

CUA模样板的作用即是将这些冗长的操作记录压缩成一张直不雅的"故事板"。它或者识别出操作过程中的重要神色，将最遑急的界面状态和操作驱散组织成一张1920×1080像素的图片。这张图片就像一个漫画分镜，了了地展示了操作AI是奈何一步步尝试完成任务的，在哪个神色遭受了贫穷，最终是到手照旧失败。通过这种景色，模样板或者将原来的无数视觉信息压缩76.2%，同期保留所掂量键信息，让设想师AI或者快速相识问题所在。

一、AI设想师与AI评委的完整搭档

在这个新颖的合作模式中，编程AI（Coder）和操作AI（CUA）酿成了一双互补的搭档。编程AI就像一个身手深通但致力于本色使用解说的室内设想师，它或者字据需求形容快速生到手能完整的界面，但可能忽略本色使用中的细节问题。操作AI则像一个解说丰富但不会设想的用户，它或者热烈地发现界面使用中的各式问题，但无法我方动手修改设想。

这种单干合作的模式带来了出东谈主料想的恶果。编程AI专注于功能完满和代码编写，它不需要探求东谈主类的审好意思偏好，不错完全按照功能优先的原则进行设想。同期，操作AI提供的反馈完全基于本色的使用体验，莫得主不雅偏见，或者准确指出哪些设想如实影响了任务的完奏效能。

盘问团队发现，这种合作模式在两个层面上都产生了权臣的改造恶果。率先是功能完整性的进步。好多界面在首次生成时，天然看起来功能都全，但在本色使用中却会发现零落重要的交互元素或者某些功能无法正常责任。通过操作AI的本色测试，这些荫藏的功能颓势或者被快速发现并确立。

更有趣的是界面可操作性的改造。传统的界面设想时常追求视觉好意思感，可能会使用较小的按钮、复杂的布局或者过于花哨的动画恶果。天然这些设想对东谈主类用户来说可能很眩惑东谈主，但关于需要精详情位和操作的AI来说却加多了贫穷。通过AI评委的反馈，设想师AI学会了创建愈加"AI友好"的界面——按钮更大更显着、布局愈加精真金不怕火澄莹、重要功能更容易找到和操作。

二、改进性的AUI-Gym测试平台

AUI-Gym平台的设想理念就像建造一个有益的"AI涵养场"。与传统的软件测试环境不同，这个平台完全针对AI的特质和需求进行了优化设想。系数这个词平台涵盖了六个主要的诈欺类别，每个类别都代表了不同的界面设想挑战和使用场景。

诈欺类别（App）包含了11个通用诈欺步调，这些诈欺就像日常生计中最常见的器具，比如餐饮记录器或健康追踪器。这类诈欺的特质是需要处理用户输入、数据不停和个性化成就，对AI来说主要锤真金不怕火的是处理复杂交互过程的本领。

着陆页类别（Landing）包含10个营业和宣传性质的界面，这些界面就像商店的橱窗，主要筹画是展示信息和诱骗用户行径。对AI而言，这类界面的挑战在于相识信息的头绪结构和导航逻辑。

游戏类别（Game）涵盖了9个互动游戏，这些诈欺具有及时响应、动态更新和复杂交互逻辑的特质。游戏界濒临AI来说是最具挑战性的，因为它们普通需要快速反应和精确操作，同期还要相识游戏章程和状态变化。

交互演示类别（Interactive）包含9个强调用户参与的界面，这些诈欺把稳及时反馈和创意抒发。它们锤真金不怕火AI处理动态内容和相识用户意图的本领。

器具类别（Tool）包含7个专科器具诈欺，这些界面普通功能密集、选项复杂，需要AI具备准确相识功能关系和操作限定的本领。

实用步调类别（Utility）包含6个日常赞成器具，比如番茄钟或待办清单，这些诈欺天然功能相对简单，但需要AI相识时辰不停和状态追踪等认识。

为了确保测试的全面性和可靠性，盘问团队为每个诈欺设想了30个不同复杂度的测试任务。这些任务被分为三个类型：中枢功能测试覆按单一功能的基本操作，用户责任流测试评估多神色任务的完成本领，领域情况测试则挑战AI处理极端输入或非范例操作的本领。每个任务都配备了精确的自动考证章程，或者客不雅判断AI是否到手完成了指定操作。

这种全场合的测试设想就像给AI提供了一个完整的"驾驶考试"体系，不仅测试基本的操作本领，还锤真金不怕火在各式复杂情况下的应变本领和任务完奏效能。

三、CUA模样板：将复杂操作变成澄莹故事

CUA模样板的设想是系数这个词盘问中最具创新性的时刻冲破之一。当操作AI在使用界面时，ag登录网址它会产生无数的操作数据——每一次点击、每一个输入、每一次页面变化都会被详确记录下来。这就像一个东谈主在使用电脑时被全程摄像，产生的是一个包含数十个截图和操作记录的详确日记。

关联词，平直将这些原始数据提供给设想师AI就像让建筑师通过不雅看居民的24小时生计摄像来了解房屋设想问题相同低效。大部分信息都是换取和卑不足谈的，信得过有用的信息却被埋没在无数的细节中。

CUA模样板通过智能压缩和信息索求时刻，将这些冗长的操作记录转化为一张信息丰富的"故事板"。这个过程就像一个解说丰富的编订将一部长篇记录片裁剪成精彩的预报片——保留所掂量键情节，去除冗余内容，确保不雅众或者快速相识故事的中枢。

具体来说，模样板系统会分析系数这个词操作过程，识别出重要的交互节点——比如任务起初时的界面状态、每次遑急操作后的界面变化、遭受贫穷时的界面情景以及最终的到手或失败状态。然后，它会将这些重要时刻的界面截图按照操作限定胪列，并字据操作神色的数目动态调换每个截图的大小，确保系数遑急信息都能澄莹地展当今一张1920×1080像素的图片中。

这种设想不仅大大减少了数据量（平均压缩率达到76.2%），更遑急的是提高了信息的可读性。设想师AI不错一眼看出操作AI在哪个神色遭受了贫穷，是因为找不到需要的按钮，照旧因为界面反馈不了了，或者是因为操作限定过于复杂。基于这些澄莹的视觉反馈，设想师AI或者有针对性地改造界面设想。

模样板还会自动生成精真金不怕火的笔墨证据，形容操作过程中发现的主要问题和建议的改造标的。这就像给每个"故事板"配上了精确的解说词，进一步匡助设想师AI相识问题的根源和不停决策。

四、实验驱散：AI如实更懂AI的需求

盘问团队使用三个不同本领水平的编程AI（GPT-5、GPT-4o和Qwen3-Coder-30B）以及两个操作AI（UI-TARS-1.5-7B和Operator）进行了全面的实验考证。实验驱散揭示了许多有趣且遑急的发现。

率先是功能完整性的权臣进步。实验发现，编程AI在首次生成界面时，天然看起来功能都全，但本色上频频零落重要的交互逻辑或界面元素。通过操作AI的本色测试和反馈，功能完整性得到了大幅进步。以进展最佳的GPT-5为例，经过迭代优化后，功能完整性从驱动的67.9%进步到了81.5%，进步幅度达到13.6个百分点。

更令东谈主诧异的是，这种改造在不同类型的诈欺中进展出显着的各别性。游戏类诈欺的改造最为权臣，着陆页和诈欺步调类也有大幅进步，而器具类和实用步调类的进步相对较小。这反馈了不同类型界面的复杂性各别——游戏界面普通具有更复杂的交互逻辑和状态不停需求，因此从AI合作优化中赢得的收益更大。

{jz:field.toptypename/}

在操作到手率方面，天然都备数值相对较低（最高约26%），但改造趋势特出明确。这个看似不高的到手率本色上反馈了任务的高难度——许多测试任务需要AI完成复杂的多步操作，瞄准确性和相识本领条目很高。遑急的是，通过AI合作优化，操作到手率如实得到了抓续改善。

实验还发现了一个有趣的征象：较弱的编程AI从这种合作中赢得的收益更大。Qwen3-Coder-30B和GPT-4o在功能完整性方面的进步幅度远超GPT-5，最大进步达到11.7个百分点。这标明AI合作优化不仅或者改善界面质地，还具有"助力弱者"的性格，或者匡助本领较弱的AI达到更好的设想水平。

通过对比不同类型的反馈机制，盘问团队发现功能完整性反馈和操作体验反馈各有不同的作用。功能完整性反馈主要匡助不停"能不成作念"的问题，确保界面具备完成任务所需的系数基础功能。而操作体验反馈则主要不停"好不好作念"的问题，优化界面的易用性和操作效能。两种反馈机制的承接产生了最佳的恶果，证据了全场合评估的遑急性。

五、AI偏疼的界面设想原则

通过深刻分析实验驱散和优化过程，盘问团队回来出了一系列"AI友好"的界面设想原则。这些原则与传统的东谈主类导向设想有着显着的永别，揭示了AI在界面使用上的独有需乞降偏好。

最遑急的原则是状态可见性。AI需要或者了了地"看到"每个操作的驱散和系统确现时状态。传统界面可能会使用临时的教唆信息、动画恶果或者荫藏的状态变化来提供反馈，但这些对AI来说时常难以准确拿获。AI偏疼的界面会将系数遑急的状态信息平直清晰在界面元素中，比如篡改按钮的笔墨、更新清晰区域的内高兴者修改界面元素的属性。

第二个遑急原则是交互的鲁棒性。AI需要界面元素具有明确的领域、踏实的位置和澄莹的记号。传统界面可能会使用较小的按钮、动态布局或者依赖于悬停恶果的交互，这些设想加多了AI准详情位和操作的贫穷。AI友好的界面会使用更大、更显着的交互元素，保抓布局的踏实性，并确保所掂量键功能都能在范例视窗范围内平直探询。

第三个原则是输入的优容性。AI生成的输入数据可能与东谈主类用户有所不同，界面需要或者收受这些输入而不进行过度的神色查验或升天。举例，AI可能会输入莫得特定神色的文本数据或者以不同的景色组织信息，界面应该具备宽裕的无邪性来处理这些输入。

第四个原则是行径的可揣摸性。AI需要界面具有一致的行径模式和澄莹的因果关系。界面不应该在加载时自动触发复杂的操作或状态变化，而应该保抓在中性、踏实的驱动状态，恭候用户的明确指示。系数的状态篡改都应该是用户操作的平直驱散，幸免异步或延长的状态更新。

通过对比优化前后的界面设想，盘问团队发现到手的改造普通包括几个方面：去除荫庇性元素，专注于功能性设想；增大交互元素的尺寸和对比度；简化布局结构，减少嵌套和滚动需求；提供明确的视觉反馈，确保每个操作都有了了的驱散清晰；添加赞成的交互景色，比如为滑块控件提供数字输入选项。

这些设想原则的诈欺不仅提高了AI的操作到手率，还不测地改善了界面的举座可用性。许多盘问参与者发现，优化后的界濒临东谈主类用户来说也愈加澄莹和易用，这标明"AI友好"的设想原则与高超的可用性设想在好多方面是一致的。

说到底，这项盘问开启了一个全新的念念路：咱们不再被动让AI适合东谈主类设想的环境，而是不错让AI参与到环境的设想中来。就像让解说丰富的居民参与房屋设想相同，让本色使用界面的AI参与界面设想或者产生更实用、更高效的驱散。

这种"AI为AI设想"的模式可能会影响将来的软件诱导景色。跟着AI助手在日常责任中上演越来越遑急的变装，咱们可能需要重新念念考界面设想的基本原则。传统的以东谈主为本的设想理念需要扩张为以"东谈主机合营"为本的设想理念，创造出既合适东谈主类使用，也合适AI操作的新一代界面。

盘问团队的责任证据了这种合作模式的可行性和灵验性，为将来的东谈主机交互盘问开辟了新的标的。通过AUI-Gym平台和CUA模样板时刻，他们不仅创造了实用的器具，更遑急的是考证了一种全新的设想玄学——让使用者参与设想，让评价者带领创造。这种模式可能会在更普通的规模产生影响，从软件界面设想扩张到其他需要优化东谈主机交互的诈欺场景。

天然，这项盘问也建议了一些值得念念考的问题。AI设想的界面是否会过于"冷飕飕"而致力于东谈主性化的和睦？如安在AI友好和东谈主类友好之间找到均衡点？这些问题需要在将来的盘问和施行中赓续探索妥协答。

Q&A

Q1：AUI-Gym是什么？

A：AUI-Gym是由牛津大学、新加坡国立大学和微软蚁合诱导的AI界面设想测试平台。它包含52个不同类型的诈欺步融合1560个测试任务，有益用于让AI学习奈何设想和优化用户界面。这个平台就像一个AI专用的"装修涵养场"，让编程AI和操作AI或者合作改造界面设想。

Q2：为什么AI需要有益设想的界面？

A：传统界面是为东谈主类设想的，充满了荫庇性元素和复杂布局，这些对AI来说反而是谢却。AI需要更平直、更澄莹的界面元素，比如更大的按钮、更显着的状态清晰、更简单的布局结构。盘问发现，针对AI优化的界面不仅能提高AI的操作到手率，对东谈主类用户来说也愈加易用。

Q3：CUA模样板有什么作用？

A：CUA模样板是这项盘问的中枢创新，它能将AI操作界面时产生的无数记录压缩成一张澄莹的"故事板"图片。就像将一部长电影裁剪成精彩预报片相同，它保留所掂量键操作神色，去除冗余信息，让设想师AI能快速相识操作中遭受的问题，从而有针对性地改造界面设想。

上一篇：AsiaGaming 2025世界互联网上网做事行业年会暨生态改进大会在成都举行
下一篇：ag登录 “死了么”APP书记更名

推荐资讯