2026-02-19 19:06 点击次数:162

文 | 定焦One,作家 | 金玙璠,剪辑 | 阮梅
最近科技圈的两场“AI秀”先后刷屏。
在大洋此岸,当地时分1月12日,苹果和谷歌文告合作,要给Siri用上谷歌的Gemini。但苹果的作念法,不是径直让Gemini操作手机上的App,而是用户说什么,Siri先剖判意图,然后去调用相应的诈欺。换句话说,AI仅仅个“调养员”。这套操作,很苹果。
另一边,国内的情况就侵略得多。字节开头的豆包AI手机一度刷屏,AI不错帮你打车、购物、订票,就像一个信得过的“全能助理”。这套嘱咐,很互联网。
你看,相通是AI手机,杀青的方式完好意思不同。这背后,其实是两条时刻道路:
一条道路,是让AI和App学会“对话”,通过范例接口径直调用诈欺才气,被称为A2A(Agent-to-Agent)。这条路需要通盘东说念主坐下来通盘制定例则,走得慢,但更稳妥。
另一条道路,是给AI一把“全能钥匙”,通过系统权限“读屏”并模拟操作APP,被称为GUI(图形用户界面)。这条路浅易径直,走得快,但可能存在风险。
这背后不仅仅时刻选用,实质上,是不同公司基于自身利益与生态位,对过去主导权的一次押注。谁的模式能赢得用户,很可能将决定:下一个十年,咱们如何与手中的开发共处。
两种解法,两种逻辑要看懂这场牌局,咱们先得看清这两条道路背后的逻辑。
GUI道路,主打一个“快”字。
它的杀青方式,最初是AI助手借助安卓系统中一个名为“无隔断功绩”的功能。这项权限最初是为有见识隔断的东说念主士遐想的,好让他们能通过语音教唆来操作手机。当前,AI通过这项权限不错“读懂”屏幕上的笔墨和图标,然后模拟东说念主的手指去点击、滑动,从而操作种种App。之后不久,阛阓上出现了比调用无隔断权限更“开头”的道路,也便是AI助手拿到了手机厂商给我方的系统签名权限,从而通过程度注入,更丝滑、无感地模拟操作。
这样作念的平正无庸赘述——它绕开了通盘App厂商,径直把AI才气隐敝到了现存的诈欺生态中。关于急于在AI波浪中霸占身位的厂商来说,这是最快的考据旅途。
“当用户风气了通过一个AI助手来操作通盘App时,这个助手就成了新的流量进口,这背后的贸易价值,特殊有诱骗力。”温暖互联网公司的投资东说念主林亮默示。
不外,关于用户来说,体验现阶段的GUI可能“时灵时不灵”。
“GUI很依赖诈欺界面的牢固性”,诈欺开发者陈刚默示,“要是App更新了界面遐想,比如一个按钮的位置变了,齐可能让AI‘点错’位置,统统任务经由就会卡住。”
陈刚指出,当任务链路变万古,这种不牢固性会被放大。稀有据高傲,一个包含5个才略的操作,即便每一步的告捷率齐高达90%,统统任务的最终告捷率也可能骤降至59%。
除了体验上的不细则性,许多用户记忆的是安全和诡秘风险。GUI模式下,AI需要通过“读屏”来剖判屏幕内容,进而决定下一步操作,就意味着,它需要及时获取屏幕信息。尽管厂商们承诺数据会加密或不上传,但用户心中不免会有疑虑:用户的数据在什么情况下被网罗、如何被使用、谁来厚爱?
A2A则是完好意思不同的念念路。它不让AI“看”屏幕,而是为AI和各个诈欺建设一套通用的“对话谈话”——也便是范例的API接口。
这听起来有点轮廓,你不错联想这样的场景:你敌手机说“帮我打车去机场”,系统Agent剖判后,径直告诉相应的Agent:“用户要去机场,请提供打车功绩。”出行App的Agent收到苦求后,在我方的权限范围内完成任务。
A2A的中枢,是“合作”。这一齐线中有个要津遐想叫“双重授权”:同期取得用户和诈欺方的授权。
这样一来,权责变得清爽了。用户不错对不同的App成立不同的权限等第。比如,允许AI读取外卖App来比价,但辞谢读取银行App;关于转账这样的高风险操作,每次履行齐需要你的特地阐述。由于数据流动是通过明确的接口进行的,是班班可考的,即便出了问题也不错追忆。
那为什么不是通盘厂商齐选用A2A呢?
因为妥洽资本很高。A2A需要操作系统厂商、诈欺开发者共同鼓励一套范例化的左券。莫得饱和多的诈欺守旧,A2A的价值就闪现不出来;莫得明确的价值,开发者就短少适配的能源。
是以,A2A道路注定是一场“历久战”,它“慢”在生态共鸣的达成与基础设施的建设。
当前,两条道路的逻辑就清爽了:GUI虽有一定风险但高效,能让厂商用最小代价快速考据AI手机的可能性。A2A稳妥但渐渐,需要更多协长入干预,不外一朝告捷,就能建设一套更安全的体系。
有东说念主可能会问,GUI道路就不成通逾期刻技巧杀青分级授权吗?表面上不错,但这样作念也就失去了联系于A2A的“快速部署”上风,同期还要承受更高的时刻资本。
当前行业内相对公认的旅途是,GUI探路尚可,因为它会把智能体的便利和风险齐充分呈现出来,最终照旧要看A2A,因为唯有满足了安全和便利两个条款,才能走得远。要是跳出中国阛阓,内行的科技巨头们是如何选用的呢?
不同道路背后,巨头们的算盘在手机端,国外巨头险些齐选了A2A,推动API(接口)集成。
苹果最径直。它升级了“App Intents”框架,要求通盘想接入AI功能的诈欺,齐必须按照苹果制定的范例提供API接口。
{jz:field.toptypename/}谷歌的路更复杂。它一边推“AppFunctions API”来合并智能体交互范例,一边鼎力扩充各种诈欺适配,这是个渐渐的过程。
微软自研了“AutoGen”这样的多智能体对话框架,探索不同AI智能体怎么更好地协同。
OpenAI和Anthropic天然不径直作念手机,但它们推动的“函数调用”和“器具使用”功能,实践上便是A2A的时刻前身。把柄Anthropic公布的数据,从2025年3月的2000多个活跃MCP功绩,到12月照旧特出1万个——这个增速特殊惊东说念主。
为什么不管是苹果、谷歌这样的操作系统霸主,照旧微软、OpenAI这样的AI领头羊,齐选了渐渐的接口道路?
因为它们是现存次第的建设者和最大受益者。
苹果、谷歌的中枢利益是珍惜平台、牢固开发者。未经三方授权就浅易使用GUI,这种“外挂式”的道路,实质上是在挑战它们的总揽地位。是以它们势必会选A2A这种“可控”的决策,把AI才气紧紧掌持在我方手中,手脚强化生态约束力的新器具。
微软手持Windows和Office两大王牌,其AI策略的中枢是进步坐褥力,功绩企业客户。关于这些客户来说,安全和牢固是第一需求,无法接受GUI的不细则性和安全风险。
OpenAI手脚AI时刻的“军火商”,指标是让我方的模子被尽可能多的诈欺“调用”。是以它必须提供牢固、可靠的API接口,而不是无法确保收尾的GUI器具。
国外巨头是不是完好意思烧毁GUI了?并非如斯。
谷歌的Gemini和微软的Copilot,在手机上推出了“屏幕分享”功能——让用户不错把屏幕分享给AI,AI不错“看”并回应问题,但自身不会去操作。
国外巨头的GUI尝试,主要在PC端,而且,严格约束在受控环境(如浏览器、沙盒、假造机)内。
OpenAI把具备GUI操作才气的Agent截止在Atlas浏览器内,明确辞谢它开动代码、下载文献或看望腹地诈欺。Anthropic在2024年底就发布了Computer Use API,但筹办功能于今仅供开发者在假造环境中测试。
微软的作念法最具代表性。在其Recall功能因高频截屏激勉诡秘争议后,它径直把“看”和“作念”两个动作拆分了——Copilot Vision只可“看”用户分享的诈欺并提供提倡,不成操作;有操作才气的Copilot Actions必须在单独的沙盒桌面中进行。
是以,国外巨头出于“珍惜现存次第”的辩论,坚决地走A2A道路,GUI尝试只停留在“测试版”,并未向浩大用户大范畴扩充。
比拟之下,国内阛阓风物更复杂,巨头中既有“挑战者”也有“守成者”,选用也因此更种种。
字节开头走的是高权限GUI道路。它通过豆包大模子与中兴努比亚深度合作,推出集成系统级AI助手的“AI手机”,但愿绕开现存的生态壁垒,争夺下一代流量进口。
阿里、华为、OPPO,齐布局了A2A道路。
阿里的动作很径直,便是通过自建的、可控的API体系,将“通义千问”这个超等大脑,深度集成到淘宝、支付宝、高德等中枢业务中。
华为则在2025年底发布的HarmonyOS 6中,通过“意图框架”,杀青了“小艺”智能体与十余款鸿蒙原生诈欺的A2A联接。
OPPO也聚合了支付宝等头部诈欺,共同探索A2A的行业范例。
但这些看似调换的选用背后,是各自的贸易考量。
对阿里来说,这套嘱咐“攻守兼备”。一方面,手脚中国头部电商平台,中枢利益是用可控的API保护广阔的往复生态。但另一方面,它又不啻于注视,而是通过通义千问打造一个进口,让用户在阿里生态内完成更多往复和功绩。
华为和OPPO天然不想只作念硬件制造商,容易被“管说念化”,是以,在A2A道路之上,它们还在走一条以自家操作系统或AI大模子为中枢的“混杂生态”的道路。在这套体系里,既有范例的API调用,也有更底层的系统级智能体,最终目标齐是为了掌持生态主导权,从一个“开发提供商”,升级为过去生态的“规章制定者”之一。
简言之,国表里厂商多数齐选了A2A。仅仅差别在于,国外巨头用它来强化现存约束;国内厂商则用它来争取话语权,一边参与A2A的范例制定,一边通过自身的OS、大模子或生态上风,建设以我方为中枢的混杂生态。
为什么主流厂商更倾向A2A?选用背后,是不同玩家在牌桌上的位置使然。不外,从这些主流厂商的选用中,咱们不错得出一个论断:GUI道路天然能快速考据AI手机的可能性,但A2A正取得越来越多主流厂商的疼爱。
是因为A2A更安全、更牢固吗?不全是。它之是以被看作是过去,不错从时刻演进、监管合规和贸易资本三个维度来看。
从时刻角度看,A2A更稳当AI单干联接的实质。
GUI道路要求大模子同期承担“感知屏幕(眼)、野心任务(脑)、模拟操作(手)”的责任,包袱重、效果低且易出错。A2A道路,则是让AI追念到它最擅长的“大脑”脚色,专注于剖判与任务调养,具体的履行交给各垂直领域优化的诈欺智能体。这种“各司其职”的模式,不仅更高效可靠,也为过去更复杂的智能体联接打下了基础。
从监管角度看,A2A是更安全、更合规的选用。
GUI的“读屏”行为在内行范围内齐面对越来越严格的诡秘监管。2025年12月,好意思国德州告状了包括三星在内的多家智能电视制造商,指控它们通过高频截屏坐法网罗用户数据。这为通盘吸收访佛时刻的厂商敲响了警钟。
而A2A由于数据流动通过明确的接口进行,何况有“双重授权”机制保险,为厂商建设了一说念合规“防火墙”。
临了,亦然最要津的,从贸易资本角度看,A2A是更经济的选用。GUI决策看似“快”,但遥远运营资本高。
陈刚作念了个类比:
GUI模式就像雇了一个需要24小时盯着监控屏幕的保安,要不停地看、不停地分析图像。这销耗的是大批的“脑力”(云霄诡计资源)。
A2A模式是建设了一个高效的里面通信系统。当需要某个部门配合时,发送一条结构化的浅易教唆即可。这销耗的仅仅“通信费”(API调用用度)。
关于手机厂商来说,要是几亿用户每天齐在用AI读屏,算力与带宽开支将是一笔巨大的开支。这种贸易模式,在范畴化商用的远景下,险些是不可赓续的。
是以不管从时刻、监管照旧贸易资原来看,A2A齐是更优的选用。更热切的是,一朝这个生态建设起来,它将带来全新的贸易契机。这亦然最让行业东说念主士兴隆的原因。
开头,左券层与中间件将成为中枢。PC时期有Windows,迁移互联网时期有iOS和安卓。在AI时期,A2A、MCP等左券范例,就像是新时期的“操作系统”和“开发谈话”。谁能掌持范例,谁就可能成为下一个平台级的巨头。
其次,“智能体工场”与垂直Agent功绩商将迎来爆发。基于范例左券,为金融、医疗、物流等特定行业开发专属智能体,将成为一个巨大的阛阓。过去,可能会有特意的“智能体商店”,你不错像下载App一样,为你的手机雇佣一个“私东说念主本心照顾人”或“专属旅行野心师”。这为无数中小开发者,提供了全新的创业契机。
临了,现存公司也将在重生态中再行找到我方的位置。云厂商将成为智能体的“进修场”,手机厂商则成为智能体的承载末端。它们齐将取得新的增长。
关于中国的科技公司而言,这是一个在底层左券和基础设施上,与内行巨头同台竞技的绝佳契机。
结语聊了这样多时刻和贸易,咱们不妨回到一个最压根的问题:AI,到底应该如何功绩于东说念主?
AI手机的发展,正从功能炫技的“宗旨期”,进入生态构建期。GUI和A2A,从不同维度给出了各自的回应。
GUI用一种最直不雅的方式,完成了初步的阛阓发蒙。它让咱们提前看到了AI手机过去的神气——一个能听懂、会操作的伙伴。这种“快”的上风,匡助厂商们快速考据了AI手机的可能性。但安全性存疑、经济性不高,决定了它更可能是一种过渡决策。
A2A道路尽管起步渐渐、妥洽粗重,但它在作念一件更基础的事——为AI和诈欺之间建设一套清爽的“规章”。这些规章看起来很复杂,但实质上是在回应一个问题:AI应该在哪些方位有权利,在哪些方位莫得。一朝这套规章被浩大接受和诈欺,就能酿成一个更牢固、更可控的生态。这势必是一场历久战。
这场道路之争,往深了想,其实是咱们但愿与机器建设何种筹办的念念考。
AI手机的过去,概况并不在于让手机变得无所不成,去替代咱们作念通盘事。而在于,它能否成为一个更机灵的“副驾驶”,在咱们作念决策时,提供更精确的信息、更周至的提倡,最终把选用权交还给咱们我方。说到底,时刻终究是为东说念主功绩的。
*应受访者要求,文中陈刚、林亮为假名。