中期汇报——基于LLM的UI自动化

1. 项目背景

随着移动应用生态的迅猛发展，用户对智能交互的需求日益增长。传统UI自动化工具（如Appium）依赖预定义脚本，难以应对动态界面和复杂任务。

核心目标

构建一个能够“看懂”手机界面、“听懂”用户指令并自主完成操作的智能代理系统。

图 1：项目背景与概念演示

本项目采用了分层架构设计，确保系统各模块解耦且高效协作。

图 2：技术路线架构全景图

图 3：项目核心目标与设计机会分析

UI感知 实时解析App界面结构（控件类型、文本、位置）。

意图理解 准确理解自然语言指令（如“帮我订一张高铁票”）。

动作规划 生成并执行合法、高效的UI操作序列。

泛化适应 支持跨应用、跨平台，无需单独编写规则。

针对拼多多、得物、淘宝等应用的典型页面构建了结构化UI数据集，验证了现有LLM在新App上的零样本操作能力。

图 4：针对拼多多App构建的结构化任务数据集

构建了轻量级操作知识库，涵盖常见用户意图、标准操作路径及异常处理策略，显著提升了操作成功率。

图 5：集成至Agent决策流程的操作知识库

已部署开源Agent Cuga，正在接入LlamaTouch测试集以对比系统性能。

01

从单点到泛化

系统性解决跨App UI理解难题，推动技术实用化。

02

知识+LLM双驱动

结合显式知识与模型能力，兼顾准确性与灵活性。

03

强调可评测性

引入外部Agent与标准测试集，体现工程严谨性。