中期汇报:基于LLM的UI自动化

探索大语言模型与移动端UI自动化的深度融合

1. 项目背景

随着移动应用生态的迅猛发展,用户对智能交互的需求日益增长。传统UI自动化工具(如Appium)依赖预定义脚本,难以应对动态界面和复杂任务。

核心目标

构建一个能够“看懂”手机界面、“听懂”用户指令并自主完成操作的智能代理系统。

基于LLM的UI自动化概念

图 1:项目背景与概念演示

2. 技术路线

本项目采用了分层架构设计,确保系统各模块解耦且高效协作。

技术路线流程图

图 2:技术路线架构全景图

UI感知层

  • 使用YOLO模型进行图标检测
  • 使用OCR技术识别界面文本内容
  • 利用视觉模型进行语义理解

语义理解层

  • 整合用户指令、当前UI状态及历史记录
  • 通过大语言模型进行上下文理解

动作规划层

  • 解析LLM输出的高层动作
  • 将抽象动作映射为具体坐标或控件标识

执行与反馈层

  • 通过ADB执行具体操作
  • 实时获取新界面状态,形成闭环反馈

3. 项目目标与设计机会

项目目标与设计机会

图 3:项目核心目标与设计机会分析

UI感知 实时解析App界面结构(控件类型、文本、位置)。
意图理解 准确理解自然语言指令(如“帮我订一张高铁票”)。
动作规划 生成并执行合法、高效的UI操作序列。
泛化适应 支持跨应用、跨平台,无需单独编写规则。

4. 当前进展

4.1 多App UI识别能力拓展

针对拼多多、得物、淘宝等应用的典型页面构建了结构化UI数据集,验证了现有LLM在新App上的零样本操作能力。

拼多多任务结构化数据示例

图 4:针对拼多多App构建的结构化任务数据集

4.2 知识库驱动的操作增强

构建了轻量级操作知识库,涵盖常见用户意图、标准操作路径及异常处理策略,显著提升了操作成功率。

操作知识库示例

图 5:集成至Agent决策流程的操作知识库

4.3 Agent评测体系搭建

已部署开源Agent Cuga,正在接入LlamaTouch测试集以对比系统性能。

5. 项目意义与创新点

01
从单点到泛化
系统性解决跨App UI理解难题,推动技术实用化。
02
知识+LLM双驱动
结合显式知识与模型能力,兼顾准确性与灵活性。
03
强调可评测性
引入外部Agent与标准测试集,体现工程严谨性。

6. 下一步计划

  1. 完善知识库体系:扩展至淘宝、得物,探索知识自动抽取机制。
  2. 提升UI解析鲁棒性:针对动态内容、WebView等难点优化感知模块。
  3. 加速评测体系建设:完成LlamaTouch测试流程跑通。
  4. 探索微调策略:基于自建数据集进行指令微调(SFT)。