AI Agent(如 OpenClaw)如何彻底重构测试人员的工作内容

最近一直在思考如何在测试过程中使用openclaw等AI agent工具来提升测试效率。
直接用AI写用例一直是各个大厂关注的重点,各家也有了一定的突破,可以预见在不久的将来,一些通用用例的编写和执行是可以交给AI去完成的。
不过复杂业务场景下的用例编写和执行还是需要人工参与比较好。
这是因为
- AI对复杂业务场景的理解可能不如测试领域的业务专家;
- 测试策略的制定和把控最好需要有经验的测试人员进行介入,否则方向错了,做的越多,错的越多;
- 如果AI在复杂业务场景下的验证工作出了问题,那就找不到人背锅了;
所以我忽然意识到,与其苦苦追求提升测试效率,不如思考一下如何去提升测试人员整体的日常工作效率。
因为毕竟编写用例以及执行用例只是日常工作的一部分。
如果除了这两部分之外的其他杂事和重复工作的完成效率提升了,那么测试人员的整体输出也会有显著的变化。
测试人员的一天
大部分测试人员的典型一天可能是这样的。

早晨启动阶段(9:00–10:30左右)
- 开电脑 → 查看/回复邮件、钉钉/企业微信(经常一早上要回几十条)
- 参加站会/早会/Scrum Daily(10–15分钟):汇报昨天做了什么、今天计划做什么、阻塞困难以及卡点是什么
- 查看Bug管理系统(Jira、禅道、Tapd):自己昨天提的Bug有没有被开发修复/重开/驳回
- 拉取最新构建/提测包,部署或更新测试环境,如果环境被开发玩坏了,还要求助🙏开发进行修复
- 快速过一遍需求变更/新提测单/hotfix说明,评估影响范围
上午核心测试阶段(10:30–12:30 / 13:30–17:00)
最占时间的部分,通常占一天50–70%:
- 执行测试用例(手动为主,自动化为辅)
- 跑冒烟测试/核心路径验证(新版本可能需要)
- 按优先级逐条执行详细用例
- 探索式测试( Exploratory Testing):随便点一点、试试各种组合、测试一下弱网、看看暗黑模式、有多设备就换设备跑一下
- 接口测试(Postman/JMeter/自己写脚本)
- 发现Bug → 复现 → 提Bug单
- 截图/录屏/日志/复现步骤/写清楚预期结果和实际结果
- 做严重程度和优先级的判断(比如P0致命/P1高/P2中/P3低)
- @开发、跟进讨论(经常要语音/会议演示)
- 跑自动化用例(如果有维护了自动化测试用例的话)
- 触发CI/CD pipeline后看下结果
- 分析失败用例的原因,是代码问题,环境问题,还是用例问题
- 修复脚本,ui用例可能要更新locator或者加等待;接口用例就增加字段或者修改已存在的字段名称
- 专项测试(视项目阶段)
- 性能或者压力测试(JMeter/Locust)
- 安全测试(SQL注入/XSS/垂直或水平越权)
- 兼容性/国际化/无障碍
- 回归测试(尤其是大版本后)
下午/傍晚协作 & 收尾阶段(15:00–18:30)
- 参加各种会议(需求评审、缺陷评审、联调会、上线评审、复盘会)
- 与开发/产品/运营对齐(最耗时也最关键)
- 需求不清晰,那么怼产品
- Bug开发不认,那么拉产品一起怼开发
- 上线有风险,各种升级,拉所有人一起评估
- 写/更新测试文档
- 写各种测试报告(日报/周报/版本报告)
- 做测试总结,覆盖率统计,典型bug分析,bug趋势分析,输出质量指标
- 写操作手册或者输出验收的checklist
- 环境维护/数据准备
- 造数、刷库、Mock接口
- 清理脏数据、回收资源
- 学习/工具优化(优秀测试的常态)
- 研究新需求的技术实现,或者参加开发的方案评审
- 学习/优化自动化框架
- 玩OpenClaw/Claude等AI Agent写用例/生成脚本/分析日志(这个比较科幻)
一天结束前(下班前30分钟)
- 汇总当天Bug/测试进度 → 发日报/更新看板
- 确认明天要测的内容、功能是否提测,环境是否ready
- 把未完成的用例/阻塞事项记下来
可以看出典型QA的一天比较零碎,可以工程化的部分其实有限。不过我们仍然可以提炼出一些可以进行自动化的非测试场景。
可能的自动化场景
第三方服务 & API监控
- 定时轮询第三方接口的health检查接口,异常时立即发送提醒
- 每周对比外部API响应结构变化
- 监控自家API的feature flag、数据库迁移后数据、微服务间调用等drift问题
- API key、证书、sandbox账号到期提前多级提醒
CI/CD集成与通知
- 流水线结束后自动格式化测试结果发到测试群(全绿打勾、失败列出详情)
- 记录并统计flaky test数据,给团队提供真实数字
- 监听staging部署,自动冒烟验证,成功/失败分别通知
- 给PR加上“needs-qa”标签自动提醒QA
- 一键多渠道发发布/回滚/重大事件通知
日志监控与报警
- 每日早会前自动总结昨夜错误日志并发到测试群
- 特定错误模式实时自动提bug发通知
- 部署后30分钟重点观察新错误类型
测试数据生成与管理
- 一键重置+database seed测试环境(各种角色用户,一键生成所有的核心数据和测试数据)
- 为性能测试批量生成高仿真度的dummy data
- 跨环境(dev/staging)同步相同测试数据
Jira/TAPD与缺陷管理自动化
- 缺陷状态变化自动提醒相应QA
- Epic下所有bug关闭后自动推进Epic状态
- 新bug创建时查重并添加参考链接
- 每周bug老化报告(按缺陷年龄来分桶)
- 自动填充规范的bug模板(从日志或简短描述生成)
环境与部署管理
- 每天早8点检查所有环境健康
- 记录每一次部署历史到专用的测试群
- 自动总结git diff,给出QA关注点
- 跨环境版本对比,提醒drift
报告与数据汇总
- 每周五自动发测试通过率、周环比
- 每天自动生成日报
- 发布前一键生成上线前的检查清单
- 持续跟踪覆盖率趋势,下降时报警
上面的自动化场景尽管跟测试没有直接关系,但却把QA工作中最烦人、最耗时、最不体现技术价值的那一半(通知、检查、数据准备、报告、提bug)给自动化掉了。
这样测试人员可以把更多的精力放在更重要的事情上,无形之中增加了测试的时间。
用AI Agent来实现自动化工作
这些工作用openclaw之类的agent其实是可以很好的完成的。
比如上面提到的自动总结git diff,给出QA关注点的功能,我们就可以用openclaw的skill来实现。
我用AI生成了1个SKILL.md文件,大家可以参考一下。
---
name: git-diff-qa
description: "Generate git diff skill focused on QA/测试关注点。用于在提交Review或提测前,快速梳理这次变更的QA关注点。"
---
# Git Diff + QA关注点生成 Skill
目标:在提交代码前 / PR Review 时,通过 `git diff` 分析本次变更,帮助开发者/ reviewer / QA 快速判断:
- 这次改动影响了哪些关键路径?
- 是否需要QA重点验证?
- 建议QA关注的点有哪些?
## 快速判断是否需要QA介入的 checklist
```text
文件/目录包含以下任一情况 → 建议拉QA:
▸ src/main/java/...Controller.java
▸ src/main/java/...Service.java (核心业务逻辑)
▸ src/main/resources/application*.yml / application*.properties
▸ src/main/resources/mapper/*.xml
▸ pom.xml / build.gradle / package.json / yarn.lock / go.mod
▸ Dockerfile / docker-compose.yml / k8s/*.yaml
▸ shell脚本 / python / lua / js 运维脚本
▸ 包含了 @Cache* / redisTemplate / rocketmq / kafka / rabbitmq 的改动
▸ 新增/修改了定时任务 (@Scheduled / quartz / xxl-job)
▸ 权限相关改动 (shiro/spring-security/jwt/sa-token)
▸ 异常处理、全局拦截器、Filter、HandlerInterceptor 变更
▸ 数据库表结构变更(哪怕只是注释)
▸ 新增对外接口、新增枚举值、状态流转变更
````
## 常用命令组合(建议复制粘贴使用)
### 1. 看当前分支与目标分支的完整 diff
```bash
# 假设你要合到 main 分支
git diff origin/main...HEAD
# 或者指定 PR 目标分支(更推荐)
git diff origin/release-2026Q1...HEAD
```
### 2. 只看改动文件名(最快判断是否需要QA)
```bash
git diff --name-only origin/main...HEAD
# 按类型筛选
git diff --name-only origin/main...HEAD | grep -E '\.(java|kt|xml|yml|yaml|properties|sql|sh|py|js|ts|go|php)$'
git diff --name-only origin/main...HEAD | grep -E 'Controller\.java$|Service\.java$|application.*\.ya?ml$|mapper/.*\.xml$'
```
### 3. 带统计信息(+多少行 -多少行)
```bash
git diff --stat origin/main...HEAD
# 只看改动比较大的文件
git diff --stat origin/main...HEAD | sort -k 2 -nr | head -15
```
### 4. 快速看配置、数据库、接口相关改动
```bash
# 配置文件
git diff origin/main...HEAD -- application*.yml application*.properties bootstrap*.yml
# sql / mapper
git diff origin/main...HEAD -- '*.sql' 'mapper/*.xml'
# Controller 接口层
git diff origin/main...HEAD -- '*Controller.java' '*Facade.java' '*Api.java'
# 新增文件(常包含高风险点)
git diff --name-status origin/main...HEAD | grep '^A'
```
## 推荐的 QA 关注点输出模板(你可以用 git diff 内容套这个模板)
```text
本次改动概要:_______________________________
是否建议QA介入:【是 / 否 / 建议冒烟验证即可】
QA重点关注点建议(按风险从高到低):
1. _______________________________
- 影响路径:___________________
- 预期行为:___________________
- 异常case:___________________
2. _______________________________
...
3. 基础功能冒烟(几乎所有改动都需要):
- 登录 / 鉴权
- 列表查询(分页、搜索)
- 核心业务主流程(如下单、支付、发货、退款等)
- 接口入参边界(空值、超长、负数、非法枚举)
- 并发场景(如果涉及库存、余额、积分等)
涉及公共组件/基础改动(高危):
□ 全局异常处理
□ 鉴权 / 权限过滤器
□ 缓存使用变更
□ 消息队列生产/消费
□ 定时任务
□ 配置中心 key 变更
□ 数据库字段 / 索引变更
□ 枚举值新增/变更/删除
建议测试环境:
□ 日常环境冒烟
□ 预发环境回归
□ 生产数据影子验证(如果涉及核心金额/库存)
额外备注:
- 是否需要灰度 / 分流验证?
- 是否有回滚方案 / 监控指标?
```
使用示例对话:
> 这次改了什么呀?要不要测一测?
> → 先跑 `git diff --name-only origin/main...HEAD` 给我看看改了哪些文件,我帮你判断要不要拉QA,以及大概要测哪些点。
```
重构后的QA一天工作流程(AI Agent自动化时代)
如果我们真的使用openclaw等AI Agent工具提升了测试人员的工作效率,那么测试人员典型的一天大概会是下面这样的。
早晨启动阶段(9:00–9:30左右,缩短至30分钟)
- 自动化主导,QA只需快速审阅:
- 开电脑后,AI Agent已自动发送昨夜/早间的总结通知(到企业微信/Slack/测试群):包括第三方API健康检查结果、日志错误总结、环境健康报告、部署历史、flaky test统计、周bug老化报告等。如果有异常(如API响应结构变化、证书到期、drift问题),AI已提前多级提醒相关方,QA只需确认是否需人工干预(如果AI提的bug有误,快速人工介入修复)。
- 参加站会/早会(10-15分钟):汇报昨天高价值输出(如新测试策略),今天计划(如探索特定风险场景)。AI已自动更新Jira/TAPD看板(比如Epic状态推进、bug状态变化提醒),无需手动追踪。
- 节省时间:原本的邮件/Bug系统查看、环境拉取、需求变更评估等被AI Agent定时任务/监控取代。
上午核心测试阶段(9:30–12:00 / 13:00–15:00,扩展至4-5小时)
这是重构后最受益的部分,QA精力从“重复执行用例”逐渐转向“创新与深度质量评估”阶段:
- 测试执行与Bug处理(AI辅助为主):
- AI Agent自动跑冒烟/回归/接口/兼容性测试(比如监听staging部署后30分钟验证结果,失败自动通知+格式化结果)。QA监督AI输出:审阅自动化用例结果,校验AI漏掉的边缘场景(这个部分还是要人工介入的)。
- 发现Bug时,AI自动查重、填充模板(从日志/描述生成规范Bug单)、提单并@开发。QA只需验证高优先级Bug的复现/严重性,焦点放在探索式测试:如模拟真实用户行为、弱网/多设备组合、业务逻辑深度挖掘等。
- 专项测试(如性能/安全):AI生成高仿真dummy data,跑压力测试;QA分析结果,设计优化策略。
- 数据与环境准备(几乎全自动化):
- 一键重置环境+seed数据(各种角色/核心测试数据),跨环境同步无需手动。QA只需指定prompt(如“生成1000条高仿真订单数据,覆盖异常场景”),让AI自动执行。
- 节省时间:手工跑用例、造数、环境维护从几小时减至分钟,QA就可以进行更重要的工作,比如参与需求评审,设计测试策略,设计核心场景用例和异常场景用例等。
下午协作 & 优化阶段(15:00–17:30,精简至2-3小时)
- 会议与协作(更高效):
- 参加需求/缺陷评审、上线评审:AI提供git diff总结、关注点清单、覆盖率趋势报警,QA基于此给出更多建议(比如“这个变更可能引入drift,建议加监控”)。
- 与开发/产品对齐:AI监听PR标签、CI/CD结果,自动提醒QA介入。重大事件(如发布/回滚)一键多渠道通知,无需手动发文。
- 文档与报告(自动化生成,QA审阅/优化):
- AI自动生成日报、周报、测试通过率、周环比、上线检查清单以及其他质量指标。QA快速审阅,调整和优化测试策略(比如“新feature导致覆盖率下降,建议增加一轮回归测试”)。
- 优化Agent本身:QA花时间调整skills以及agent的memory,提升准确性,优化长期记忆。
- 学习与创新(新增高价值时间):
- 研究新技术/工具(如OpenClaw新功能),设计更智能的测试框架;或跨团队分享“AI重构QA经验”。
- 节省时间:通知、报告、提bug等杂事被AI接管,协作模式也从被动响应转为主动驱动。
一天结束前收尾(17:30–18:00,缩短至30分钟)
- AI自动汇总当天进度/Bug/报告,发到群/看板。QA确认无遗漏,规划明天的工作重点(比如 “明天重点探索AI生成的用例盲区”)。
- 如果有部署,AI监控后测试环境部署后30分钟内的新错误,QA只需处理异常。

重构后的整体变化与收益
通过上面的重构,我们可以看到,收益还是很容易体现出来的。
- 时间分配的变化:琐碎任务从50-70%降至10-20%,高价值测试以及设计测试策略的时间占比从30%升至70-80%。QA从“苦力”变“AI Agent的指挥官”,工作强度降低,无形中增加了测试时间和测试深度(比如覆盖更多场景,降低上线风险)。
- 潜在新角色:QA可能演变为“质量架构师”,负责AI Agent的prompt工程、长期记忆优化,质量数据分析、以及端到端风险管理工作。
不过需要注意的是,自动化不是万能,质量管理工作仍然需人类的介入以及专家技能的判断。另外初始化这些自动化工作也需要投资很长的一段时间,不过长期看来,ROI的预期还是很高的,值得期待。
另外QA的AI Agent重构也可能顺带影响整个研发团队以及研发流程的AI化重构工作,可以想象得到,不久的将来,开发的Agent与QA的Agent通力协作,讨论,修复以及验证bug的情景。
但Agent的工作完成之后,仍需要人类验收才能真正进行发布到生产环境的工作,毕竟如果发布的产出物是给人类使用的,AI在这方面仍然不能完全替代人类,另外线上出了问题还是需要有具体的自然人来进行背锅,毕竟反思和追责是组织文化里绕不过去的环节。
