自动化脚本
世上哪有多少富有创造性的工作,多数工作都是在搬砖罢了。但凡是在电脑上完成的重复劳作,都可以考虑使用自动化软件来完成,减少重复时间成本。对于专业的任务选取专业开发的软件完成,对于琐碎任务,往往不会开发独立的专业软件完成,这部分市场巨大,但是利润低,因此必须使用低成本和简易的技术。
Python 一直是自动化脚本方面的优选语言,得益于其简单易上手和生态强大的特点,如今,又乘上 AI 的巨浪,Python 自动化将迎来进一步革新。
自动化需求
- 通用办公:office 自动化,通用文字处理,通用数据处理
- 金融行业:数据处理,量化分析
- 互联网行业:自动化测试,自动化运维
- 网页相关:爬虫,网页自动化
- 游戏:外挂
自动化工具分类
从自动化的封装程度,分为
- 成品软件 用于各种垂直领域,专注于完成各类任务。ToC 市场,面向普通消费者。
- Cursor:图形界面化(IDE 形式)的 AI 编程工具
- Claude Code / Codex:命令行终端的 AI 编程工具
- 低代码平台 使用流程图形式表现的低代码平台,用于组合已有的代码组件,使用拖拉拽可视化的界面编辑自动化脚本。ToC 市场,面向定制需求者,解决专业需求的场景。
- n8n:图形界面化(节点拖拉拽形式)自动化工作流平台
- ComfyUI:图形界面化(节点拖拉拽形式)的图形和视频生成工具
- Dify:
- Coze:
- 框架库 半成品自动化软件,需要进行少量代码编写和配置,组建形成完整的大模型应用。适合于专业开发者。
- LangChain 系列
- transformers
- AutoGen
- 全量脚本 从脚本编写开始,从头构建脚本的主任务逻辑;从模型训练开始,构建与当前项目高度契合的 AI 模型,并进行集成。适合于专业开发者和 AI 模型工程师。
- PyAutoGUI
- Selenium
- Pytorch
从面向的接口层次,分为
- 接口脚本 基于程序或者服务提供的外部调用 API 接口,脚本和目标程序进行交互,效率高,性能好。但是,前提就是目标程序它对外暴露了交互接口,否则无法使用。
- 图色脚本 基于图形识别和 GUI 界面进行操作,针对于本地 GUI 程序,或者提供了远程交互 GUI 的服务,脚本通过图像识别,模拟人类操作键鼠,从而达到自动化。
- 内存脚本 直接修改程序的内存,适合于本地程序自动化。经常用于游戏外挂开发。读取目标程序的内存一般又可以分为用户态、内核态、hypervisor 层、物理层等。非标操作,具有较高的开发门槛,并且游戏外挂可能带来法律风险。
从自动化的程度来看,分为
- 全自动,人类发布命令和计划,全自动化完成
- 半自动,辅助人类完成任务,人类发布任务,交互式地进行任务推进,支持计划、监督、调整
- 被动,根据人类指令进行工作,每一步都需要人类的指令,做一步是一步
图色脚本
图色获取 --> 图色解析 --> 业务逻辑
|
键鼠操作 <-- 动作指令 <-----+图色获取
- 截屏
- 帧缓冲区
- 采集卡
- 无障碍 API
图形识别
基于 CV 领域的技术,将收集到的屏幕截图进行识别,AI 通过分析图像,从而做出相应的行为,代替人类完成 GUI 操作任务和工作。
| 工具/框架 | 用途 | 难度 | 推荐理由 |
|---|---|---|---|
| OpenCV | 屏幕识别、图像处理 | 中等 | 游戏画面实时分析 |
| PyAutoGUI | 鼠标键盘自动化 | 简单 | 跨平台操作模拟 |
| Tesseract OCR | 文字识别 | 简单 | 读取游戏界面文字 |
| YOLOv8 | 目标检测 | 中等 | 识别游戏角色、物品 |
| AutoHotkey | 脚本自动化 | 简单 | Windows 一键宏 |
AI GUI
AI assited GUI,AI 辅助 gui
- 基于实时对话要求 ai 做事,视觉 ai 能够看到屏幕,支持鼠标划定视觉选区;
- 语音输入
- 行为预测预测用户下一个动作,直接询问是否做
- mcp 能力
- 请求人类帮助和动态决策
- 行为支持先做 plan 展示,然后再开始做
- 长记忆,支持行为日志、日志动态压缩等
- 多ai架构,主ai干活,辅助ai进行日志整理
- 对话框在顶层图层展示,透明漂浮在其他应用上方,做成桌面宠物的样子
- ai 程序的前后端架构
- 动态微调和实时学习