自动化脚本

计算机上的多数操作具有重复性——数据处理、表单填写、界面点击、日志分析，这些工作消耗了大量的时间成本。自动化技术的目标正是将这类重复劳动转化为程序执行过程，解放人类精力。

Python 凭借其简洁的语法和丰富的生态，长期占据自动化脚本领域的首选语言位置。过去自动化技术受限于流程死板、鲁棒性不足和通用性有限，而如今大模型的出现正在推动自动化软件从"执行指令"向"自主决策"演进。自动化技术的实现原理（通用架构、控制层级、Agent 自动化、AI GUI 等）见实现原理，传统脚本的具体技术和工具见传统自动化。

自动化需求

自动化需求广泛存在于各个行业和领域，这些需求的共同特点是工作流程相对固定、操作步骤大量重复、执行规则明确、需要长时间持续运行，且对创造性和主观判断的要求较低，因此非常适合使用自动化技术来降低人力成本、提高执行效率并减少人为失误。值得注意的是，自动化需求往往不是按行业产生的，而是按工作模式产生的——同一种自动化技术，在金融、电商、游戏等不同行业中解决的是同一类问题。

数据采集和处理

从各种数据源中自动获取信息是最普遍的自动化需求之一。无论是网络爬虫批量采集网页内容、量化系统实时抓取行情数据、舆情系统持续监测社交媒体讨论，还是游戏脚本读取屏幕上的角色状态，本质上都是在执行"连接数据源、提取目标信息、结构化存储"这一流程。常用技术包括 Requests、Scrapy、Selenium、Playwright 等，从简单的 HTTP 请求到完整的浏览器渲染自动化，按需选取即可。

采集到的原始数据往往需要经过清洗、转换和分析才能产生价值。Excel 批量报表生成、财务数据汇总、日志统计分析、ETL 数据管道等场景都属于数据处理自动化的范畴。Pandas 和 Numpy 是 Python 数据处理的基石，配合 SQL 进行结构化查询，面对大规模数据时则可以引入 Spark 等分布式计算框架。

系统运维

服务器和基础设施的管理天然适合自动化。自动部署（CI/CD 流水线）、定时备份、弹性扩缩容、监控告警等任务都是规则明确、需要持续执行的操作。Shell 脚本和 Python 是运维自动化的基础工具，Ansible 提供了声明式的配置管理能力，Terraform 则将基础设施的创建和管理编码化（Infrastructure as Code），使得环境搭建可以像应用代码一样版本控制和复现。

GUI 自动化

当目标系统没有提供可编程 API 接口，或者操作本身就需要通过图形界面完成时，或者用于自动化传统人机交互操作，就需要 GUI 自动化技术。ERP 系统的批量录单、电商后台的重复运营操作、Office 文档的批量处理、桌面软件的自动化测试，以及游戏中的辅助操作，都属于这类需求。技术方案从简单的 PyAutoGUI 键鼠模拟，到 OpenCV 图像识别和 OCR 文字提取，再到 AutoHotkey 的 Windows 宏脚本，按复杂度递进选择。

游戏自动化

游戏自动化是自动化技术的特殊应用领域，涵盖自动刷怪、任务推进、交易操作、NPC 行为控制和自动化测试等场景。除了通用的 GUI 自动化技术外，游戏场景还广泛使用图色脚本、内存读写脚本，以及行为树和 GOAP 规划系统等游戏 AI 技术。需要注意的是，商业游戏通常部署了反作弊系统，相关技术的使用可能受到法律、用户协议和运营规则的限制。

任务自动化与岗位自动化

传统自动化解决的是"任务级"问题——自动导出 Excel、自动发送邮件、自动填写表单，每个自动化脚本替代的是人类工作中的某一个步骤。而 Agent 时代的自动化正在从"自动化一个步骤"演进为"自动化一个岗位"，即岗位自动化（Role Automation）。客服专员按照模板回复工单、数据录入员在不同系统间搬运信息、电商运营每天重复上架商品和填写表单——这些岗位的完整工作流可以被 Agent 端到端地接管，从"数字工具"升级为"数字员工"。这是自动化技术进入 Agent 时代后最根本的变化，也自然衔接了实现原理中的 Agent 自动化和 AI GUI 内容。

发展趋势

自动化技术正在经历三个阶段的演进。

第一个阶段是规则驱动的 Automation 1.0，以 AutoHotkey、Selenium、按键精灵为代表，自动化完全依赖预设的固定流程，工作流由开发者严格定义，系统不具备任何理解能力，界面一旦变化脚本就会失效。

第二个阶段是 AI 增强的 Automation 2.0，以 OpenCV、YOLO、OCR 技术集成为代表，自动化系统开始能够感知和理解界面内容，识别文字、定位元素、检测目标，对界面变化的容忍度大幅提升，但操作流程仍然是人类预先设计的。

第三个阶段是 Agent 驱动的 Automation 3.0，以 Claude Computer Use、Operator、OpenHands、Claude Code 为代表，Agent 自主完成从感知到执行的全过程——人类只需描述目标，Agent 自行观察环境、理解状态、规划路径、执行操作并反思结果。随着 AI GUI 工具不断加入 Agent 式的规划能力，2.0 和 3.0 的边界正在逐渐模糊。

数字劳动力

回顾自动化需求的本质，AI GUI 和 Agent 自动化的真正目标并不是"自动点击按钮"，而是替代数字世界中的重复劳动。ERP 录单员逐条核对界面信息并录入系统，客服专员按照工单模板回复标准化问题，电商运营每天重复上架商品和填写表单，数据录入员在不同系统间搬运结构化数据——这些岗位的工作流程都是"看界面、理解含义、点击操作、录入数据"，与 Agent 的观察-推理-执行循环高度一致。

自动化技术正在从一套脚本编写技巧，演变为 Agent 时代的数字劳动力系统。这个演进过程不仅会改变软件工程的实践方式，更会重新定义人与计算机之间的协作关系——人类负责定义目标和提供判断，Agent 负责执行过程和处理细节。

DSL

数据结构

算法模型

进程域

通用域

HTML

HTML trick

CSS

CSS trick

布局

JavaScript

语言基础

TypeScript

Web API

浏览器

React

Vue

工程化

Nodejs

SSR

架构

UI 平台

跨平台

Flutter

人机关系

安全

渲染基础

主流引擎

标准接口

Vulkan

着色器

光栅化管线

光线追踪管线

语言基础

模块系统

网络协议

SQL

sql 基础

MySQL

NoSQL

Milvus

存储引擎

集群

工程实践

代理

消息队列

分布式基础

共识算法

并发模型

微服务

缓存

健壮性

可观测性

QoS

可观测性

性能优化

高可用与容错

云原生

DevOps

质量控制

语言基础

系统开发

数据结构

电源管理

进程管理

中断管理

内存管理

文件管理

设备管理

驱动接口

网络实现

系统调用

视图系统

硬件基础

外设

总线设备

开发板

基本原理

语言基础

机器学习