多模态

媒体文件的类型包括：文本文件，文档文件，图片文件，音频文件，视频文件，3D 模型文件，压缩文件等等。

目前模型已经能够单独处理各种类型的文件，并通过简单的自然语言指令在各种类型间进行 AIGC 或者转换。

多模态

文生文问答 GPT-5 和 Gemini 3.0 提升长上下文推理。文章摘要工具如 Claude 3.5 集成实时事实检查。代码 claude code -> kimi think codex cursor -> trea DeepSeek V3.2 在代码生成上匹敌 GPT-5，成本降低 80%。

文生图 VAE, GAN Stable Diffusion/ SDXL/ Flux / DALL-E Flux.1.1 改进边缘处理和风格多样性。 DreamBooth(微调)/ LoRA(微调) / LoRA 适配器支持快速个性化，2025 年扩展至多模态。

视觉 Yolo YOLOv11 实时目标检测精度达 95%。 CNN 混合 Vision Transformer 取代纯 CNN，提升泛化。

图转图 ControlNet: 动作生成集成 OpenPose 姿势控制。 SD：风格转换，图片修复 Inpainting 工具如 SD 3.0 实现无缝修复。图像工作流 ComfyUI 节点式管道，支持 Flux 后端。

文生体：3D 模型 TripoSR 生成高保真 3D 资产。文生音配音： ElevenLabs v2 实现情感化语音合成。音转音：变声器 RVC（Retrieval-based Voice Conversion）实时变声。听觉 Whisper v3 转录多语言音频，准确率超 98%。文生动：文字转化为视频 Sora 2.0 生成 60 秒连贯视频。静生动：图片转化为视频 Luma AI Dream Machine 动画化静态图像。决策和行为多代理系统如 AutoGen 模拟协作决策。

DSL

数据结构

算法模型

进程域

通用域

HTML

HTML trick

CSS

CSS trick

布局

JavaScript

语言基础

TypeScript

Web API

浏览器

React

Vue

工程化

Nodejs

SSR

架构

UI 平台

跨平台

Flutter

人机关系

安全

渲染基础

主流引擎

标准接口

Vulkan

着色器

光栅化管线

光线追踪管线

语言基础

模块系统

网络协议

SQL

sql 基础

MySQL

NoSQL

Milvus

存储引擎

集群

工程实践

代理

消息队列

分布式基础

共识算法

并发模型

微服务

缓存

健壮性

可观测性

QoS

可观测性

性能优化

高可用与容错

云原生

DevOps

质量控制

语言基础

系统开发

数据结构

电源管理

进程管理

中断管理

内存管理

文件管理

设备管理

驱动接口

网络实现

系统调用

视图系统

硬件基础

外设

总线设备

开发板

基本原理

语言基础

机器学习