AI 自进化系统 — evo-agent

核心理念

双螺旋智能

真正的智能来自两个层次的正反馈。大模型提供推理能力（类比智商），认知架构提供持续决策能力（类比工作方法论与自我管理）。两者形成正反馈循环：更强的模型让上层能做更精细的操作，更好的上下文让模型表现更好——如同 DNA 的双螺旋，两条链相互缠绕、共同上升。

这一设计映射了人类的认知结构。人的智能不仅来自神经元的计算能力，更来自海马体的记忆整合、前额叶的计划与注意力管理、前扣带回的错误监测与自我纠正。我们的系统同样由这些"认知器官"组成——上下文引擎是注意力，记忆系统是海马体，反思引擎是前扣带回，规则文件是笔记本。

▲

上层 — 认知架构

跨时间、多步骤、不确定环境的持续决策 · 有状态

↕

正反馈循环

更强的模型 → 更精细的操作 → 更好的上下文 → 更好的表现

↕

▼

底层 — LLM 推理

理解与生成 · 无状态 · 每次调用独立

神经元 = LLM 海马体 = 记忆前额叶 = 上下文引擎前扣带回 = 反思引擎笔记本 = 文件系统

为什么不能只靠更大的模型？

大模型的每次调用是无状态的。它不记得上次对话学到了什么，不知道用户的偏好发生了什么变化，无法主动发现自己的不足。就像一个每天失忆的天才——智商再高，如果不能积累经验，就永远无法成长。

认知架构补足了什么？

认知架构赋予 AI 三个关键能力：记忆——记住过去的成功与失败；反思——从经验中提取可复用的规律；自治——主动发现问题并改进自己。这三者构成了从"工具"到"同事"的进化阶梯。

「规则即程序」的深意

传统软件的行为由代码硬编码。我们的系统行为由自然语言规则文件驱动——AI 读取规则来决定如何行动，也能修改规则来改变自己的行为。这意味着进化不需要重写代码，只需要编辑一个 Markdown 文件。

成长路径

三层目标

系统不是一蹴而就的。它从"能用"开始，逐步进化到"会学"，最终达到"自治"。每一层都建立在前一层的基础上，就像一个新员工从熟悉工作到独当一面的过程。

LEVEL 01

生存

完成用户交给的日常任务，提供有价值的帮助。能准确理解需求，给出高质量的回复，成为一个靠谱的助手。这是一切进化的基础——先活下来，才能谈成长。

Day 1+

LEVEL 02

进化

开始从每一次交互中学习。记住用户的偏好和习惯，识别反复出现的错误模式，将成功经验沉淀为可复用的规则。不再重复犯同样的错误，每周都比上周更好用。

Week 1+

LEVEL 03

自治

不再被动等待指令，而是主动发现问题和机会。独立设计改进方案，评估风险，在安全边界内自主执行优化。它开始像一个有主见的同事，不仅执行任务，还推动事情变得更好。

Month 1+

核心机制

进化闭环

这是整个系统最核心的差异化能力——一个完整的、自动化的自我改进循环。在我们调研的所有开源项目中，没有任何一个实现了这样的闭环。其他项目解决了"如何让 AI 使用工具"、"如何管理记忆"这些基础问题，而我们要解决的是：AI 如何改进自己？

这个闭环的设计哲学是信号驱动而非时间驱动——系统不是定时"巡检"，而是对"发生了什么"做出响应。当用户纠正了一个错误，当同一类任务连续失败三次，当系统发现一个它无法处理的新场景——这些都是触发进化的信号。

观察者

24 小时持续监控系统表现。轻量模式在每次任务后记录成败；深度模式在凌晨分析全天数据，识别趋势和异常。

信号探测

从观察报告、用户纠正、系统异常中提取信号，分类为真正错误、效率问题、技能缺口、偏好适配。

架构师

收集情报，诊断问题，设计改进方案。每次最多生成 3 个提案，评估预期收益和影响范围。

委员会辩论

多个 AI 角色从不同视角审议提案：优化派关注效率，保守派关注风险，用户代理关注体验。

人类审批

关键决策权始终在人类手中。重要提案发送给用户，用户可以同意、拒绝或进一步讨论。

安全执行

修改前自动备份快照，执行文件级原子操作，修改后验证系统可用性。

效果验证

根据审批级别设置 3-7 天验证期。收集修改前后的量化指标，数据驱动判断改进是否有效。

自动回滚

验证期内指标恶化超过 20%，自动回滚到修改前状态。失败教训写入记忆，避免重蹈覆辙。

经验沉淀

成功的改进沉淀为经验规则，失败的尝试记录为教训。每一次循环都让系统更聪明。

信号驱动，响应真实事件而非定时巡检

爆炸半径控制，限制单次修改的影响范围

自动回滚，失败的进化自动纠正

人类在控制，关键决策权永不让渡

数据驱动，效果由量化指标决定

系统架构

四层架构

系统分为四个清晰的层级，每一层只负责自己的职责，通过明确定义的接口与其他层交互。底层提供稳定的基础设施，上层实现越来越"智能"的行为——最终在自治层实现真正的自我进化。

自治层

Observer · Signal · Architect · Council · Rollback

认知层

Context Engine · Memory System · Signal System

执行层

Agent Loop · Tool System · Rules Interpreter

基础设施层

NanoBot Framework · LLM Gateway · Telegram / Web

自治层 — 进化引擎

系统的"大脑皮层"。观察者持续感知系统状态，架构师设计改进方案，委员会从多角度辩论评估，回滚机制确保进化安全。这是整个系统最独特的部分——让 AI 拥有了自我改进的能力。

认知层 — 思维中枢

系统的工作不是"告诉模型做什么"，而是"精心构建模型看到什么"。上下文引擎管理 token 预算，决定每次调用时模型能看到哪些规则、记忆和历史。记忆系统实现四层记忆架构。

执行层 — 行动中心

Agent Loop 是粘合剂，协调"思考-行动-观察"的循环。工具系统提供对外界的操控能力。规则解释器将自然语言规则转化为具体的行为指导。

基础设施层 — 稳定底座

基于 NanoBot 框架的成熟基础设施。LLM Gateway 统一多模型接入，Telegram/Web 提供用户交互通道。原则：用最成熟的方案，不重复造轮子。

智能体行为

主动性与好奇心

这不是一个只会等待指令的被动工具。它像一个敬业的同事——主动发现问题、建议改进、沟通进展。它有好奇心，会主动填补自己的知识缺口；有判断力，知道什么时候该自己做，什么时候该问人。

系统内置了一个意图池（Intention Pool），统一管理用户分配的任务意图和 AI 自主产生的好奇心意图。每个意图都标注了来源、优先级和"能否自己解决"——如果需要人类参与，系统会主动规划好方案再来请求协助。

🔍

知识缺口感知

当系统发现自己在某个领域反复被问却无法给出高质量回答时，它不会坐等——它会主动调研、建立知识库、设置定期追踪。

识别信息不及时或不准确的领域
自主发起调研并建立追踪机制
将新知识沉淀为可复用的技能

💡

决策不确定性处理

面对多个可能的方向时，系统不会盲目猜测用户意图。它会分析各选项的利弊，然后主动提问以确认方向。

需求模糊时先提问而非猜测
大改动前估算成本并知会用户
分析类任务确认目标、维度、格式、受众

🤝

Human-as-Executor 模式

当任务需要物理行动、人际沟通或主观判断时，AI 切换为"规划者"——制定方案、驱动人类执行、接收结果、继续分析。

AI 规划 → 提出需求 → 人执行 → AI 分析
适用于采购、客户沟通、品味决策等场景
人类是执行者，AI 是项目经理

📈

主动建模与预判

系统不只在工作时学习——它会在日常交互的间隙中主动收集信息、完善用户画像、预判未来需求。

Bootstrap 阶段快速建立用户模型
聊天间隙主动确认和补充信息
稳定期开始预判需求、提前准备

设计哲学

16 条设计原则

这些原则是整个系统的思想内核。它们不是从其他项目借鉴来的——在我们调研的 6 个开源项目中，没有找到等价物。代码可以复制，认知框架不能。以下是最具代表性的 8 条。

P2 — 基础原则

上下文即注意力

系统的核心工作不是"告诉模型做什么"，而是"精心构建模型看到什么"。就像人类的注意力决定了思考的质量，上下文的组装质量决定了 AI 输出的质量。

P3 — 基础原则

为不完美而设计

不试图消除 LLM 的缺陷，而是设计补偿机制。任务锚点防止漂移，Compaction 防止遗忘，反思引擎防止重复犯错。接受不完美，用架构来弥补。

P5 — 进化原则

做减法而非加法

最大的收益来自消除复杂性，而非增加功能。每一次进化优先考虑"能删掉什么"。简洁是终极的复杂。

P6 — 进化原则

规则即程序，代码为底座

行为由可读、可修改的自然语言规则文件驱动。进化不需要工程师——AI 自己编辑规则，就改变了自己。

P7 — 进化原则

信号驱动而非时间驱动

进化响应的是"发生了什么"（信号），而非"过了多长时间"。用户纠正、连续失败、新场景——真实事件才是进化的触发器。

P9 — 进化原则

爆炸半径优于权限

不限制进化的方向，限制单次变更的影响范围。让 AI 自由探索改进空间，但确保任何一次失败都不会造成不可挽回的损害。

P11 — 交互原则

Human-as-Executor

AI 不仅接受命令——当任务需要物理行动或人际关系时，AI 成为规划者，驱动人类执行。谁擅长谁来做。

P13 — 工程原则

错误即学习材料

不删除错误痕迹——保留每一次失败的完整记录，作为反思和改进的输入。错误不是要消灭的敌人，而是要珍惜的老师。

记忆架构

四层记忆系统

记忆是智能的基础。没有记忆，每次对话都是从零开始。我们设计了四层记忆架构，模拟人类从"工作记忆"到"长期记忆"的完整体系。不同类型的信息存储在不同的层级，有不同的生命周期和检索策略。

⚙

工作记忆

Working Memory

当前任务的完整对话与约束。类比"此刻的注意力"，容量有限但速度最快。

📚

情节记忆

Episodic Memory

完整任务记录，含中间过程和结果。30 天内保留原文，之后压缩为摘要。

🎓

语义记忆

Semantic Memory

用户档案、偏好、项目上下文、战略目标。长期持久，是"了解用户"的基础。

🛠

过程性记忆

Procedural Memory

规则、技能、错误模式。类比"肌肉记忆"——不需要思考就知道该怎么做。

双维度记忆管理

用户级记忆

跨所有项目共享。包括用户画像、沟通偏好、工作习惯。让系统在任何场景下都"认识你"。

项目级记忆

按项目隔离。每个项目有独立的 PRD、技术栈、业务逻辑。切换项目时自动加载对应上下文。

上下文引擎 — Token 预算管理

上下文窗口是有限的"注意力"。引擎按优先级分配每个部分的 token 预算，确保最重要的信息始终在场。当 token 占用超过 85%，Compaction 机制自动触发。

身份 + 宪法规则

10-15%

经验规则

5-10%

Compaction 压缩机制

当 token 占用超限时自动触发：先将关键决策写入永久记忆，再将完整对话归档，最后生成 15-20% 大小的精炼摘要替换历史。保留所有决策点和未决事项，丢弃中间讨论和被否定方案。

规则系统

宪法级规则 vs 经验级规则

系统的行为由两类规则驱动。宪法级规则是不可逾越的底线——保护最根本的价值。经验级规则是从实践中学到的最佳实践——它们会不断进化，变得越来越精准。

宪法级规则

价值底线 · 不可自主修改

安全边界 — 不执行危险操作，不暴露隐私，不操纵决策

审批机制 — 大改动需确认，可回滚任何修改，清晰通知

知识完整性 — 错误时指出而非隐瞒，发现矛盾立即报告

尊重自主 — 建议而非强制，人可随时拒绝或取消进化

诚实透明 — 不编造内容，清晰表达能力边界

经验级规则

最佳实践 · 持续进化

✓

交互模式 — "需求模糊时先提问"、"大改动提前估算"

✓

任务策略 — "邮件避免模板化"、"分析给 3-5 个结论"

✓

错误模式 — "做方案前先确认前提"、"不可复用的不做"

✓

编排规则 — LLM 路由、工具选择、内存管理策略

✓

用户偏好 — 风格、沟通习惯、作息时间的积累

规则进化路径

单个偏好出现 → 反复出现 3+ 次 → 上升为经验规则 → 标准化格式 → 可被 AI 改进

安全机制

四级审批体系

自治不等于失控。系统在"保守"和"激进"之间找到了动态平衡点——用审批级别控制进化的自由度。小改动自主执行以保持敏捷，大改动需要人类审批以确保安全。

LEVEL 0

自主执行

措辞优化、新增示例、格式微调。影响范围极小，系统自行决定和执行。

影响 ≤1 文件验证期 3 天

LEVEL 1

执行后通知

新增策略规则、调整优先级。先执行再通知用户，用户可在事后审查和回滚。

影响 ≤3 文件验证期 5 天

LEVEL 2

审议后执行

新增经验规则、修改核心逻辑。需经多智能体委员会辩论，人类审批后执行。

影响不限验证期 7 天

LEVEL 3

深度讨论

架构调整、安全边界修改。需要与人类深度对话，充分理解后才能决策。

需专项讨论验证期按需

永不可自主修改的底线

安全边界规则——保护用户和系统的根本防线
审批分级定义——不能自己给自己提权
Architect 触发频率限制——防止失控的自我修改

核心信念

思想的价值

AI 不是软件，是劳动力市场。AI Agent 卖的不是"工具"，而是"数字劳动力"。全球人力成本是数十万亿级别的市场——而人类的核心价值正在向不可编码的判断力集中：领域深知识（隐性知识）、品味判断（无标准答案）、信任关系（需要真人）。

私域知识是 AI 认知的"暗物质"。公开信息已经被 AI 覆盖，真正的差异化来自将隐性知识数字化。我们的系统要做的，不仅是一个"好用的 AI 助手"，而是一个能持续吸收隐性知识、持续进化的智能实体，最终成为真正的"数字劳动力"。

这个项目的真正价值不在代码，而在思想。「双螺旋智能」「规则即程序」「爆炸半径优于权限」「信号驱动而非时间驱动」——这些设计原则是原创的。在我们调研的 6 个开源项目中，没有找到等价物。代码可以复制，认知框架不能。