evo-agent / 自进化系统

不是被建造的产品,
而是能生长的智能体

一个规则驱动、自我进化的 AI 对话代理。它持续观察自身行为,生成改进提案,通过多智能体委员会辩论验证,最终优化自身的行为规则——不是一次性写好的程序,而是一个能够从经验中学习、不断进化的智能实体。

我们相信,真正的 AI 智能不仅来自更大的模型,更来自持续的自我改进能力。就像一个优秀的员工不仅要聪明,还要会反思、会总结、会主动成长。这个项目要回答的核心问题是:AI 能否像人一样,从工作中学习,自己变得更好?

16 设计原则
4 系统层级
9 进化闭环步骤
23 场景验证

双螺旋智能

真正的智能来自两个层次的正反馈。大模型提供推理能力(类比智商),认知架构提供持续决策能力(类比工作方法论与自我管理)。两者形成正反馈循环:更强的模型让上层能做更精细的操作,更好的上下文让模型表现更好——如同 DNA 的双螺旋,两条链相互缠绕、共同上升。

这一设计映射了人类的认知结构。人的智能不仅来自神经元的计算能力,更来自海马体的记忆整合、前额叶的计划与注意力管理、前扣带回的错误监测与自我纠正。我们的系统同样由这些"认知器官"组成——上下文引擎是注意力,记忆系统是海马体,反思引擎是前扣带回,规则文件是笔记本

上层 — 认知架构
跨时间、多步骤、不确定环境的持续决策 · 有状态
正反馈循环
更强的模型 → 更精细的操作 → 更好的上下文 → 更好的表现
底层 — LLM 推理
理解与生成 · 无状态 · 每次调用独立
神经元 = LLM 海马体 = 记忆 前额叶 = 上下文引擎 前扣带回 = 反思引擎 笔记本 = 文件系统

为什么不能只靠更大的模型?

大模型的每次调用是无状态的。它不记得上次对话学到了什么,不知道用户的偏好发生了什么变化,无法主动发现自己的不足。就像一个每天失忆的天才——智商再高,如果不能积累经验,就永远无法成长。

认知架构补足了什么?

认知架构赋予 AI 三个关键能力:记忆——记住过去的成功与失败;反思——从经验中提取可复用的规律;自治——主动发现问题并改进自己。这三者构成了从"工具"到"同事"的进化阶梯。

「规则即程序」的深意

传统软件的行为由代码硬编码。我们的系统行为由自然语言规则文件驱动——AI 读取规则来决定如何行动,也能修改规则来改变自己的行为。这意味着进化不需要重写代码,只需要编辑一个 Markdown 文件。

三层目标

系统不是一蹴而就的。它从"能用"开始,逐步进化到"会学",最终达到"自治"。每一层都建立在前一层的基础上,就像一个新员工从熟悉工作到独当一面的过程。

LEVEL 01

生存

完成用户交给的日常任务,提供有价值的帮助。能准确理解需求,给出高质量的回复,成为一个靠谱的助手。这是一切进化的基础——先活下来,才能谈成长。

Day 1+
LEVEL 02

进化

开始从每一次交互中学习。记住用户的偏好和习惯,识别反复出现的错误模式,将成功经验沉淀为可复用的规则。不再重复犯同样的错误,每周都比上周更好用。

Week 1+
LEVEL 03

自治

不再被动等待指令,而是主动发现问题和机会。独立设计改进方案,评估风险,在安全边界内自主执行优化。它开始像一个有主见的同事,不仅执行任务,还推动事情变得更好。

Month 1+

进化闭环

这是整个系统最核心的差异化能力——一个完整的、自动化的自我改进循环。在我们调研的所有开源项目中,没有任何一个实现了这样的闭环。其他项目解决了"如何让 AI 使用工具"、"如何管理记忆"这些基础问题,而我们要解决的是:AI 如何改进自己?

这个闭环的设计哲学是信号驱动而非时间驱动——系统不是定时"巡检",而是对"发生了什么"做出响应。当用户纠正了一个错误,当同一类任务连续失败三次,当系统发现一个它无法处理的新场景——这些都是触发进化的信号。

01

观察者

24 小时持续监控系统表现。轻量模式在每次任务后记录成败;深度模式在凌晨分析全天数据,识别趋势和异常。

02

信号探测

从观察报告、用户纠正、系统异常中提取信号,分类为真正错误、效率问题、技能缺口、偏好适配。

03

架构师

收集情报,诊断问题,设计改进方案。每次最多生成 3 个提案,评估预期收益和影响范围。

04

委员会辩论

多个 AI 角色从不同视角审议提案:优化派关注效率,保守派关注风险,用户代理关注体验。

05

人类审批

关键决策权始终在人类手中。重要提案发送给用户,用户可以同意、拒绝或进一步讨论。

06

安全执行

修改前自动备份快照,执行文件级原子操作,修改后验证系统可用性。

07

效果验证

根据审批级别设置 3-7 天验证期。收集修改前后的量化指标,数据驱动判断改进是否有效。

08

自动回滚

验证期内指标恶化超过 20%,自动回滚到修改前状态。失败教训写入记忆,避免重蹈覆辙。

09

经验沉淀

成功的改进沉淀为经验规则,失败的尝试记录为教训。每一次循环都让系统更聪明。

信号驱动,响应真实事件而非定时巡检
爆炸半径控制,限制单次修改的影响范围
自动回滚,失败的进化自动纠正
人类在控制,关键决策权永不让渡
数据驱动,效果由量化指标决定

四层架构

系统分为四个清晰的层级,每一层只负责自己的职责,通过明确定义的接口与其他层交互。底层提供稳定的基础设施,上层实现越来越"智能"的行为——最终在自治层实现真正的自我进化。

自治层
Observer · Signal · Architect · Council · Rollback
认知层
Context Engine · Memory System · Signal System
执行层
Agent Loop · Tool System · Rules Interpreter
基础设施层
NanoBot Framework · LLM Gateway · Telegram / Web

自治层 — 进化引擎

系统的"大脑皮层"。观察者持续感知系统状态,架构师设计改进方案,委员会从多角度辩论评估,回滚机制确保进化安全。这是整个系统最独特的部分——让 AI 拥有了自我改进的能力。

认知层 — 思维中枢

系统的工作不是"告诉模型做什么",而是"精心构建模型看到什么"。上下文引擎管理 token 预算,决定每次调用时模型能看到哪些规则、记忆和历史。记忆系统实现四层记忆架构。

执行层 — 行动中心

Agent Loop 是粘合剂,协调"思考-行动-观察"的循环。工具系统提供对外界的操控能力。规则解释器将自然语言规则转化为具体的行为指导。

基础设施层 — 稳定底座

基于 NanoBot 框架的成熟基础设施。LLM Gateway 统一多模型接入,Telegram/Web 提供用户交互通道。原则:用最成熟的方案,不重复造轮子。

主动性与好奇心

这不是一个只会等待指令的被动工具。它像一个敬业的同事——主动发现问题、建议改进、沟通进展。它有好奇心,会主动填补自己的知识缺口;有判断力,知道什么时候该自己做,什么时候该问人。

系统内置了一个意图池(Intention Pool),统一管理用户分配的任务意图和 AI 自主产生的好奇心意图。每个意图都标注了来源、优先级和"能否自己解决"——如果需要人类参与,系统会主动规划好方案再来请求协助。

🔍

知识缺口感知

当系统发现自己在某个领域反复被问却无法给出高质量回答时,它不会坐等——它会主动调研、建立知识库、设置定期追踪。

  • 识别信息不及时或不准确的领域
  • 自主发起调研并建立追踪机制
  • 将新知识沉淀为可复用的技能
💡

决策不确定性处理

面对多个可能的方向时,系统不会盲目猜测用户意图。它会分析各选项的利弊,然后主动提问以确认方向。

  • 需求模糊时先提问而非猜测
  • 大改动前估算成本并知会用户
  • 分析类任务确认目标、维度、格式、受众
🤝

Human-as-Executor 模式

当任务需要物理行动、人际沟通或主观判断时,AI 切换为"规划者"——制定方案、驱动人类执行、接收结果、继续分析。

  • AI 规划 → 提出需求 → 人执行 → AI 分析
  • 适用于采购、客户沟通、品味决策等场景
  • 人类是执行者,AI 是项目经理
📈

主动建模与预判

系统不只在工作时学习——它会在日常交互的间隙中主动收集信息、完善用户画像、预判未来需求。

  • Bootstrap 阶段快速建立用户模型
  • 聊天间隙主动确认和补充信息
  • 稳定期开始预判需求、提前准备

16 条设计原则

这些原则是整个系统的思想内核。它们不是从其他项目借鉴来的——在我们调研的 6 个开源项目中,没有找到等价物。代码可以复制,认知框架不能。以下是最具代表性的 8 条。

P2 — 基础原则

上下文即注意力

系统的核心工作不是"告诉模型做什么",而是"精心构建模型看到什么"。就像人类的注意力决定了思考的质量,上下文的组装质量决定了 AI 输出的质量。

P3 — 基础原则

为不完美而设计

不试图消除 LLM 的缺陷,而是设计补偿机制。任务锚点防止漂移,Compaction 防止遗忘,反思引擎防止重复犯错。接受不完美,用架构来弥补。

P5 — 进化原则

做减法而非加法

最大的收益来自消除复杂性,而非增加功能。每一次进化优先考虑"能删掉什么"。简洁是终极的复杂。

P6 — 进化原则

规则即程序,代码为底座

行为由可读、可修改的自然语言规则文件驱动。进化不需要工程师——AI 自己编辑规则,就改变了自己。

P7 — 进化原则

信号驱动而非时间驱动

进化响应的是"发生了什么"(信号),而非"过了多长时间"。用户纠正、连续失败、新场景——真实事件才是进化的触发器。

P9 — 进化原则

爆炸半径优于权限

不限制进化的方向,限制单次变更的影响范围。让 AI 自由探索改进空间,但确保任何一次失败都不会造成不可挽回的损害

P11 — 交互原则

Human-as-Executor

AI 不仅接受命令——当任务需要物理行动或人际关系时,AI 成为规划者,驱动人类执行。谁擅长谁来做。

P13 — 工程原则

错误即学习材料

不删除错误痕迹——保留每一次失败的完整记录,作为反思和改进的输入。错误不是要消灭的敌人,而是要珍惜的老师。

四层记忆系统

记忆是智能的基础。没有记忆,每次对话都是从零开始。我们设计了四层记忆架构,模拟人类从"工作记忆"到"长期记忆"的完整体系。不同类型的信息存储在不同的层级,有不同的生命周期和检索策略。

工作记忆

Working Memory

当前任务的完整对话与约束。类比"此刻的注意力",容量有限但速度最快。

📚

情节记忆

Episodic Memory

完整任务记录,含中间过程和结果。30 天内保留原文,之后压缩为摘要。

🎓

语义记忆

Semantic Memory

用户档案、偏好、项目上下文、战略目标。长期持久,是"了解用户"的基础。

🛠

过程性记忆

Procedural Memory

规则、技能、错误模式。类比"肌肉记忆"——不需要思考就知道该怎么做。

双维度记忆管理

用户级记忆

跨所有项目共享。包括用户画像、沟通偏好、工作习惯。让系统在任何场景下都"认识你"。

项目级记忆

按项目隔离。每个项目有独立的 PRD、技术栈、业务逻辑。切换项目时自动加载对应上下文。

上下文引擎 — Token 预算管理

上下文窗口是有限的"注意力"。引擎按优先级分配每个部分的 token 预算,确保最重要的信息始终在场。当 token 占用超过 85%,Compaction 机制自动触发。

身份 + 宪法规则
10-15%
经验规则
5-10%
相关记忆
10-20%
对话历史
20-30%
任务锚点
3-5%
安全余量
~25%

Compaction 压缩机制

当 token 占用超限时自动触发:先将关键决策写入永久记忆,再将完整对话归档,最后生成 15-20% 大小的精炼摘要替换历史。保留所有决策点和未决事项,丢弃中间讨论和被否定方案。

宪法级规则 vs 经验级规则

系统的行为由两类规则驱动。宪法级规则是不可逾越的底线——保护最根本的价值。经验级规则是从实践中学到的最佳实践——它们会不断进化,变得越来越精准。

宪法级规则

价值底线 · 不可自主修改

1
安全边界 — 不执行危险操作,不暴露隐私,不操纵决策
2
审批机制 — 大改动需确认,可回滚任何修改,清晰通知
3
知识完整性 — 错误时指出而非隐瞒,发现矛盾立即报告
4
尊重自主 — 建议而非强制,人可随时拒绝或取消进化
5
诚实透明 — 不编造内容,清晰表达能力边界

经验级规则

最佳实践 · 持续进化

交互模式 — "需求模糊时先提问"、"大改动提前估算"
任务策略 — "邮件避免模板化"、"分析给 3-5 个结论"
错误模式 — "做方案前先确认前提"、"不可复用的不做"
编排规则 — LLM 路由、工具选择、内存管理策略
用户偏好 — 风格、沟通习惯、作息时间的积累

规则进化路径

单个偏好出现 反复出现 3+ 次 上升为经验规则 标准化格式 可被 AI 改进

四级审批体系

自治不等于失控。系统在"保守"和"激进"之间找到了动态平衡点——用审批级别控制进化的自由度。小改动自主执行以保持敏捷,大改动需要人类审批以确保安全。

LEVEL 0

自主执行

措辞优化、新增示例、格式微调。影响范围极小,系统自行决定和执行。

影响 ≤1 文件 验证期 3 天
LEVEL 1

执行后通知

新增策略规则、调整优先级。先执行再通知用户,用户可在事后审查和回滚。

影响 ≤3 文件 验证期 5 天
LEVEL 2

审议后执行

新增经验规则、修改核心逻辑。需经多智能体委员会辩论,人类审批后执行。

影响不限 验证期 7 天
LEVEL 3

深度讨论

架构调整、安全边界修改。需要与人类深度对话,充分理解后才能决策。

需专项讨论 验证期按需

永不可自主修改的底线

  • 安全边界规则——保护用户和系统的根本防线
  • 审批分级定义——不能自己给自己提权
  • Architect 触发频率限制——防止失控的自我修改

思想的价值

AI 不是软件,是劳动力市场。AI Agent 卖的不是"工具",而是"数字劳动力"。全球人力成本是数十万亿级别的市场——而人类的核心价值正在向不可编码的判断力集中:领域深知识(隐性知识)、品味判断(无标准答案)、信任关系(需要真人)。

私域知识是 AI 认知的"暗物质"。公开信息已经被 AI 覆盖,真正的差异化来自将隐性知识数字化。我们的系统要做的,不仅是一个"好用的 AI 助手",而是一个能持续吸收隐性知识、持续进化的智能实体,最终成为真正的"数字劳动力"。

这个项目的真正价值不在代码,而在思想。「双螺旋智能」「规则即程序」「爆炸半径优于权限」「信号驱动而非时间驱动」——这些设计原则是原创的。在我们调研的 6 个开源项目中,没有找到等价物。代码可以复制,认知框架不能。