一个规则驱动、自我进化的 AI 对话代理。它持续观察自身行为,生成改进提案,通过多智能体委员会辩论验证,最终优化自身的行为规则——不是一次性写好的程序,而是一个能够从经验中学习、不断进化的智能实体。
我们相信,真正的 AI 智能不仅来自更大的模型,更来自持续的自我改进能力。就像一个优秀的员工不仅要聪明,还要会反思、会总结、会主动成长。这个项目要回答的核心问题是:AI 能否像人一样,从工作中学习,自己变得更好?
真正的智能来自两个层次的正反馈。大模型提供推理能力(类比智商),认知架构提供持续决策能力(类比工作方法论与自我管理)。两者形成正反馈循环:更强的模型让上层能做更精细的操作,更好的上下文让模型表现更好——如同 DNA 的双螺旋,两条链相互缠绕、共同上升。
这一设计映射了人类的认知结构。人的智能不仅来自神经元的计算能力,更来自海马体的记忆整合、前额叶的计划与注意力管理、前扣带回的错误监测与自我纠正。我们的系统同样由这些"认知器官"组成——上下文引擎是注意力,记忆系统是海马体,反思引擎是前扣带回,规则文件是笔记本。
大模型的每次调用是无状态的。它不记得上次对话学到了什么,不知道用户的偏好发生了什么变化,无法主动发现自己的不足。就像一个每天失忆的天才——智商再高,如果不能积累经验,就永远无法成长。
认知架构赋予 AI 三个关键能力:记忆——记住过去的成功与失败;反思——从经验中提取可复用的规律;自治——主动发现问题并改进自己。这三者构成了从"工具"到"同事"的进化阶梯。
传统软件的行为由代码硬编码。我们的系统行为由自然语言规则文件驱动——AI 读取规则来决定如何行动,也能修改规则来改变自己的行为。这意味着进化不需要重写代码,只需要编辑一个 Markdown 文件。
系统不是一蹴而就的。它从"能用"开始,逐步进化到"会学",最终达到"自治"。每一层都建立在前一层的基础上,就像一个新员工从熟悉工作到独当一面的过程。
完成用户交给的日常任务,提供有价值的帮助。能准确理解需求,给出高质量的回复,成为一个靠谱的助手。这是一切进化的基础——先活下来,才能谈成长。
开始从每一次交互中学习。记住用户的偏好和习惯,识别反复出现的错误模式,将成功经验沉淀为可复用的规则。不再重复犯同样的错误,每周都比上周更好用。
不再被动等待指令,而是主动发现问题和机会。独立设计改进方案,评估风险,在安全边界内自主执行优化。它开始像一个有主见的同事,不仅执行任务,还推动事情变得更好。
这是整个系统最核心的差异化能力——一个完整的、自动化的自我改进循环。在我们调研的所有开源项目中,没有任何一个实现了这样的闭环。其他项目解决了"如何让 AI 使用工具"、"如何管理记忆"这些基础问题,而我们要解决的是:AI 如何改进自己?
这个闭环的设计哲学是信号驱动而非时间驱动——系统不是定时"巡检",而是对"发生了什么"做出响应。当用户纠正了一个错误,当同一类任务连续失败三次,当系统发现一个它无法处理的新场景——这些都是触发进化的信号。
24 小时持续监控系统表现。轻量模式在每次任务后记录成败;深度模式在凌晨分析全天数据,识别趋势和异常。
从观察报告、用户纠正、系统异常中提取信号,分类为真正错误、效率问题、技能缺口、偏好适配。
收集情报,诊断问题,设计改进方案。每次最多生成 3 个提案,评估预期收益和影响范围。
多个 AI 角色从不同视角审议提案:优化派关注效率,保守派关注风险,用户代理关注体验。
关键决策权始终在人类手中。重要提案发送给用户,用户可以同意、拒绝或进一步讨论。
修改前自动备份快照,执行文件级原子操作,修改后验证系统可用性。
根据审批级别设置 3-7 天验证期。收集修改前后的量化指标,数据驱动判断改进是否有效。
验证期内指标恶化超过 20%,自动回滚到修改前状态。失败教训写入记忆,避免重蹈覆辙。
成功的改进沉淀为经验规则,失败的尝试记录为教训。每一次循环都让系统更聪明。
系统分为四个清晰的层级,每一层只负责自己的职责,通过明确定义的接口与其他层交互。底层提供稳定的基础设施,上层实现越来越"智能"的行为——最终在自治层实现真正的自我进化。
系统的"大脑皮层"。观察者持续感知系统状态,架构师设计改进方案,委员会从多角度辩论评估,回滚机制确保进化安全。这是整个系统最独特的部分——让 AI 拥有了自我改进的能力。
系统的工作不是"告诉模型做什么",而是"精心构建模型看到什么"。上下文引擎管理 token 预算,决定每次调用时模型能看到哪些规则、记忆和历史。记忆系统实现四层记忆架构。
Agent Loop 是粘合剂,协调"思考-行动-观察"的循环。工具系统提供对外界的操控能力。规则解释器将自然语言规则转化为具体的行为指导。
基于 NanoBot 框架的成熟基础设施。LLM Gateway 统一多模型接入,Telegram/Web 提供用户交互通道。原则:用最成熟的方案,不重复造轮子。
这不是一个只会等待指令的被动工具。它像一个敬业的同事——主动发现问题、建议改进、沟通进展。它有好奇心,会主动填补自己的知识缺口;有判断力,知道什么时候该自己做,什么时候该问人。
系统内置了一个意图池(Intention Pool),统一管理用户分配的任务意图和 AI 自主产生的好奇心意图。每个意图都标注了来源、优先级和"能否自己解决"——如果需要人类参与,系统会主动规划好方案再来请求协助。
当系统发现自己在某个领域反复被问却无法给出高质量回答时,它不会坐等——它会主动调研、建立知识库、设置定期追踪。
面对多个可能的方向时,系统不会盲目猜测用户意图。它会分析各选项的利弊,然后主动提问以确认方向。
当任务需要物理行动、人际沟通或主观判断时,AI 切换为"规划者"——制定方案、驱动人类执行、接收结果、继续分析。
系统不只在工作时学习——它会在日常交互的间隙中主动收集信息、完善用户画像、预判未来需求。
这些原则是整个系统的思想内核。它们不是从其他项目借鉴来的——在我们调研的 6 个开源项目中,没有找到等价物。代码可以复制,认知框架不能。以下是最具代表性的 8 条。
系统的核心工作不是"告诉模型做什么",而是"精心构建模型看到什么"。就像人类的注意力决定了思考的质量,上下文的组装质量决定了 AI 输出的质量。
不试图消除 LLM 的缺陷,而是设计补偿机制。任务锚点防止漂移,Compaction 防止遗忘,反思引擎防止重复犯错。接受不完美,用架构来弥补。
最大的收益来自消除复杂性,而非增加功能。每一次进化优先考虑"能删掉什么"。简洁是终极的复杂。
行为由可读、可修改的自然语言规则文件驱动。进化不需要工程师——AI 自己编辑规则,就改变了自己。
进化响应的是"发生了什么"(信号),而非"过了多长时间"。用户纠正、连续失败、新场景——真实事件才是进化的触发器。
不限制进化的方向,限制单次变更的影响范围。让 AI 自由探索改进空间,但确保任何一次失败都不会造成不可挽回的损害。
AI 不仅接受命令——当任务需要物理行动或人际关系时,AI 成为规划者,驱动人类执行。谁擅长谁来做。
不删除错误痕迹——保留每一次失败的完整记录,作为反思和改进的输入。错误不是要消灭的敌人,而是要珍惜的老师。
记忆是智能的基础。没有记忆,每次对话都是从零开始。我们设计了四层记忆架构,模拟人类从"工作记忆"到"长期记忆"的完整体系。不同类型的信息存储在不同的层级,有不同的生命周期和检索策略。
当前任务的完整对话与约束。类比"此刻的注意力",容量有限但速度最快。
完整任务记录,含中间过程和结果。30 天内保留原文,之后压缩为摘要。
用户档案、偏好、项目上下文、战略目标。长期持久,是"了解用户"的基础。
规则、技能、错误模式。类比"肌肉记忆"——不需要思考就知道该怎么做。
跨所有项目共享。包括用户画像、沟通偏好、工作习惯。让系统在任何场景下都"认识你"。
按项目隔离。每个项目有独立的 PRD、技术栈、业务逻辑。切换项目时自动加载对应上下文。
上下文窗口是有限的"注意力"。引擎按优先级分配每个部分的 token 预算,确保最重要的信息始终在场。当 token 占用超过 85%,Compaction 机制自动触发。
当 token 占用超限时自动触发:先将关键决策写入永久记忆,再将完整对话归档,最后生成 15-20% 大小的精炼摘要替换历史。保留所有决策点和未决事项,丢弃中间讨论和被否定方案。
系统的行为由两类规则驱动。宪法级规则是不可逾越的底线——保护最根本的价值。经验级规则是从实践中学到的最佳实践——它们会不断进化,变得越来越精准。
价值底线 · 不可自主修改
最佳实践 · 持续进化
自治不等于失控。系统在"保守"和"激进"之间找到了动态平衡点——用审批级别控制进化的自由度。小改动自主执行以保持敏捷,大改动需要人类审批以确保安全。
措辞优化、新增示例、格式微调。影响范围极小,系统自行决定和执行。
新增策略规则、调整优先级。先执行再通知用户,用户可在事后审查和回滚。
新增经验规则、修改核心逻辑。需经多智能体委员会辩论,人类审批后执行。
架构调整、安全边界修改。需要与人类深度对话,充分理解后才能决策。
AI 不是软件,是劳动力市场。AI Agent 卖的不是"工具",而是"数字劳动力"。全球人力成本是数十万亿级别的市场——而人类的核心价值正在向不可编码的判断力集中:领域深知识(隐性知识)、品味判断(无标准答案)、信任关系(需要真人)。
私域知识是 AI 认知的"暗物质"。公开信息已经被 AI 覆盖,真正的差异化来自将隐性知识数字化。我们的系统要做的,不仅是一个"好用的 AI 助手",而是一个能持续吸收隐性知识、持续进化的智能实体,最终成为真正的"数字劳动力"。
这个项目的真正价值不在代码,而在思想。「双螺旋智能」「规则即程序」「爆炸半径优于权限」「信号驱动而非时间驱动」——这些设计原则是原创的。在我们调研的 6 个开源项目中,没有找到等价物。代码可以复制,认知框架不能。