2026年3月17日 09:45生活周边01.20K
#人工智能 研究显示 AI 模型也会造成屎山代码,还会频繁引入错误并加速技术债务积累。来自中山大学和阿里巴巴的研究团队发表新论文揭示 AI 模型长期开发维护的脆弱性,AI 可以在短期内快速交付产品和解决 BUG,但若是长期维护则会频繁引入错误回归并导致系统性的质量退化。查看全文:https://ourl.co/112191
来自中山大学和阿里巴巴集团的研究团队日前发布新论文,这篇论文系统性评估大型语言模型驱动的代码在真实软件项目多轮迭代中的可维护性,但结果让人震惊。
研究显示,即使是目前最先进的人工智能模型,也难以避免在长期维护过程中引入回归错误,这会导致代码质量逐步衰退,并且显著增加技术债务。
什么是技术债务:
技术债务是软件开发领域的经典比喻概念,最初由沃德・坎宁安在 1992 年提出。沃德・坎宁安将软件中的次优设计或权宜之计比作债务:在短期内看似借到了速度和快速交付的好处,但未来必须连本带利偿还,而且利息还会不断累积。
简单来说技术债务就是为了追求短期速度或者因业务压力而故意或无意采用的非最优方案,属于代码能跑就行,但这会在未来带来额外维护、修复、重构成本。
研究称现有基准测试无法评估 AI 代码能力:
现有基准测试例如 SWE-Bench 等主要聚焦于一次性错误修复或功能添加,AI 模型只会针对单一快照给出正确补丁即可通过。
这种静态评估忽略了真实软件工程中的核心现实:软件生命周期中 60%~80% 的成本发生在维护阶段,涉及持续的需求演变、重构、依赖变更以及对回归错误的严格控制。
一旦 AI 模型或智能体做出短期奏效但长期脆弱的决策,其后果就会在后续迭代中累积放大,但这种情况在传统基准测试中完全不可见。
论文指出,一个硬编码的脆弱修复与一个编写干净、可扩展代码的方案,在同一测试套件下可能都会通过,但不同方案的维护性差异只在代码库持续演化时才会显现。
SWE-CI 基准测试:模拟真实的持久战
SWE-CI 数据集从 GitHub 精选的 100 个活跃 Python 仓库任务作为测试点,每个任务对应真实主分支上的连续提交历史,平均跨越 233 天、71 次提交、源代码修改超过 500 行,每个任务都配备独立的 Docker 环境,确保测试可以复现。
实验结果揭示 AI 长期维护的严峻现实:
研究团队基于 SWE-CI 基准测试对 18 个主流 AI 模型进行评估,大多数模型的零错误回归率都低于 25%,仅 Claude Opus 系列中的两个模型超过 50%。
回归错误泛滥:零回归率指的是全程无任何测试退化,大多数模型的零回归率低于 25%,即在超过 75% 的任务中,AI 会在修复或添加功能时破坏已有功能。
测试中表现最好的是 Claude Opus 两个模型,其零回归率超过 50%,但这也仍然表明当前 AI 模型在长期代码维护中难以可靠的规避回归。
论文还强调,在 AI 模型的长期维护下,一旦系统发生回归,这不仅仅会影响用户体验,还会随着变更数量积累,导致系统性质量退化。
这项研究也为 AI 编码工具敲响警钟:短期内能跑通远非终点,真正可靠的 AI 软件工程,需要从训练与评估范式上彻底转向长期维护性。

