实践已经证明了大语言模型(LLM)在辅助编程方面的优秀表现,例如代码补全、问题解答和自动化任务生成。然而,LLM也存在一些局限性:
为解决上述问题,我们结合人类与LLM的优势,通过Cursor承担80%工作量,目标定位于0.5人天至1人天的需求,让LLM承担80%的工作量,人类专注于剩余20%——即LLM无法解决、不够完善或投资回报率(ROI)较低的部分。
Cursor 是一个基于AI的代码编辑器,旨在提升开发效率。它通过以下方式解决LLM的局限性:
提示、资源和工具被认为是AI系统的三大关键能力,特别是在高级AI框架如MCP的上下文中。
这三个能力相互关联:提示启动交互,资源提供必要的数据或工具,工具执行特定动作。例如,在MCP中,AI可能通过提示请求日历事件,资源(MCP服务器)提供Google Calendar工具,工具执行添加事件的动作。
Agentic AI 是一种软件系统,设计为以最少人类干预的方式与数据和工具交互。研究表明,它强调目标导向行为,能通过创建步骤列表并自主执行来完成任务 Red Hat: What is agentic AI?。它结合了 LLM 的创造性(如内容生成和代码补全)与自动化的执行能力,使其能处理复杂、多步问题 NVIDIA Blog: What Is Agentic AI?。这种系统特别适合需要规划和适应的场景,如客户服务、供应链管理和游戏开发。
Cursor
Cursor 是一款 AI 驱动的代码编辑器,利用 Agentic AI 预测代码编辑路径并自动化重复任务。研究显示,其“代理模式”能端到端完成任务,如自动运行终端命令、创建和修改文件,以及执行语义代码搜索 Cursor Features。这提升了开发者的生产力,使 AI 能与人类协作,同时独立操作。例如,Cursor 的“代理模式”能根据目标建议命令和文件创建,适合构建项目 Cursor Agents Initial Impressions。这表明 Cursor 的 Agentic AI 专注于增强编码流程的效率。
功能 | 描述 |
终端命令 | 自动运行并确认命令,减少手动调试 |
文件操作 | 创建、修改文件,基于目标执行任务 |
语义搜索 | 理解代码库,提供相关建议 |
Windsurf
Windsurf 是 Codeium 开发的 AI 驱动 IDE,被描述为“第一个 AI 代理驱动的 IDE”,强调多代理协作 Windsurf Editor by Codeium。它允许开发者与 AI 实时协作,AI 既能像副驾驶一样协助,也能独立处理复杂任务。其“Cascade”和“Memories”功能保持对话上下文,确保连续性 Windsurf AI Agentic Code Editor。例如,Windsurf 能生成代码、调试错误,并通过 AI 终端集成优化开发流程。这使其成为处理复杂编码挑战的强大工具,特别适合需要多代理协作的场景。
功能 | 描述 |
Cascade | 深度理解代码库,实时协作 |
Memories | 保持上下文,改善交互连续性 |
AI 终端 | 直接生成代码,简化调试 |
Claude Code
Claude Code 是 Anthropic 开发的一个代理式编码工具,旨在通过代理式 AI(Agentic AI)增强开发者的生产力。它直接集成到开发者的终端环境中,通过自然语言命令执行各种编码任务。这种工具体现了代理式 AI 的核心特性:自主决策和执行多步骤任务,减少对人类干预的依赖。
Claude Code 的代理式 AI 功能使其能够执行以下关键任务,这些任务通过自然语言命令触发,体现了其自主性和多功能性:
这些功能由多种工具支持,具体如下表所示:
工具名称 | 功能描述 | 是否需要权限 |
---|---|---|
AgentTool | 处理复杂、多步骤任务 | 否 |
BashTool | 执行 shell 命令 | 是 |
GlobTool | 根据模式匹配查找文件 | 否 |
GrepTool | 在文件内容中搜索模式 | 否 |
LSTool | 列出文件和目录 | 否 |
FileReadTool | 读取文件内容 | 否 |
FileEditTool | 对文件进行针对性编辑 | 是 |
FileWriteTool | 创建/覆盖文件 | 是 |
NotebookReadTool | 读取/显示 Jupyter 笔记本内容 | 否 |
NotebookEditTool | 修改 Jupyter 笔记本单元格 | 是 |
Agentic AI 的核心在于其自主性,能规划和执行任务,弥补 LLM 在复杂场景中的不足。研究建议,它能学习和适应,通过反馈改进表现 UiPath: What is Agentic AI?。然而,其自主性也引发了安全担忧,如偏见、错误和误用风险 What Is Agentic AI, and How Will It Change Work?。为此,提出了如“终止开关”等安全措施,以监控和停止系统行为 TechTarget: What Is Agentic AI? Complete Guide。
任务阶段 | 描述 | 难点 | 工作量占比 |
---|---|---|---|
背景信息整理 | 整理需求描述、关联代码路径、技术实现要点、技术实现难点、功能性需求、非功能性约束 | 清晰定义产品目标、定义非功能性目标、提前判断技术实现要点、提前预知技术实现难点和风险点 | 20% |
拆解技术路径 | 将需求分解为可执行的技术步骤 | 确保步骤逻辑清晰、粒度合理 | 10% |
编写技术方案 | 设计实现方案,包括技术选型和架构 | 平衡功能性与非功能性需求,选择最优技术栈 | 20% |
优化技术方案 | 审查并改进方案,解决潜在问题 | 识别冗余或风险点,确保可扩展性 | 10% |
逐步实现并编写单元测试 | 实现代码并编写测试用例,确保功能正确性 | 代码质量、测试覆盖率 | 30% |
提交PR直到CI/CD检测通过 | 提交代码并通过持续集成/持续部署(CI/CD)检测 | 解决CI/CD失败 | 10% |
目标:LLM完成80%(背景整理、路径拆解、技术方案、部分实现),人类处理20%(方案优化、复杂实现、CI/CD调整)。
为了实现LLM承担80%工作量,人类专注于剩余20%的目标,这里给出一套分阶段的实现路径,每个阶段都明确了LLM的执行步骤、Rules(提示语)和MCP(外部能力)。
为了实现 LLM 承担 80% 工作量、人类专注于剩余 20% 的目标,我们在前述 3.1 至 3.5 小节中提出了一套分阶段的实现路径,每个阶段都明确了 LLM 的执行步骤(Procedure)、Rules(提示语上下文)以及 MCP(外部能力)。MCP作为支持 LLM 自动化工作流程的核心组件,包含 Prompt(提示语)、Resource(资源) 和 Tool(工具) 三部分。基于上述路径拆解,我们将 MCP 划分为以下三大类别,并针对每个类别设计具体的实现方案:
功能:负责提供和维护 todo-list、监控当前任务进度,支持项目开发全流程的自动化管理。
适用阶段:贯穿 3.1 至 3.5,确保任务分解和进度跟踪。
具体实现:
功能:负责提供和维护内部最佳实践文档、需求上下文资源文档,查询线上服务(如告警、日志),管理线上服务(如重启测试服务),为 LLM 提供丰富的上下文支持。
适用阶段:3.1(背景整理)、3.2(方案编写)、3.3(方案优化)等需要上下文的阶段。
具体实现:
功能:负责执行通用步骤,包括分支管理、PR 管理等,提升代码开发和提交的自动化程度。
适用阶段:3.4(方案实现)、3.5(PR 提交)。
具体实现:
通过将 MCP 划分为 项目过程管理、上下文资源管理 和 工具管理 三大类别,我们为 LLM 提供了一套结构化的外部能力支持系统。这些 MCP 与 3.1 至 3.5 的实现路径紧密结合,能够自动化执行从背景整理到 PR 提交的常规任务,并根据具体上下文提供动态支持。这一整合策略确保 LLM 能够高效承担 80% 的工作量,人类只需专注于剩余 20% 的关键决策和优化,从而显著提升软件开发效率和质量。
为了全面评估本方法在实际应用中的效果,我们结合了主观评价(用户体验和满意度)和客观评价(时间节省、效率提升和功能实现度)两个维度。通过两个具体任务的实现与对比,我们展示了Cursor、MCP(模型上下文协议)和Agentic AI结合的优势,验证了其在解决大语言模型(LLM)编程辅助局限性方面的能力。以下是详细分析。
任务描述
用户需求:创建一个论文写作网站,左侧为上下文菜单,右侧顶部为论文正文,右侧底部为聊天和控制面板。网站需支持以下功能:
实现过程
对比分析
以下是对比表格,清晰展示两种工具在功能和性能上的差异:
功能/指标 | Cursor AI | v0.dev |
---|---|---|
代码生成 | 是 | 是 |
上下文感知 | 强(通过 MCP 和 Agentic AI) | 较弱 |
外部工具集成 | 通过 MCP 支持丰富集成 | 有限 |
快速原型设计 | 否 | 是(核心优势) |
自定义选项 | 丰富(支持规则定制) | 有限 |
后端支持 | 是(通过 MCP 访问 API) | 主要为前端 |
价格 | 免费/Pro | 免费/付费 |
复杂功能支持 | 是(查重、图表等) | 有限 |
代码风格调整 | 可通过规则和工具实现 | 有限 |
图表绘制 | 通过外部工具集成 | 需手动实现 |
代码查重 | 通过 MCP 集成 API | 需手动实现 |
评估结果
任务描述
需求:在一个大型 Golang 项目中实现新功能,例如开发新的 API 端点。任务涉及项目设置、结构设计、API 开发、数据存储和测试等环节,需遵循 Golang 最佳实践(如分层架构或六边形架构)。
实现过程
对比分析
以下是对比表格,突出效率和质量的差异:
指标 | Cursor AI | 100% 人工实现 |
---|---|---|
开发时间 | 0.5 人天 | 2 人天 |
效率提升 | 75% | - |
代码质量 | 一致(符合规范) | 一致(依赖经验) |
任务拆解 | 自动化(Agentic AI) | 手动 |
内部库访问 | 通过 MCP 自动化 | 手动查阅 |
架构模式支持 | 自动选择并生成 | 手动设计 |
测试覆盖率 | 高(自动生成测试) | 依赖开发者 |
评估结果
为了更全面地评估本方法的实际效果,我们引入了额外的评估维度,包括学习曲线、错误率和团队协作支持,并基于假设数据进行分析。
学习曲线
错误率
团队协作支持
扩展评估结果
通过以上任务和维度的分析,本方法展现出以下显著优势:
综合来看,通过 Cursor、MCP 和 Agentic AI 的结合,LLM 在编程辅助中的局限性(如幻觉、上下文丢失)得到有效解决,80% 的工作量被自动化处理,人类开发者得以聚焦于高价值任务(如方案优化、复杂逻辑设计)。
为进一步提升本方法的效果,可从以下方面优化:
通过这些改进,本方法有望在更广泛的开发场景中实现更高的自动化比例和效率提升。
通过Cursor、MCP和Agentic AI的结合,LLM在编程辅助中的局限性得以解决,80%的工作量被有效自动化,人类得以聚焦高价值任务。未来可进一步扩展MCP的资源支持,优化Agentic AI的推理能力,推动更大规模应用。