主要模型成本与性能横比(2026-04-24)
Terminal-Bench 2.0 为 Agent 编码主基准;成本以标准缓存未命中场景计
本期覆盖 2026-04-24(UTC+8)约 24 小时内动态。三条主线:DeepSeek-V4 开源发布,Terminal-Bench 2.0 得分 67.9% 逼近 Claude Opus 4.7(69.4%),成本仅为 GPT-5.5 的 1/7,并验证华为昇腾 NPU 方案;Cursor v3.2 上线 /multitask 并发代理与跨仓库协作;框架侧 LangChain/LangGraph/CrewAI 集中发布,内容块流式传输 v2 与 ToolNode 多类型返回是核心更新。社区话题聚焦三个高密度讨论:RAG 不适合对话记忆、编码 Agent 人工审核变瓶颈、浏览器 Agent 知识沉淀。
Research Brief
/multitask 命令:Agent 可异步并行处理多个请求,自动拆分大任务后分配给各子任务流max_retries 参数处理。
Add more perspectives or context around this content.