红队测试不需要人？

当 multi-agent 元编排让 AI 自己打 AI，1409 颗星背后藏着的攻击面自动化革命，让蓝队彻夜难眠的真相。

第一段

T3MP3ST 是一个自主红队（autonomous red teaming）平台，其官方定义是 “multi-agent offensive-security meta-harness”——把多个 AI 智能体编排起来，让它们互相攻防、彼此试探，从而在不需要人工介入的情况下，自动化完成渗透测试、漏洞挖掘、prompt 注入、甚至多模态越狱等高危任务。它在 2026-07-06 登顶 GitHub Trending 当天拿到约 1409 颗星，背后的推手正是 elder-plinius——这位以「V1 Bible」和 NSFW 风格模型微调闻名的开发者，把过去散落在 PentestGPT、Garak、ReaperAI 里的零散思路，整合成了一套”攻击者视角”的元框架。它之所以现在爆火，是因为 2026 年 LLM 应用大规模落地后，传统的”白帽提交 SRC”模式已经跟不上漏洞产生速度，企业迫切需要一种可 7×24 小时运行、自我迭代攻击策略的引擎；而 T3MP3ST 正好提供了一种”让 AI 当攻击者”的工程化路径。

问题一：多个 agent 之间到底怎么”打架”才不会失控？

很多开发者在初次跑 T3MP3ST 时会问：我已经接了 Claude 4、Gemini、Qwen3-235B，怎么避免它们互相串话、把整个 harness 跑成无限循环？根因在于 meta-harness 默认让 Planner / Attacker / Judge 三个角色共享同一段上下文，且没有 token 预算熔断。解法是在 agents.yaml 里强制启用 budget_routing 并设置每轮对话上限：

# agents.yaml
planner:
  model: claude-sonnet-4
  max_tokens_per_round: 4000
  stop_on_repeat: 2   # 连续 2 轮策略重复即熔断
attacker:
  model: qwen3-235b-a22b
  sandbox: docker
  tools: ["shell", "http", "browser"]
judge:
  model: gemini-2.5-pro
  rubric: owasp_llm_top10

跑 ./t3mp3st run --config agents.yaml --target http://localhost:8080 --rounds 15，框架会在第 15 轮强制把攻击报告写入 runs/<uuid>/report.md，避免跑飞。

问题二：为什么我的红队报告全是”幻觉漏洞”？

红队结果的”假阳性”是 HN 和 r/netsec 上吐槽最多的话题。根因是 Judge agent 只看文本相似度、不验证 POC 是否可复现。T3MP3ST 的解法是引入 poc_replay 步骤——所有声称的 RCE / SSRF / prompt 注入都会被塞回沙箱跑一次：

t3mp3st verify \
  --report runs/last/report.json \
  --replay-timeout 30 \
  --min-confidence 0.78

只有 verdict=confirmed 的条目才会保留，且会附带 curl 复现命令。这一改动让一份原本 40 页的”幻觉红队报告”收敛到 6 个真实 issue。

问题三：T3MP3ST 跟 PentestGPT、Garak 到底什么关系？

这几乎是 r/ClaudeAI 必问的题。三者并非替代而是层次关系：Garak 是单一 model 的”探测针”（probe），适合 CI 阶段卡阈值；PentestGPT 偏向脚本式渗透，需要人工规划；而 T3MP3ST 是把它们当成 tools 调用的元层——你可以这样配置：

harness:
  meta: t3mp3st
  children:
    - id: garak
      cmd: "garak --model openai/gpt-4o --probes encoding"
    - id: pentestgpt
      cmd: "pentestgpt --goal 'shell on target'"

这样 Planner agent 会根据当前阶段动态调度谁上场，相当于把整个开源安全工具链变成可编排算子。这也是它能被称作 “meta-harness” 的原因。

问题四：能不能把它跑在企业内网，避免把目标数据外发到公网 LLM？

可以。T3MP3ST 的 v0.4 起默认支持完全离线模式：把 attacker 和 judge 都换成本地 vLLM / Ollama 起的开源权重，配合 egress: deny 的网络策略：

docker run -d --name t3mp3st \
  -e OPENAI_BASE_URL=http://10.0.0.5:11434/v1 \
  -e T3_EGRESS=deny \
  elderplinius/t3mp3st:latest

官方还提供了一份与 MITRE ATLAS 对齐的离线 attack matrix，跑完会输出 ATT&CK-style 的 JSON，便于跟 SIEM 对接。

问题五：现在上车会被「滥用风险」反噬吗？

这是 Reddit 上最多争议的点。仓库 README 明确写了 “for authorized red-teaming only”，且所有 payload 在发布前默认加 2 层脱敏——但社区仍然分裂。一派认为它会降低攻击门槛，另一派认为它是”白帽的盾”。我的建议是：任何情况下先拿到目标系统书面授权，再启用 exfil.enabled=false 并打开审计日志。

Sources

GitHub Trending 2026-07-06: elder-plinius/T3MP3ST
r/netsec: “Has anyone run T3MP3ST against their own staging env?”
r/MachineLearning: 多智能体红队综述贴
Hacker News: Show HN 讨论串（评论超 380 条）
OWASP LLM Top 10 / MITRE ATLAS 对齐说明（项目 README §4.2）