promptfoo:LLM 评估与红队测试

promptfoo 是一个 面向开发者的本地工具,用于测试 LLM 应用。 停止依赖反复试错的方法 —— 开始构建 安全、可靠的 AI 应用

官网 · Getting Started · Red Teaming · 文档 · Discord


快速开始

# 安装并初始化项目
npx promptfoo@latest init

# 运行第一次评估
npx promptfoo eval

查看:

  • Getting Started(评估)
  • Red Teaming(漏洞扫描)

以了解更多信息。


使用 Promptfoo 可以做什么?

  • 测试你的 Prompt 与模型,并进行自动化评估
  • 通过 红队测试(Red Teaming)与漏洞扫描 保护 LLM 应用
  • 并排比较模型性能(OpenAI、Anthropic、Azure、Bedrock、Ollama 等)
  • CI/CD 流程中自动执行检查
  • Pull Request 中进行代码扫描,检查与 LLM 相关的安全与合规问题
  • 与团队共享评估结果

实际效果

(此处原文展示 UI 示例)


也支持命令行

(原文展示 CLI 示例)


还可以生成安全漏洞报告

(原文展示报告示例)


为什么选择 Promptfoo?

  • 🚀 开发者优先(Developer-first) 速度快,支持实时重载(live reload)和缓存

  • 🔒 隐私保护(Private) LLM 评估 100% 本地运行,你的 Prompt 不会离开本机

  • 🔧 灵活(Flexible) 支持 任意 LLM API 或编程语言

  • 💪 生产验证(Battle-tested) 已在 服务超过 1000 万用户的生产应用中使用

  • 📊 数据驱动(Data-driven) 用指标而不是直觉来做决策

  • 🤝 开源(Open source) MIT 许可证,并拥有活跃社区


了解更多

  • 📚 完整文档(Full Documentation)
  • 🔐 红队测试指南(Red Teaming Guide)
  • 🎯 快速开始(Getting Started)
  • 💻 CLI 使用说明
  • 📦 Node.js 包
  • 🤖 支持的模型

贡献(Contributing)

欢迎贡献代码!

请查看 贡献指南(contributing guide) 以开始参与。

你也可以加入 Discord 社区进行交流和获得帮助。


项目简介(About)

测试你的 Prompt、Agent 和 RAG 系统。 为 LLM 提供 AI 红队测试、渗透测试(pentesting)和漏洞扫描。 比较 GPT、Claude、Gemini、Llama 等模型的性能

使用 简单的声明式配置,并支持 命令行与 CI/CD 集成。 ([GitHub][1])

参考资料