ai speech sh

promptfoo：LLM 评估与红队测试

Posted by houbb on March 13, 2026

promptfoo：LLM 评估与红队测试

promptfoo 是一个 面向开发者的本地工具，用于测试 LLM 应用。停止依赖反复试错的方法 —— 开始构建 安全、可靠的 AI 应用。

官网 · Getting Started · Red Teaming · 文档 · Discord

快速开始

# 安装并初始化项目
npx promptfoo@latest init

# 运行第一次评估
npx promptfoo eval

查看：

Getting Started（评估）
Red Teaming（漏洞扫描）

以了解更多信息。

使用 Promptfoo 可以做什么？

测试你的 Prompt 与模型，并进行自动化评估
通过 红队测试（Red Teaming）与漏洞扫描 保护 LLM 应用
并排比较模型性能（OpenAI、Anthropic、Azure、Bedrock、Ollama 等）
在 CI/CD 流程中自动执行检查
在 Pull Request 中进行代码扫描，检查与 LLM 相关的安全与合规问题
与团队共享评估结果

实际效果

（此处原文展示 UI 示例）

也支持命令行

（原文展示 CLI 示例）

还可以生成安全漏洞报告

（原文展示报告示例）

为什么选择 Promptfoo？

🚀 开发者优先（Developer-first） 速度快，支持实时重载（live reload）和缓存
🔒 隐私保护（Private） LLM 评估 100% 本地运行，你的 Prompt 不会离开本机
🔧 灵活（Flexible） 支持 任意 LLM API 或编程语言
💪 生产验证（Battle-tested） 已在 服务超过 1000 万用户的生产应用中使用
📊 数据驱动（Data-driven） 用指标而不是直觉来做决策
🤝 开源（Open source） MIT 许可证，并拥有活跃社区

了解更多

📚 完整文档（Full Documentation）
🔐 红队测试指南（Red Teaming Guide）
🎯 快速开始（Getting Started）
💻 CLI 使用说明
📦 Node.js 包
🤖 支持的模型

贡献（Contributing）

欢迎贡献代码！

请查看 贡献指南（contributing guide） 以开始参与。

你也可以加入 Discord 社区进行交流和获得帮助。

项目简介（About）

测试你的 Prompt、Agent 和 RAG 系统。为 LLM 提供 AI 红队测试、渗透测试（pentesting）和漏洞扫描。比较 GPT、Claude、Gemini、Llama 等模型的性能。

使用 简单的声明式配置，并支持 命令行与 CI/CD 集成。 ([GitHub][1])

参考资料

promptfoo：LLM 评估与红队测试
快速开始
使用 Promptfoo 可以做什么？
实际效果
也支持命令行
还可以生成安全漏洞报告
为什么选择 Promptfoo？
了解更多
贡献（Contributing）
项目简介（About）
参考资料

更多学习

个人 Github

个人公众号

更多实时资讯，前沿技术，生活趣事。尽在【老马啸西风】

交流社群：交流群信息