ai biz

Heretic 是一个能自动移除大语言模型安全审查机制（即"安全对齐"）的开源 Python 工具

Posted by houbb on May 28, 2026

Heretic

Heretic 是一个能自动移除大语言模型安全审查机制（即”安全对齐”）的开源 Python 工具。

它基于一项名为方向性消融（又称”去安全审查”）的技术，该技术来自一篇2024年的学术论文。论文发现，大语言模型的”拒绝回答”行为，在模型内部其实是由一个一维的”方向” 所决定的。Heretic 所做的，就是将这个发现自动化：自动定位并削弱这个方向，从而让模型不再轻易拒绝回答。

核心特性

零门槛自动化：你无需理解 Transformer 模型的内部结构，运行一个命令行指令即可完成。
低成本高效率：无需昂贵的再训练或微调，据称在像 RTX 3090 这样的消费级显卡上，约 45分钟 即可完成对典型模型的去审查处理。
保留模型能力：Heretic 通过 Optuna 框架和 TPE 算法来优化参数，目标是同时最小化模型的拒绝次数和与原始模型的偏差（KL 散度），在移除限制的同时，尽量保持模型的原有智能和知识不被破坏。

快速上手

环境准备：确保有一个 Python 3.10 或更新版本的环境，并安装与你的硬件相匹配的 PyTorch（需要 2.2 或更新版本）。
安装工具：在终端执行以下命令即可完成安装：
```
pip install -U heretic-llm
```
运行处理：安装后，直接运行 heretic 命令并指定目标模型即可开始：
```
heretic <你想处理的模型名称>
```
例如：heretic Qwen/Qwen3-4B-Instruct-2507。

Heretic 支持众多主流的”稠密”（Dense）模型架构，包括许多多模态模型和混合专家（MoE）模型。

使用限制与伦理讨论

支持范围：虽然 Heretic 支持大量主流模型，但某些特定的研究架构（如纯状态空间模型）可能无法直接兼容。
潜在风险：Heretic 强大的去审查能力，客观上也可能被用于生成有害内容，因此在使用时需要充分了解其能力和潜在影响。一些报道也指出，由于它的出现，AI 模型的”安全护栏”变得更加脆弱，这引发了关于 AI 伦理与监管的讨论。

参考资料

Heretic
参考资料

更多学习

个人 Github

个人公众号

更多实时资讯，前沿技术，生活趣事。尽在【老马啸西风】

交流社群：交流群信息