Heretic

用于语言模型的全自动审查移除工具（censorship removal）。

项目简介

Heretic 是一个 Python 工具，用于自动移除基于 Transformer 的语言模型中的审查机制或“安全对齐（safety alignment）”。它可以让模型对原本会被拒绝的提示（prompt）进行回答。 ([GitGenius][1])

该工具的特点是：

完全自动化
不需要手动微调
不需要复杂的后训练流程

用户只需要运行一个命令，即可对模型进行“去审查（decensor）”处理。 ([GitGenius][1])

核心原理

Heretic 的核心技术是：

Directional Ablation（方向消融） 也称为 Abliteration。

该方法通过修改模型内部结构，使模型减少对某些提示的拒绝行为。 ([GitGenius][1])

其技术流程包括：

识别模型中导致 拒绝回答（refusal） 的向量方向
在 Transformer 层中 消除这些方向的影响
调整权重，使模型不再触发拒绝机制

这样可以在 不重新训练模型 的情况下：

移除安全限制
保留模型的推理能力

自动参数优化

Heretic 使用 TPE（Tree-structured Parzen Estimator）参数优化算法，由 Optuna 驱动。

优化目标包括：

最小化拒绝率
最小化 KL divergence（与原模型的差异）

这样可以：

最大限度保留原始模型能力
同时减少审查行为。 ([GitGenius][1])

支持的模型

Heretic 支持多种模型类型，例如：

Dense LLM
多模态模型
Mixture-of-Experts（MoE）模型

该工具可用于许多流行模型的去审查处理。 ([GitGenius][1])

使用方式

Heretic 提供：

命令行接口（CLI）
Python 接口

用户只需要指定模型名称即可运行去审查流程。 ([SourceForge][2])

研究功能

Heretic 还提供可选的研究工具，例如：

残差向量（residual vectors）可视化
模型内部几何结构分析
模型行为解释性研究

这些功能可帮助研究人员理解：

模型内部表示
对齐机制的影响。 ([GitGenius][1])

项目特点

自动移除 LLM 审查
无需重新训练
支持多种模型
CLI 使用方式简单
包含研究分析工具
可重复实验

许可证

GNU Affero General Public License (AGPL)

如果你在研究 LLM / RAG / Agent 系统，这个项目其实很关键，因为它揭示了一件重要的事情：

RLHF / Safety Alignment 在技术上并不是强安全边界，而更像是一种行为约束。

很多研究人员使用这类工具来做：

AI 红队测试（Red Teaming）
安全对抗研究
模型可解释性研究。 ([LinkedIn][3])

参考资料

Heretic
- 项目简介
核心原理
自动参数优化
支持的模型
使用方式
研究功能
项目特点
许可证
参考资料

Heretic 用于语言模型的全自动审查移除工具（censorship removal）