Heretic

Heretic 是一个能自动移除大语言模型安全审查机制(即”安全对齐”)的开源 Python 工具

它基于一项名为方向性消融(又称”去安全审查”)的技术,该技术来自一篇2024年的学术论文。论文发现,大语言模型的”拒绝回答”行为,在模型内部其实是由一个一维的”方向” 所决定的。Heretic 所做的,就是将这个发现自动化:自动定位并削弱这个方向,从而让模型不再轻易拒绝回答。

核心特性

  • 零门槛自动化:你无需理解 Transformer 模型的内部结构,运行一个命令行指令即可完成。
  • 低成本高效率:无需昂贵的再训练或微调,据称在像 RTX 3090 这样的消费级显卡上,约 45分钟 即可完成对典型模型的去审查处理。
  • 保留模型能力:Heretic 通过 Optuna 框架和 TPE 算法来优化参数,目标是同时最小化模型的拒绝次数和与原始模型的偏差(KL 散度),在移除限制的同时,尽量保持模型的原有智能和知识不被破坏。

快速上手

  1. 环境准备:确保有一个 Python 3.10 或更新版本的环境,并安装与你的硬件相匹配的 PyTorch(需要 2.2 或更新版本)。
  2. 安装工具:在终端执行以下命令即可完成安装:
    pip install -U heretic-llm
    
  3. 运行处理:安装后,直接运行 heretic 命令并指定目标模型即可开始:
    heretic <你想处理的模型名称>
    

    例如:heretic Qwen/Qwen3-4B-Instruct-2507

Heretic 支持众多主流的”稠密”(Dense)模型架构,包括许多多模态模型和混合专家(MoE)模型。

使用限制与伦理讨论

  • 支持范围:虽然 Heretic 支持大量主流模型,但某些特定的研究架构(如纯状态空间模型)可能无法直接兼容。
  • 潜在风险:Heretic 强大的去审查能力,客观上也可能被用于生成有害内容,因此在使用时需要充分了解其能力和潜在影响。一些报道也指出,由于它的出现,AI 模型的”安全护栏”变得更加脆弱,这引发了关于 AI 伦理与监管的讨论。

参考资料