Uncensor any LLM with abliteration

Artikeln introducerar "abliteration", en teknik för att avcensurera stora språkmodeller (LLM) som Llama, utan att behöva träna om dem. abliteration fungerar genom att identifiera och neutralisera den "vägranriktning" i modellens residualström som är ansvarig för att vägra svara på potentiellt skadliga förfrågningar. Tekniken kan implementeras antingen genom intervention under inferens eller permanent via viktsortogonalisering, vilket förhindrar modellen från att representera vägranriktningen. Implementationsdetaljer ges, inklusive användning av Python-bibliotek som transformer_lens och specifika dataset för att träna modellen att identifiera vägranbeteende. Exemplet använder modellen mlabonne/daredevil-8b och dataset som mlabonne/harmless_alpaca och mlabonne/harmful_behaviors för att demonstrera processen.