Text Embeddings Reveal (Almost) As Much As Text

Artikeln undersöker hur mycket privat information textinbäddningar kan avslöja om den ursprungliga texten. Forskarna introducerar metoden "vec2text", som kan rekonstruera upp till 92% av 32-token textinmatningar från deras inbäddningar. Metoden använder en flerstegsprocess som iterativt korrigerar och återinbäddar text, vilket är betydligt mer effektivt än en naiv modell. Studien visar att viktig personlig information, som fullständiga namn från kliniska anteckningar, kan återskapas, vilket belyser betydande integritetsrisker.