Researchers at ETH Zurich created a jailbreak attack that bypasses AI guardrails

Nov 27, 2023

—

A pair of researchers from ETH Zurich developed a poisoning attack method by which artificial intelligence models trained via reinforcement learning from human feedback can be jailbroken.

Researchers at ETH Zurich created a jailbreak attack that bypasses AI guardrails

Comments

Leave a Reply Cancel reply