Стеганография в LLM и защита от нее

В прошлой статье (об In-context learning) при разборе влияния формирования Chain-of-thoughts на результат модели я аккуратно обошла и не упомянула один из тестов - перефразирование CoT. Я хочу остановиться на этом по подробнее. Потому как, кажется, модели легко могут научиться в стеганографию в своих рассуждениях. И кодировать сами для себя какую-то информацию и инструкции в процессе рассуждений, не показывая явно ее человеку.

https://habr.com/ru/articles/832326/

#llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #steganography

Стеганография в LLM и защита от нее

Из Lanham et al. 2023, Measuring Faithfulness in Chain-of-Thought Reasoning прошлый раз разбирали Few-shot learning и Chain-of-thought - основные техники современного промпт-инжиниринга, и то, что они...

Хабр