Стеганография в LLM и защита от нее
В прошлой статье (об In-context learning) при разборе влияния формирования Chain-of-thoughts на результат модели я аккуратно обошла и не упомянула один из тестов - перефразирование CoT. Я хочу остановиться на этом по подробнее. Потому как, кажется, модели легко могут научиться в стеганографию в своих рассуждениях. И кодировать сами для себя какую-то информацию и инструкции в процессе рассуждений, не показывая явно ее человеку.
https://habr.com/ru/articles/832326/
#llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #steganography