Исследователи заставили ChatGPT процитировать данные, на которых он учился
Несколько похожая, но иная атака от @andrewmccalip Научная работа «Scalable Extraction of Training Data from (Production) Language Models» ( arXiv:2311.17035 ) анализирует извлечение данных датасетов обучения из различных языковых моделей. Исследователи проверили как локальные модели, так и коммерческое решение от OpenAI. С помощью атаки на выравнивание удалось заставить ChatGPT процитировать данные, на которых обучали GPT-3.5.
https://habr.com/ru/articles/777970/
#ChatGPT #OpenAI #GPT35 #GPT35Turbo #GPT35_Turbo #выравнивание_ИИ #alignment #AI_alignment #большие_языковые_модели #БЯМ #large_language_models #LLM #датасеты_обучения #исследования