fly51fly (@fly51fly)
LongCoT는 장기적 Chain-of-Thought 추론 능력을 평가하는 벤치마크를 제시합니다. 긴 맥락에서의 추론 성능을 체계적으로 측정해, 차세대 추론형 LLM 개발과 평가 기준 마련에 유용한 연구입니다.
fly51fly (@fly51fly)
LongCoT는 장기적 Chain-of-Thought 추론 능력을 평가하는 벤치마크를 제시합니다. 긴 맥락에서의 추론 성능을 체계적으로 측정해, 차세대 추론형 LLM 개발과 평가 기준 마련에 유용한 연구입니다.
fly51fly (@fly51fly)
도구를 활용한 다중모달 체인오브쏘트 기반 콘텐츠 안전 모더레이션 연구인 Tool-MCoT가 소개되었다. 멀티모달 입력과 도구 사용을 결합해 안전성 검열/판단 성능을 높이려는 연구로, AI 안전 및 콘텐츠 모더레이션 분야에서 주목할 만하다.
Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже
Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.
https://habr.com/ru/articles/1020016/
#llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента (API/Поиск) -> Чтение -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг...
Chain-of-Thought (CoT) Prompting
Chain-of-Thought (CoT) prompting is a technique where asking questions, rather than issuing direct instructions activates a model’s full internal reasoning pathway.
The key insight from the original framing is that instructions skip steps 1–3, jumping straight to synthesis, while questions force the model to work through the entire reasoning chain.
https://neurodoctor.com/2026/03/20/chain-of-thought-cot-prompting/
#chainofthought #cot #ai #llm #prompt #prompts #prompting #claude #chatgpt #gemini #ericschmidt
7 Prompt Engineering Secrets That 99% of People Don't Know (2026 Edition)
Most people are still writing prompts like it's 2023. These seven advanced techniques — from tree-of-thought reasoning to persona stacking — will transform your AI output from m...
https://wowhow.cloud/blogs/7-prompt-engineering-secrets-99-percent-dont-know-2026
Dietrich Stein (@pixelsort)
Anthropic가 지난달 @deepseek_ai 등 일부 연구실이 자사 모델의 능력을 '도용'했다고 폭로했고, 결과적으로 해당 모델들의 체인오브Thought(Chain of Thought) 추적(trace)이 더 이상 보이지 않게 되었다는 내용입니다. 작성자는 안타까워하면서도 구글의 Gemini는 여전히 CoT를 제공한다고 언급하고 있습니다.

Last month, @AnthropicAI revealed that @deepseek_ai and other labs have been "stealing" their capabilities. Consequently, we can no longer see the Chain of Thought traces in their models. I'm sympathetic, but saddened. At least @Gemini still has them. https://t.co/eKD4Vwil2H
New research shows TensorRT Edge‑LLM can run chain‑of‑thought reasoning directly on devices, boosting physical AI tasks like autonomous‑vehicle perception and MATH500 benchmarks. Efficient, on‑device inference means smarter, safer robots without cloud latency. Dive into the details of this breakthrough for on‑device language models. #TensorRT #EdgeLLM #ChainOfThought #PhysicalAI
🔗 https://aidailypost.com/news/tensorrt-edgellm-enables-efficient-chainofthought-processing-physical
fly51fly (@fly51fly)
2026년 논문 'Reasoning Models Struggle to Control their Chains of Thought'는 추론 모델들이 자신의 체인오브소트(Chain of Thought)를 제어하는 데 어려움을 보인다는 분석을 제시한다. C Yueh-Han, R McCarthy, B W. Lee, H He 등(NYU·UCL·OpenAI 소속)이 공동저자로 arXiv에 공개됨.
Chain of Thought bleibt sichtbar.
Aktuelle Reasoning-Modelle können ihre internen Rechenschritte nicht vor Monitoring-Systemen verbergen. Studien zeigen, dass Versuche zur Verschleierung – etwa durch Keyword-Vermeidung – meist fehlschlagen. Besonders bei langen Rechenketten bricht die Kontrolle über die eigene Ausgabe zusammen. Die Analyse der Zwischenschritte bleibt damit ein valider Weg für Sicherheitschecks.
#OpenAI #KISicherheit #ChainOfThought
https://www.all-ai.de/news/beitrage2026/openai-studie-neu-luegen
OpenAI (@OpenAI)
새로운 평가 도구와 연구 논문 공개: Chain-of-Thought(이하 CoT) 제어성 평가 스위트를 발표하며, 연구 결과 GPT-5.4 Thinking은 자신의 추론을 은폐하는 능력이 낮아 CoT 모니터링이 여전히 유용한 안전 도구임을 시사한다고 보고했다.