金のニワトリ (@gosrum)

GLM-5.1과 Xiaomi MiMo-V2-Pro의 ts-bench 결과를 공유한 트윗입니다. 작성자는 GLM-5.1이 이전 버전보다 안정성이 좋아졌다고 평가하며, 다만 추론 속도는 여전히 다른 모델보다 느린 편이라고 언급합니다.

https://x.com/gosrum/status/2037545306351636692

#glm #mimov2pro #benchmark #llm #reasoning

金のニワトリ (@gosrum) on X

GLM-5.1とXiaomiのMiMo-V2-Proのts-bench結果を共有します GLM-5はたまに1タスク失敗することがあるけれど、GLM-5.1は安定感が増している印象。推論速度は他のモデルと比べてやはり遅め

X (formerly Twitter)

Design Arena (@Designarena)

xAI의 Grok 4.20 Reasoning이 Web App Arena에서 2위를 기록했고 Elo 1335를 달성했다는 소식입니다. 실제 멀티파일 React 웹앱을 처음부터 끝까지 만드는 성능을 평가하는 벤치마크에서 강한 결과를 보여준 점이 주목됩니다.

https://x.com/Designarena/status/2036934009532678501

#xai #grok #reasoning #webapp #react

Design Arena (@Designarena) on X

BREAKING: Grok 4.20 Reasoning by @xai is #2 on Web App Arena, with an Elo of 1335. Web App Arena evaluates real-world performance on building multi-file React web apps from start to finish. Huge congrats to the @xai team for this achievement!

X (formerly Twitter)

TestingCatalog News (@testingcatalog)

ARC-AGI-3 벤치마크가 공개되었습니다. 최첨단 모델들이 과제 해결에 2달러에서 9천달러까지 소요했지만 달성률은 0.2~0.3%에 그쳤다고 언급해, 범용 추론/AGI 평가에서 매우 어려운 새 기준이 등장했음을 보여줍니다.

https://x.com/testingcatalog/status/2036887376614555993

#benchmark #agi #evaluation #reasoning #llm

TestingCatalog News 🗞 (@testingcatalog) on X

ARC-AGI-3 benchmark is here 👀 It took from $2 to $9k for frontier models to complete the task at 0.2-0.3% acheivemnt. How soon would you expect it to get saturated?

X (formerly Twitter)

“A sophisticated semantic network system capable of encoding #inference rules within the network itself. Built for efficient memory usage and powerful logical #reasoning, zelph can process the entire #Wikidata knowledge graph (1.7TB) to detect contradictions and make logical deductions.”

https://zelph.org/

zelph - A Sophisticated Semantic Network System

fly51fly (@fly51fly)

AI 추론 과정을 얼마나 읽기 쉽게 표현할 수 있는지 측정하는 연구 논문이 공개되었습니다. 사람의 이해가 다른 사람의 추론 과정을 가르치는 데 도움이 되는지 검토하며, 모델의 reasoning trace 해석 가능성과 교육 가능성을 다룹니다.

https://x.com/fly51fly/status/2036563955670458442

#reasoning #interpretability #llm #research #arxiv

fly51fly (@fly51fly) on X

[CL] Measuring Reasoning Trace Legibility: Can Those Who Understand Teach? D Roytburg, S Sridhar, D Ippolito [CMU] (2026) https://t.co/cGNDwYubsR

X (formerly Twitter)

Avi Chawla (@_avichawla)

Meta, Cornell, CMU 연구진이 TinyLoRA를 공개했다. 8B 파라미터 모델의 성능을 수학·추론 작업에서 크게 끌어올리기 위해 단 13개 파라미터만 조정하는 초소형 LoRA 기법이다. 저장 공간은 26바이트에 불과해, 극도로 효율적인 미세조정 접근법으로 주목된다.

https://x.com/_avichawla/status/2036005875832549825

#lora #tinyllm #finetuning #llm #reasoning

Avi Chawla (@_avichawla) on X

TinyLoRA: LoRA scaled down to 1 parameter. Researchers from Meta, Cornell, and CMU just dropped a banger. They turned an 8B parameter model into a math and reasoning powerhouse by tweaking just 13 of those parameters. That's 26 bytes and takes up less storage than this

X (formerly Twitter)
Please make time to listen to this. I highly recommend it. It really makes you reflect on social media and Youtube. It will be the most important radio podcast you heard this year! Understand - How Reading Made Us - 3. How Reading Made Our Politics - BBC Sounds https://www.bbc.co.uk/sounds/prlay/m⁰002t1d
#Reading #Democracy #socialmedia #criticalthinking #reasoning #Books #information #misinformation #solutions #content

Artificial Analysis (@ArtificialAnlys)

Mistral이 Mistral Small 4를 공개했습니다. 이 모델은 오픈 웨이트, 하이브리드 추론, 이미지 입력을 지원하며 Artificial Analysis Intelligence Index에서 27점을 기록했습니다. 119B MoE 구조와 토큰당 6.5B 활성 파라미터를 갖춘 것이 특징입니다.

https://x.com/ArtificialAnlys/status/2034960206736892365

#mistral #openweights #multimodal #reasoning #llm

Artificial Analysis (@ArtificialAnlys) on X

Mistral has released Mistral Small 4, an open weights model with hybrid reasoning and image input, scoring 27 on the Artificial Analysis Intelligence Index @MistralAI's Small 4 is a 119B mixture-of-experts model with 6.5B active parameters per token, supporting both reasoning

X (formerly Twitter)

Toby Shevlane (@tshevl)

LLM은 코딩과 지식 작업에는 유용하지만, 경력이나 비즈니스 전략 같은 ‘조언’에는 아직 신뢰하기 어렵다고 지적한다. 인간에게 지혜로운 조언을 제공하는 AI 시스템을 어떻게 설계할지에 대한 연구 방향을 제시한다.

https://x.com/tshevl/status/2035048828944908319

#agi #llm #reasoning #aiethics #research

Toby Shevlane (@tshevl) on X

I always dreamed of AGI as a wise advisor for humanity. Although LLMs are great for coding & knowledge work, I wouldn’t trust them to give me advice on my career, business strategy, or policy preferences. How can we build AI systems optimized for wisdom? At Mantic we believe the

X (formerly Twitter)

fly51fly (@fly51fly)

수학적 객체에 대한 추론을 위해 on-policy reward modeling과 테스트 타임 aggregation을 결합한 새 연구가 공개됐다. Meta의 FAIR 팀이 제안한 방법으로, 수학 문제 해결과 추론 성능 향상을 목표로 한다.

https://x.com/fly51fly/status/2035107474257453310

#reasoning #math #rewardmodeling #meta

fly51fly (@fly51fly) on X

[CL] Reasoning over mathematical objects: on-policy reward modeling and test time aggregation P Aggarwal, M Ghazvininejad, S Kim, I Kulikov… [FAIR at Meta] (2026) https://t.co/ImqP668BKe

X (formerly Twitter)