金のニワトリ (@gosrum)
GLM-5.1과 Xiaomi MiMo-V2-Pro의 ts-bench 결과를 공유한 트윗입니다. 작성자는 GLM-5.1이 이전 버전보다 안정성이 좋아졌다고 평가하며, 다만 추론 속도는 여전히 다른 모델보다 느린 편이라고 언급합니다.
金のニワトリ (@gosrum)
GLM-5.1과 Xiaomi MiMo-V2-Pro의 ts-bench 결과를 공유한 트윗입니다. 작성자는 GLM-5.1이 이전 버전보다 안정성이 좋아졌다고 평가하며, 다만 추론 속도는 여전히 다른 모델보다 느린 편이라고 언급합니다.
Design Arena (@Designarena)
xAI의 Grok 4.20 Reasoning이 Web App Arena에서 2위를 기록했고 Elo 1335를 달성했다는 소식입니다. 실제 멀티파일 React 웹앱을 처음부터 끝까지 만드는 성능을 평가하는 벤치마크에서 강한 결과를 보여준 점이 주목됩니다.
TestingCatalog News (@testingcatalog)
ARC-AGI-3 벤치마크가 공개되었습니다. 최첨단 모델들이 과제 해결에 2달러에서 9천달러까지 소요했지만 달성률은 0.2~0.3%에 그쳤다고 언급해, 범용 추론/AGI 평가에서 매우 어려운 새 기준이 등장했음을 보여줍니다.
“A sophisticated semantic network system capable of encoding #inference rules within the network itself. Built for efficient memory usage and powerful logical #reasoning, zelph can process the entire #Wikidata knowledge graph (1.7TB) to detect contradictions and make logical deductions.”
fly51fly (@fly51fly)
AI 추론 과정을 얼마나 읽기 쉽게 표현할 수 있는지 측정하는 연구 논문이 공개되었습니다. 사람의 이해가 다른 사람의 추론 과정을 가르치는 데 도움이 되는지 검토하며, 모델의 reasoning trace 해석 가능성과 교육 가능성을 다룹니다.
Avi Chawla (@_avichawla)
Meta, Cornell, CMU 연구진이 TinyLoRA를 공개했다. 8B 파라미터 모델의 성능을 수학·추론 작업에서 크게 끌어올리기 위해 단 13개 파라미터만 조정하는 초소형 LoRA 기법이다. 저장 공간은 26바이트에 불과해, 극도로 효율적인 미세조정 접근법으로 주목된다.

TinyLoRA: LoRA scaled down to 1 parameter. Researchers from Meta, Cornell, and CMU just dropped a banger. They turned an 8B parameter model into a math and reasoning powerhouse by tweaking just 13 of those parameters. That's 26 bytes and takes up less storage than this
Artificial Analysis (@ArtificialAnlys)
Mistral이 Mistral Small 4를 공개했습니다. 이 모델은 오픈 웨이트, 하이브리드 추론, 이미지 입력을 지원하며 Artificial Analysis Intelligence Index에서 27점을 기록했습니다. 119B MoE 구조와 토큰당 6.5B 활성 파라미터를 갖춘 것이 특징입니다.

Mistral has released Mistral Small 4, an open weights model with hybrid reasoning and image input, scoring 27 on the Artificial Analysis Intelligence Index @MistralAI's Small 4 is a 119B mixture-of-experts model with 6.5B active parameters per token, supporting both reasoning
Toby Shevlane (@tshevl)
LLM은 코딩과 지식 작업에는 유용하지만, 경력이나 비즈니스 전략 같은 ‘조언’에는 아직 신뢰하기 어렵다고 지적한다. 인간에게 지혜로운 조언을 제공하는 AI 시스템을 어떻게 설계할지에 대한 연구 방향을 제시한다.

I always dreamed of AGI as a wise advisor for humanity. Although LLMs are great for coding & knowledge work, I wouldn’t trust them to give me advice on my career, business strategy, or policy preferences. How can we build AI systems optimized for wisdom? At Mantic we believe the
fly51fly (@fly51fly)
수학적 객체에 대한 추론을 위해 on-policy reward modeling과 테스트 타임 aggregation을 결합한 새 연구가 공개됐다. Meta의 FAIR 팀이 제안한 방법으로, 수학 문제 해결과 추론 성능 향상을 목표로 한다.