What's new in Microsoft Foundry | Dec 2025 & Jan 2026 | Microsoft Foundry Blog

Microsoft Foundry Dec 2025-Jan 2026 update: GPT-5.2 & Codex Max now GA, new reasoning models, agent memory in preview, MCP server, and major SDK consolidation.

Microsoft Foundry Blog

推論モデル「Kimi K2 Thinking」、米Perplexityに採用 唯一の中国発モデルに

https://web.brid.gy/r/https://36kr.jp/446955/

Meituan Longcat vừa ra mắt AMO Bench, bộ tiêu chuẩn đánh giá AI Toán học. Theo đó, Kimi k2 Thinking được xác định là AI tốt nhất về giải toán. AMO Bench gồm 50 bài toán mới, độ khó cấp IMO, chấm điểm tự động chính xác cao.

#AIBenchmark #MathAI #KimiK2Thinking #MeituanLongcat #TríTuệNhânTạo #ToánHọc

https://www.reddit.com/r/LocalLLaMA/comments/1p18lim/meituan_longcat_releases_amo_bench_kimi_k2/

中国・Moonshot AI、推論モデル『Kimi K2 Thinking』発表 GPT-5超えの性能、コストは1/4

https://fed.brid.gy/r/https://36kr.jp/444000/

Chiński startup pobił GPT-5 i Claude 4.5. Model AI trenowano za ułamek ceny

Amerykańska dominacja w AI stanęła pod znakiem zapytania. Jak donosi serwis AI News (potwierdzając dane z wielu źródeł), chiński startup Moonshot AI wypuścił właśnie nowy, otwarty model (open-source) Kimi K2 Thinking, który w kluczowych benchmarkach pobił zarówno GPT-5 od OpenAI, jak i Claude Sonnet 4.5 od Anthropic.

Startup z Pekinu, wspierany przez gigantów Alibaba i Tencent, wywołał w branży szok, określany już jako kolejny „moment DeepSeek” – czyli dowód na to, że Chiny potrafią tworzyć tańszą i równie wydajną technologię.

Jak Kimi K2 wypada w testach?

Według oficjalnej dokumentacji i niezależnych analiz, Kimi K2 Thinking uzyskał:

  • 44.9% w teście Humanity’s Last Exam (benchmark sprawdzający rozumowanie w 2500 pytań z różnych dziedzin), pokonując GPT-5 (41.7%).
  • 60.2% w teście BrowseComp (sprawdzającym umiejętności przeglądania sieci i wyszukiwania informacji), również pokonując GPT-5 (który uzyskał tam 54.9%).

Broń Chin: cena

Największym szokiem nie jest jednak sama wydajność, ale koszt. Według doniesień CNBC, na które powołuje się AI News, koszt treningu Kimi K2 Thinking wyniósł zaledwie 4,6 miliona dolarów. Jednak tutaj w redakcji zapaliła się nam czerwona lampka, bo już krótko po debiucie modelu DeepSeek, również mówiono o znikomych kosztach treningu, które po czasie okazały się znacznie wyższe od wstępnie deklarowanych.

Trening modelu DeepSeek nie kosztował 6 mln dolarów, lecz 1,3 miliarda dolarów – raport SemiAnalysis

W każdym razie jeżeli chodzi o chińską nowość, to podobno koszt korzystania z API tego modelu jest od 6 do 10 razy niższy niż w przypadku modeli OpenAI i Anthropic. Model wykorzystuje architekturę Mixture-of-Experts (MoE) z 1 bilionem parametrów (z czego 32 miliardy są aktywne jednocześnie).

Wstępne testy wypadają obiecująco, koszty treningu (biorąc pod uwagę uzyskane rezultaty) są po prostu mało wiarygodne, czekamy na ich potwierdzenie z innych, niezależnych źródeł i będziemy was informować na bieżąco.

#aiSi #benchmark #chiny #claudeSonnet45 #deepseek #gpt5 #kimiK2Thinking #moonshotAi #news #openSource #sztucznaInteligencja

Nova IA chinesa Kimi K2 Thinking supera o ChatGPT e é grátis; veja como usar

A startup chinesa Moonshot apresentou um novo modelo de inteligência artificial que promete superar o desempenho do ChatGPT. Chamado Kimi K2 Thi

Canaltech

Kimi K2 Thinking: 1조 파라미터로 GPT-5를 제친 오픈소스 모델의 비밀

중국 스타트업 Moonshot AI의 Kimi K2 Thinking이 GPT-5와 Claude를 제치고 추론 벤치마크 1위를 기록했습니다. 1조 파라미터 오픈소스 모델의 파괴적 가성비를 소개합니다.

https://aisparkup.com/posts/6422

Testing Catalog. What's new? Issue #219 🗞️ www.testingcatalog.com/email/99b3267a… #AI #news #KimiK2Thinking (& lots of other updates)
Testing Catalog. What's new? Issue #219 🗞️ https://www.testingcatalog.com/email/99b3267a-eed3-4acd-bc34-f3d868189bae/ #AI #news #KimiK2Thinking (& lots of other updates)

Moonshot AI’s Kimi K2 Thinking just hit 71.3% on the SWE‑Bench, outpacing GPT‑5, Claude Sonnet 4.5 and Deepseek‑V3.2. This open‑source milestone shows how far community‑driven models have come in handling HTML, React and real‑world coding tasks. Dive into the details and see why K2 is setting a new bar for AI coding assistants. #MoonshotAI #KimiK2Thinking #SWEbench #DeepseekV32

🔗 https://aidailypost.com/news/moonshot-ais-kimi-k2-thinking-scores-713-swebench-beating-leading