前面 #DeepSeekV4 發佈時我就預測過,我相信27年訓練模型可以用類似外掛attention的方式,把context的一部份做成緩存,掛載進attention
What's new in Microsoft Foundry | May 2026 | Microsoft Foundry Blog

Latest Microsoft Foundry updates for May 2026, including new models, agent skills and toolboxes, Foundry Local vision, evaluations, SDK releases, and platform improvements

Microsoft Foundry Blog
My OpenCode experience: From local LLM to free cloud

I tried OpenCode because I wanted an AI agent for coding.

One of the cool things about an agent is that it automatically checks if all dependencies are installed. No more "module not found" stress.

My journey:
- I started with Qwen2.5 Coder 14B. Tool calling does not work, so it is useless for an agent framework.
- Then I attempted local Qwen3:14B. The problem here is the context window. Tool calling requires num_ctx to be increased to 16384. At that size, the model no longer fits into VRAM and gets partially offloaded to the CPU, which kills performance.
- Next I tried local Qwen3:8b. It works fine for simple Nginx configs and static HTML/CSS. But with JavaScript, it struggles without very precise instructions.
- I also looked at Qwen3 Coder. Even the smallest model has 30B parameters, which is too heavy for my PC.

Then DeepSeek V4 Flash Free changed everything

This is a full cloud model, completely free. No API key, no credit card, no subscription.

About the limits: According to my research, the community proxy services behind OpenCode allow about 50 to 200 million tokens per day, which is more than enough. The counter resets daily. The context is around 256k instead of 1M, but that is still plenty for coding.

Local models are nice, but let's be honest, running 30B+ models on normal hardware is still a pain. Until that changes, DeepSeek V4 Flash Free in OpenCode is the perfect bridge solution. It just works. It is fast, simple, and costs nothing. Highly recommended!

#OpenCode #DeepSeekV4 #FreeAI #AIAgent #Coding #LocalLLM #VRAM #Qwen3 #LLM #DevTools #OpenSourceAI #AICoding #Fediverse #Programming

https://winbuzzer.com/2026/05/25/deepseek-locks-in-v4-pros-75-percent-price-cut-xcxwbn/

Developers using DeepSeek's V4-Pro can keep the model's 75 percent discount after May 31 instead of paying the old API rate again.

#AI #DeepSeek #DeepSeekV4 #AIModels #AICompetition #ChinaAI

DeepSeek hace permanente su descuento del 75%

La startup china de inteligencia artificial convirtió en definitiva una promoción que vencía el 31 de mayo, consolidando su estrategia de ser la opción más económica del mercado para agentes de IA. El movimiento presiona directamente a GPT-5 y Gemini 3.5 Flash, y vuelve a poner en el centro el debate sobre sus prácticas competitivas (Fuente y valores desde su web oficial).

DeepSeek acaba de dar una señal muy clara sobre hacia dónde va su estrategia: precio como ventaja competitiva permanente, no como táctica temporal. La startup china anunció la reducción definitiva del precio de su modelo insignia DeepSeek V4 Pro a una cuarta parte de su valor original, convirtiendo en permanente el descuento del 75% que estaba previsto terminar el 31 de mayo de 2026.

Los números son concretos e impactantes. Los precios del V4 Pro ahora oscilan entre 0,003625 y 0,87 dólares por millón de tokens, frente al rango anterior de entre 0,0145 y 3,48 dólares por millón. La decisión llega apenas un mes después del lanzamiento de los modelos V4 —en sus versiones Pro y Flash—, con los que DeepSeek prometía inaugurar «la era del contexto de 1 millón de tokens a bajo costo».

El impacto es especialmente significativo para quienes más consumen. Los descuentos representan un ahorro sustancial para cuentas empresariales o usuarios intensivos que procesan millones de tokens diariamente, al tiempo que ofrecen una alternativa más accesible frente a modelos populares como GPT-5 de OpenAI o el recientemente lanzado Gemini 3.5 Flash de Google.

El movimiento, sin embargo, no está exento de controversia. La agresiva estrategia de reducción de precios de DeepSeek podría provocar una reacción de sus competidores: Anthropic acusó previamente a la compañía china de realizar «ataques de destilación» para aprender de manera indebida a partir de las capacidades de su modelo Claude.

Lo que está en juego es más que una guerra de precios entre startups. DeepSeek está apostando a que el costo será el factor determinante en la adopción masiva de IA para aplicaciones empresariales y agentes autónomos, mientras que sus rivales occidentales siguen apostando a la diferenciación por rendimiento y confiabilidad. Con V4 Pro a estos precios, la presión sobre toda la industria para revisar sus estructuras de costos acaba de subir considerablemente.

#AgentesIA #Anthropic #Competencia #DeepSeek #DeepSeekV4 #gemini #google #GPT5 #IA #InteligenciaArtificial #modelosIA #openai #PORTADA #Precios #startupChina #tecnologia

🚨 NEWS: L'Intelligenza Artificiale tra Hype e Ostilità. Ferrari Superfan DeepSeek Price War e la Rivolta dei Data Center

Ecco i punti chiave in breve:
💡 L'intelligenza artificiale non è mai stata così onnipresente, ma nemmeno così controversa. Mentre aziende come Ferrari e IBM sfruttano i modelli linguistici per creare esperienze d...

🚀 LINK: https://meteoraweb.com/news/lintelligenza-artificiale-tra-hype-e-ostilita-ferrari-superfan-deepseek-price-war-e-la-rivolta-dei-data-center

#clonazioneVocale #ferrariIBM #deepSeekV4 #nIMBYDataCenter #eticaAI2026

GPT-5.5 vs DeepSeek V4: The April 2026 Developer Comparison

OpenAI dropped GPT-5.5 and DeepSeek released V4-Pro within eight hours of each other on April 24, 2026. Here is the head-to-head benchmark, pricing, and architecture breakdown e...

https://wowhow.cloud/blogs/gpt-5-5-vs-deepseek-v4-developer-comparison-april-2026

#wowhow #gpt55 #deepseekv4 #aimodelcomparison

GPT-5.5 vs DeepSeek V4: The April 2026 Developer Comparison

GPT-5.5 vs DeepSeek V4: complete developer comparison covering benchmarks, pricing (98% cost gap), computer use, context windows, and when to use each model in 2026.

好多人都在講大小模型,比如 #DeepSeekV4 它有flash和pro兩個版本,好多人都說99%的場景用flash模型便可滿足。我預計明年27年會有比moe更新的架構,可以混合大小模型,大模型在推理時會用小量一部份參數,當輸出的內容滿足條件,目前估計是長度超過特定token,才會激活全部參數。

I'm now 100% weened off of #Anthropic #Claude. My Max subscription has lapsed and I'm not planning to renew.

I've found I can do everything I want to do with #OpenCode + #HermesAgent as harnesses. I'm using #OpenCodeGo for inference and fail over to #OpenCodeZen when my Go subscription hits a limit.

But with #DeepseekV4 Flash I'm finding it hard to hit that limit. I'm actually getting better outcomes without Claude now.

RT @TeksEdge: TRANSLASION: 🚀 vLLM v0.20.0 ist da! Ich freue mich auf TurboQuant! • 752 Commits von 320 Mitwirkenden (123 neue) 🎉 • TurboQuant 2-Bit KV-Cache → 4× Kapazität + FA3/FA4 Prefill 🗜️⚡ • FA4 wieder als Standard-MLA-Prefill aktiviert (SM90+ GPUs) • vLLM-IR-Grundlage + rmsnorm (zukünftige Kernel-Basis) 🧱 • 2,1 % E2E-Latenzgewinn durch fused RMS norm 📈 Neue Baselines: CUDA 13, PyTorch 2.11, Python 3.14, Transformers v5 Hardware/Modelle • DeepSeek V4 (MegaMoE auf Blackwell) + Hunyuan v3 Preview 🔥 • Jetson Thor, AMD ROCm-Upgrades, Intel XPU-Unterstützung • Einfachere GB200/Grace-Blackwell-Einrichtung Großes Update! vLLM (@vllmproject) vLLM v0.20.0 ist da! 752 Commits von 320 Mitwirkenden (123 neue). 🎉 Highlights: DeepSeek V4, Hunyuan v3 Preview-Unterstützung, CUDA 13 / PyTorch 2.11 / Transformers v5 als Baseline, FA4 als Standard-MLA-Prefill, TurboQuant 2-Bit KV (4× Kapazität), vLLM-IR-Grundlage. Thread 👇 — https://nitter.net/vllmproject/status/2048918629144805619#m

mehr auf Arint.info

#AIInfrastructure #DeepSeekV4 #LLM #MachineLearning #TurboQuant #vLLM #arint_info

https://x.com/TeksEdge/status/2048983564801450315#m