DeepInfra raises $107M Series B

DeepInfra가 1억 700만 달러 규모의 시리즈 B 투자를 유치하여 글로벌 추론 클라우드 인프라 확장에 나선다. 이 회사는 에이전트 기반 AI의 지속적이고 대량의 토큰 생성 수요에 대응하기 위해 GPU 하드웨어부터 네트워킹, 소프트웨어까지 통합 설계된 추론 전용 스택을 구축했다. NVIDIA와 협력해 최신 GPU와 추론 소프트웨어를 도입하며 최대 20배의 비용 효율 개선을 목표로 한다. DeepInfra는 오픈소스 모델과 에이전트 AI 워크로드에 최적화된 엔터프라이즈급 추론 서비스를 제공하며, 이번 투자로 글로벌 컴퓨팅 용량과 개발자 도구를 강화할 계획이다.

https://deepinfra.com/blog/deepinfra-series-b

#inference #aiinfrastructure #gpu #agenticai #deepinfra

DeepInfra Raises $107M Series B to Scale Inference Infrastructure

Low pay-as-you-go pricing. No long-term contracts. Simple APIs. Scale to trillions of tokens. 100+ AI models.

DeepInfra

Why 500 Global and Nvidia Just Bet €91.5m on Deepinfra’s ‘Token Factory’

https://web.brid.gy/r/https://therecursive.com/deepinfra-series-b-500-global-nvidia-ai-inference-infrastructure/

$3 in 5 minutes, that is $36/h. That's the cost of running your own #ClaudeCode inference in a 3rd-party cloud environment using GLM-5 model. The platform in this case was DeepInfra with its serverless deployment, which is touted as the cheapest GPU provider. #LLM #DeepInfra #GLM5 #ClaudeCode #Anthropic #Claude #Gemini #Antigravity
Ich denke in dem Kontext #KI schon ne Weile über #selfhosted KI nach. Meine ersten Versuche waren ernüchternd. Man braucht entsprechende Hardware. Ein ausgedienten Gaming-PC (ca 2 Jahre) sollte es tun.
Wenn der nun allerdings 200W im Durchschnitt braucht (ich las von 700W unter Volllast), sind das bei 5 dank PV autarken Monaten immer noch ca 25€ mtl an Stromkosten. Die Baukosten kommen noch drauf. Dafür kann ich ganz schön viel KI bei #DeepInfra buchen.

Meine Idee:
Default: deepseek-ai/DeepSeek-V3.2
Triage: meta-llama/Llama-3.2-3B-Instruct
Reasoning: deepseek-ai/DeepSeek-R1
Später für Coding: ein Opus oder Qwen

Problem dabei: Damit ich #Deepinfra nutzen kann, muss ich die ID mit einem Vendor-Prefix für das Modell verwenden. Damit kommt aber #OpenClaw nicht klar. 😒 Ich kann die Modelle nicht auswählen. Sie seien nicht erlaubt. (2/x)

DeepInfra (@DeepInfra)

DeepInfra가 GLM-4.7-Flash 벤치에서 @ArtificialAnlys를 제치고 처리량·지연·가격 면에서 우수한 성능을 주장했습니다. 보고된 수치: 105.7 tok/s, 0.24s TTFT, $0.14/1M. 발표자는 더 나은 커널이 동일 예산으로 더 높은 처리량을 준다고 강조해 AI 추론 인프라 최적화와 비용 효율성 관련 중요한 업데이트로 볼 수 있습니다.

https://x.com/DeepInfra/status/2019225015536001145

#deepinfra #glm4.7 #inference #benchmarking

DeepInfra (@DeepInfra) on X

#1 speed #1 latency BEST blended price DeepInfra tops @ArtificialAnlys for GLM-4.7-Flash ⚡️ 105.7 tok/s | ⏱️ 0.24s TTFT | 💸 $0.14/1M Best kernels = more throughput for the same budget.

X (formerly Twitter)
Hab #PaperlessAI entdeckt. Scheint ähnlich wie #PaperlessGPT zu sein. Letzteres hat wohl Stärken bei OCR. Ersteres bei der Zuordnung von Tags und Titel. OCR nutze ich nicht.
Ich hab wegen des Ressourcenverbrauchs #ollama in den Ruhestand geschickt. Ich fand dafür #deepinfra. Dort kann man in der EU gehostete Modelle nutzen, womit die dsgvo greift.
Allerdings bekomme ich es nicht konfiguriert. 🫩 Egal welche Kombination aus BaseURL und Modell ich nehme. Immer kommt 404 beim Speichern der Config. 🙄

DeepInfra bất ngờ tăng giá dịch vụ Llama 3.3 70B lên 2.5 lần chỉ sau một ngày thông báo, từ $0.038/$0.12 lên $0.13/$0.39 mỗi triệu token. Nhiều người dùng đang lo lắng về chi phí tăng đột ngột và tìm cách ứng phó. Có ai cùng gặp tình trạng này không?

#AI #TríTuệNhânTạo #DeepInfra #Pricing #GiáCả #LlamaModel #TechNews #TinCôngNghệ

https://www.reddit.com/r/LocalLLaMA/comments/1nj6h3o/deepinfra_sudden_25x_price_hike_for_llama_33_70b/