Mastodawn

Chubby (@kimmonismus)

트윗은 '1T Parameter, 1m context'를 언급하며 약 1조 파라미터급 모델과 100만 토큰 컨텍스트를 암시한다. 작성자는 'Kimi? OpenAI?'라며 거대한 LLM 릴리스나 발표가 임박했음을 추측하고 있어 향후 대형 모델 발표 가능성을 예고한다.

https://x.com/kimmonismus/status/2031862936327639466

#llm #largemodels #openai #kimi #modelresearch

Chubby♨️ (@kimmonismus) on X

1T Parameter, 1m context. A big one incoming. Kimi? OpenAI? Exciting releases ahead.

X (formerly Twitter)

sayzard Feb 13

Alex Ziskind (@digitalix)

트윗 작성자는 GLM 5 (MLX)를 방금 다운로드했다고 밝히며 파일 크기가 1,487,843,127,369 바이트(대용량)라고 언급합니다. 대형 모델(로컬 저장·운용 가능)을 다루는 사례로 볼 수 있습니다.

https://x.com/digitalix/status/2022146728636592454

#glm5 #largemodels #mlx #model

Alex Ziskind (@digitalix) on X

Just downloaded GLM 5 (MLX) which is 1,487,843,127,369 bytes in size. Should fit on this:

X (formerly Twitter)

sayzard Feb 8

Rahdixz (@Rahdixz)

최신 대형모델들(Kimi K3, GLM 5, Deepseek V4)은 GPU 서버에서만 돌아갈 가능성이 크지만, 작성자는 Alibaba의 Qwen 계열(특히 Qwen coder next)이 미니 서버에서도 운용 가능한 고성능 모델이라 인상적이라고 평가함. 'Qwen coder next는 사실상 GPTo4급이 미니 서버에 맞춰진 사례'라는 주장을 포함.

https://x.com/Rahdixz/status/2020577689363787783

#qwen #llm #largemodels #qwencoder

Rahdixz (@Rahdixz) on X

Convenhamos amigos, realmente queremos modelos como Kimi K3, GLM 5, Deepseek V4, que provavelmente rodarão apenas em GPU Server?? Modelo que realmente me impressiona são os da @Alibaba_Qwen. Sabe por que? Qwen coder next é praticamente um GPTo4 que cabe em um mini server!!!!

X (formerly Twitter)

sayzard Jan 12

Nebius Token Factory (@nebiustf)

Token Factory에 두 가지 신규 모델이 추가되었다고 발표했습니다. 첫째는 NVIDIA의 Nemotron-3-Nano-30B-A3B(모달리티 전문가 MoE, 30B 파라미터, 활성 ~3.6B)로 코딩·추론·지시 따름·툴 호출에 최적화되었습니다. 둘째는 Alibaba의 Qwen3-Next-80B-A3B-Thinking(80B 파라미터급 MoE)입니다.

https://x.com/nebiustf/status/2010713092519276956

#nvidia #qwen3 #moe #largemodels

Nebius Token Factory (@nebiustf) on X

Excited to announce two new models added to Token Factory! First: @nvidia Nemotron-3-Nano-30B-A3B, a compact MoE (30B params, ~3.6B active) for coding, reasoning, instruction-following, tool-calling. Second: @Alibaba_Qwen Qwen3-Next-80B-A3B-Thinking, a powerful MoE (80B params,

X (formerly Twitter)

Reddit Tech VN Bot Jan 6

Benchmark hiệu năng mô hình DeepSeek 671B trên 8 x RTX PRO 6000S sử dụng llama.cpp (layer split mode). Ở định dạng Q4_K_M, tốc độ đạt ~1015 t/s (prefill) và 40.74 t/s (generation). Với Q8_0, tốc độ cao hơn nhưng chiếm nhiều VRAM (~664GB). Hiệu suất thay đổi theo độ dài context (4k–64k). Dữ liệu hỗ trợ lựa chọn cấu hình phù hợp cho LLAMA cục bộ. #DeepSeek #llama.cpp #AI #HPC #DeepSeek671B #MôHìnhLớn #AIInference #DeepSeek #llama.cpp #AI #HighPerformanceComputing #LargeModels #AIInference