AISatoshi (@AiXsatoshi)

무심코(무조작으로) LoRA를 적용하면 오히려 모델 성능이 떨어진다는 주장(가설)을 제시하고 있음. LoRA 적용·튜닝 시 주의가 필요하다는 지적.

https://x.com/AiXsatoshi/status/2033824432637284747

#lora #finetuning #modeloptimization #llm

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

無造作なLoraで性能落としてる説

X (formerly Twitter)

[Qwen2-72B 중간 레이어 7개 복제로 리더보드 1위, 가중치는 단 하나도 안 건드리고

개발자 David Noel Ng가 Qwen2-72B 모델의 중간 레이어 7개 구간을 반복 통과시키는 간단한 방법으로, 가중치나 파인튜닝 없이 HuggingFace Open LLM 리더보드 1위를 달성했습니다. 이 방법은 특정 중간 레이어(45~51번)를 한 번 더 통과시켜 성능을 향상시켰으며, 6개 주요 벤치마크 중 5개에서 성능이 상승했습니다. 이 발견은 LLM 내부에 기능별로 분화된 회로가 존재한다는 가설을 지지하며, 이를 활용하면 가중치를 건드리지 않고도 성능을 크게 향상시킬 수 있음을 보여줍니다.

https://news.hada.io/topic?id=27406

#llm #qwen2 #neuroanatomy #transformer #modeloptimization

Qwen2-72B 중간 레이어 7개 복제로 리더보드 1위, 가중치는 단 하나도 안 건드리고

<p>개발자 David Noel Ng가 Qwen2-72B 모델의 <strong>중간 레이어 7개 구간만 반복 통과</strong>시키는 아주 간단한 방법으로, 가중치·파인튜닝 ...

GeekNews

Brie Wensleydale (@SlipperyGem)

Unsloth가 LTX 2.3 GGUF를 'UD(Unsloth Dynamic 2.0)'으로 업데이트했다고 공지했습니다. GGUF의 파일 크기와 속도 이점을 유지하면서 기존 GGUF에서 지적된 'smudgeiness' 즉 품질 저하를 줄였다고 설명하며 Hugging Face 리포지토리 링크를 제공하고 있어 모델 포맷/품질 개선 관련 주목할 만한 업데이트입니다.

https://x.com/SlipperyGem/status/2031387673487937820

#unsloth #gguf #ltx2.3 #huggingface #modeloptimization

Brie Wensleydale🧀🐭 (@SlipperyGem) on X

Unsloth's LTX 2.3 GGUFs got updated with his special 'UD' or 'Unsloth Dynamic 2.0'. Basically, you get GGUF size and speed but with less of that GGUF smudgeiness ... or something like that. Worth checking out, because previously, GGUFs were worst of 3. https://t.co/1c7WOOneC7

X (formerly Twitter)

Andy Peng (@pymhq)

작성자는 EAGLE 트레이닝 작업을 돌리며 시애틀에서 열린 'Cafe Compute Seattle: Cozy Edition' 밋업(주최: Cerebras, GitHub)에 참석했다고 보고합니다. 현장에서는 모델 최적화(model optimization) 관련 토론이 있었고, 스레드는 계속 업데이트할 계획이라고 밝혔습니다.

https://x.com/pymhq/status/2026551179736666296

#training #modeloptimization #meetup #cerebras

Andy Peng (@pymhq) on X

🧵Plan to keep this thread updated. Tonight, I’m letting an EAGLE training job run while attending a 1.5-hour meetup in downtown Seattle—Cafe Compute Seattle: Cozy Edition, hosted by @cerebras and @github. It was a cozy, engaging session with group discussing model optimization,

X (formerly Twitter)

Clément Pillette (@ClementPillette)

kim-dev 72B를 BF16으로 2 GPU 병렬화하는 시도는 다소 무리였고, 대신 AWQ 4-bit 양자화를 시도한다고 보고합니다. MLX 팀(특히 @ivanfioravanti) 덕분에 Mac Studio에서 모델 구동이 훨씬 수월해졌고, Minimax 2.5는 8비트에서 초당 30tps로 잘 동작하고 있다는 실무적 성과를 공유한 트윗입니다.

https://x.com/ClementPillette/status/2024153241387196892

#quantization #awq #llm #modeloptimization #bf16

Clément Pillette (@ClementPillette) on X

Pushing the limits, kim-dev 72B in BF16 parallelized on 2 GPU was a bit too ambitious. Let's try AWQ 4-bit. So far, it's much less challenging to have a models running on the Mac Studio, thanks to the MLX team ( @ivanfioravanti ). Minimax 2.5 is running well at 30tps in 8 bit

X (formerly Twitter)

Tarjei Mandt (@kernelpool)

스파스 어텐션(sparse attention)이 prefill 단계에서 처리 속도를 저하시킨다는 기술적 관찰을 공유하며, 해당 문제는 해결 가능하다는 언급입니다. LLM 추론 파이프라인(특히 prefill)과 어텐션 최적화 관점에서 중요한 성능 이슈와 개선 여지를 제기합니다.

https://x.com/kernelpool/status/2022691285312901537

#sparseattention #prefill #performance #modeloptimization

Tarjei Mandt (@kernelpool) on X

@ivanfioravanti The sparse attention is slowing down the prefill, however, it can be fixed

X (formerly Twitter)

Python Trending (@pythontrending)

AngelSlim이라는 모델 압축 툴킷이 공개되었습니다. 사용성과 포괄성, 효율성 향상을 목표로 설계된 도구로, 모델 경량화·최적화 워크플로를 지원하는 개발자용 툴킷이라는 점이 강조되어 있습니다.

https://x.com/pythontrending/status/2021903637635530796

#modelcompression #modeloptimization #toolkit #ai

Python Trending 🇺🇦 (@pythontrending) on X

AngelSlim - Model compression toolkit engineered for enhanced usability, comprehensiveness, and efficiency. https://t.co/0COgucGlzq

X (formerly Twitter)

Mojofull (@furoku)

짧은 한 문장으로 'AI 모델의 고속화 경쟁이 시작되었다'고 알리는 트윗입니다. 모델 추론·학습 속도 개선과 최적화 경쟁이 본격화되고 있음을 시사하는 트렌드 알림으로 해석됩니다.

https://x.com/furoku/status/2018864750575378827

#ai #modeloptimization #inference #performance

Mojofull (@furoku) on X

AIモデルは高速化競争がスタートしました🏃💨

X (formerly Twitter)

Đang tìm cách fine-tune mô hình ngôn ngữ nhỏ (quantized) trực tiếp bằng C++ mà không cần chuyển code sang Python? Bạn gặp khó khăn khi codebase hiện tại chỉ hỗ trợ C++. Giải pháp nào hiệu quả?

#C++_Programming #MachineLearning #ModelOptimization #FineTuning
#LậpTrìnhC_ #HọcMáy #TốiƯuMôHình #ĐiềuChỉnhMôHình

https://www.reddit.com/r/LocalLLaMA/comments/1qs9x1h/finetune_model_in_c/

A new compact model, Falcon‑H1R 7B, is shaking up AI benchmarks by matching or beating models up to 7× larger on math and coding tasks—showing small can be seriously powerful.

#AI #LLMs #ModelOptimization
https://kersai.com/ai-breakthroughs-in-2026/

AI Breakthroughs in 2026: The Year of Agentic AI

Explore the latest AI innovations in 2026: agentic AI, physical robots, quantum computing, and real-world applications transforming business globally.

Kersai