fly51fly (@fly51fly)

조합적 희소성(compositional sparsity)을 신경망 아키텍처 설계의 귀납적 편향으로 활용하는 연구입니다. 희소 구조를 어떻게 설계에 반영할지 다루는 초기 단계의 이론 연구로, 아키텍처 탐색과 모델 효율화 관점에서 흥미롭지만 당장 실무 적용성은 제한적입니다.

https://x.com/fly51fly/status/2055406241451753654

#neuralarchitecture #sparsity #research #arxiv #deeplearning

fly51fly (@fly51fly) on X

[LG] Compositional Sparsity as an Inductive Bias for Neural Architecture Design H Lin, A Briola, Y Wang, T Aste [University College London] (2026) https://t.co/N7HA15A0Kw

X (formerly Twitter)

fly51fly (@fly51fly)

Xidian University 연구진이 Feature Sparsity를 활용해 Attention 연산을 확장하는 방법을 발표했다. 어텐션 비용을 줄이면서 대규모 모델의 효율성을 높이려는 연구로, 고성능 LLM 최적화와 관련해 주목할 만하다.

https://x.com/fly51fly/status/2036921995791831491

#attention #sparsity #llm #optimization #research

fly51fly (@fly51fly) on X

[LG] Scaling Attention via Feature Sparsity Y Xie, T Wen, T Huang, B Chen… [Xidian University] (2026) https://t.co/mXtKglfhbo

X (formerly Twitter)

fly51fly (@fly51fly)

Sakana AI와 NVIDIA 연구진이 더 작고 빠르며 가벼운 트랜스포머 언어모델을 제안하는 논문을 공개했다. 대형 언어모델의 효율성을 높이기 위한 구조 개선 연구로, 경량화와 추론 속도 향상 측면에서 AI 개발자들에게 중요한 내용이다.

https://x.com/fly51fly/status/2036923500737511620

#transformer #languagemodel #efficiency #sparsity #research

fly51fly (@fly51fly) on X

[LG] Sparser, Faster, Lighter Transformer Language Models E Cetin, S Peluchetti, E Castillo, A Naruse… [Sakana AI & NVIDIA] (2026) https://t.co/wnqkpVcmYQ

X (formerly Twitter)

Python Trending (@pythontrending)

대규모 언어모델을 위한 새로운 희소성 축으로, 확장 가능한 조회 기반의 조건부 메모리(Conditional Memory via Scalable Lookup)를 제안하는 연구가 소개되었습니다. 모델이 필요한 정보만 선택적으로 불러와 효율성과 확장성을 높이는 방향의 기술로 보입니다.

https://x.com/pythontrending/status/2037126422133690775

#llm #sparsity #memory #scalability #research

Python Trending 🇺🇦 (@pythontrending) on X

Engram - Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models https://t.co/RnIXDmxQG6

X (formerly Twitter)

fly51fly (@fly51fly)

논문 'SLA2: Sparse-Linear Attention with Learnable Routing and QAT' 발표(J Zhang, H Wang, K Jiang, K Zheng..., Tsinghua University, 2026). 학습 가능한 라우팅과 QAT(quantization-aware training)을 결합한 희소-선형 어텐션(SLA2)을 제안하는 연구로, 효율적 어텐션 메커니즘 개선을 목표로 합니다(원문 링크 포함).

https://x.com/fly51fly/status/2023580290602389582

#sla2 #attention #sparsity #arxiv

fly51fly (@fly51fly) on X

[LG] SLA2: Sparse-Linear Attention with Learnable Routing and QAT J Zhang, H Wang, K Jiang, K Zheng... [Tsinghua University] (2026) https://t.co/2RUC8j0mlL

X (formerly Twitter)

fly51fly (@fly51fly)

논문 'Resonant Sparse Geometry Networks' (H Hays, University of Arkansa, 2026) 공개: 희소성(sparsity)과 기하학적 표현을 결합한 새로운 네트워크 구조를 제안하여 기하학·3D 관련 표현 학습의 효율성과 성능을 개선하려는 연구 결과를 arXiv에 발표했습니다.

https://x.com/fly51fly/status/2017719867772965375

#geometry #sparsity #neuralnetworks #arxiv #research

fly51fly (@fly51fly) on X

[LG] Resonant Sparse Geometry Networks H Hays [University of Arkansa] (2026) https://t.co/MMKkZ92AoO

X (formerly Twitter)

'A minimax optimal approach to high-dimensional double sparse linear regression', by Yanhang Zhang, Zhifan Li, Shixiang Liu, Jianxin Yin.

http://jmlr.org/papers/v25/23-0653.html

#sparse #thresholding #sparsity

A minimax optimal approach to high-dimensional double sparse linear regression

'skscope: Fast Sparsity-Constrained Optimization in Python', by Zezhi Wang, Junxian Zhu, Xueqin Wang, Jin Zhu, Huiyang Pen, Peng Chen, Anran Wang, Xiaoke Zhang.

http://jmlr.org/papers/v25/23-1574.html

#sparse #optimization #sparsity

skscope: Fast Sparsity-Constrained Optimization in Python

Let's start designing a new course for applied mathematics students in #UCLouvain, #EPL on high dimensional data analysis with 3 wonderful reference books #inverseproblem #highDimensional #statistics #optimization #Sparsity #teaching

#mistral's 8x22B is ~260GB

the trend is to get models smaller, not bigger

#pruning, #sparsity, #quantization, #distillation

so why such a huge model?

does mistral have no other models?