Atlas – Pure Rust Inference Engine

Atlas는 Rust로 구현된 오픈소스 LLM 추론 엔진으로, 하드웨어와 모델별 최적화된 커널을 통해 기존 파이썬 기반 추론 엔진 대비 2~3배 빠른 성능을 목표로 한다. 모노레포 구조와 모듈화된 설계로 커뮤니티 기여와 AI 기반 PR 생성에 최적화되어 있으며, 다양한 하드웨어와 모델을 플러그 앤 플레이 방식으로 지원한다. Atlas는 고성능 로컬 추론을 가능하게 하여 클라우드 API 비용 부담을 줄이고, AI 연구 결과를 빠르게 통합할 수 있는 유연한 코드베이스를 제공한다.

https://github.com/Avarok-Cybersecurity/atlas

#rust #llm #inferenceengine #opensource #hardwareoptimization

GitHub - Avarok-Cybersecurity/atlas: Pure Rust Inference Engine

Pure Rust Inference Engine. Contribute to Avarok-Cybersecurity/atlas development by creating an account on GitHub.

GitHub

Grinder12: 0.96-Bit Lossless Streaming KV-Cache (16.55x VRAM Savings

Grinder12는 llama.cpp 런타임의 트랜스포머 KV-캐시 압축을 목표로 하는 로컬 추론 엔진 연구 프로젝트로, 0.96비트 유효값을 달성해 FP16 대비 16.55배 VRAM 절감을 보여주는 스트리밍 상태 저장 KV 사이드카 방식을 사용합니다. 현재는 라이브 런타임 KV 교체는 구현되지 않았으며, 제어된 C++ 환경에서의 실험 결과와 감사 로그를 공개해 기술 검증과 추가 개발을 위한 파트너를 찾고 있습니다. 이 기술은 대규모 컨텍스트에서 KV 메모리 사용량을 획기적으로 줄일 수 있는 가능성을 제시합니다.

https://github.com/ggml-org/llama.cpp/discussions/22891

#llama.cpp #kvcache #compression #inferenceengine #streaming

Broke 1-bit KV floor (0.96-bit effective / 16.55x) with stateful streaming sidecar. Audit packet attached. · ggml-org llama.cpp · Discussion #22891

I’m an independent systems engineer operating out of Kansas through American Ironclad / ICT IronByte. I’m sharing a redacted black-box evidence packet for Grinder12, a local inference-engine resear...

GitHub

Faits divers (51)

Een op megaschaal herbouwde ijzeroven in Apeldoorn

Een nieuwe aflevering in de onregelmatig verschijnende reeks faits divers, met deze keer: ijzer uit Apeldoorn, de Odyssee, een necrologie, Krommenie, bioarcheologisch nieuws en uiteenlopende toepassingen van A.I..

Apeldoorn

In Trouw stond een verbluffend mooi stuk over de technieken waarmee mensen in de Oudheid en Vroege Middeleeuwen ijzer bewerkten. Het heeft vooral betrekking op Apeldoorn, waar eeuwenlang ijzer is gewonnen, al is nog geen ijzervondst gedaan waarvan zeker is dat die komt van de Veluwe. Ik wil meer, méér van dit soort inhoudelijk sterke stukken.

De Odyssee

Christopher Nolan heeft de Odyssee verfilmd, en de discussie lijkt te gaan over de Amerikaanse accenten van de acteurs. Het is immers algemeen bekend met welk Brits accent fictieve personages spraken. Maar alle gekheid op een stokje: als Nolan aangeeft dichtbij de tekst te blijven, vraag je je af hoe hij aan het einde van zijn film de opzettelijk onmenselijke executie van de slavinnen (μὴ καθαρῷ θανάτῳ) in beeld wil brengen.

Ittai Gradel

De naam Ittai Gradel zal niet iedereen iets zeggen, maar hij verdient uw aandacht. Hij publiceerde een kwart eeuw geleden een standaardwerk over de Romeinse keizercultus, waarin hij aantoonde dat die belangrijker en doorleefder was dan oudheidkundigen eerder hadden aangenomen. Omdat het academisch klimaat hem steeds meer tegenstond, nam hij ontslag bij zijn universiteit en begon hij zich toe te leggen op antieke gemmen en cameeën.

Al snel ontdekte hij dat er voorwerpen werden verhandeld die verdacht veel leken op voorwerpen uit het British Museum, dat de diefstal aanvankelijk ontkende. Gradel kreeg echter wel gelijk. De schade aan de museale collectie was aanzienlijk, de betreffende medewerker is ontslagen. Gradel overleed eind april.

De genetische smeltkroes

Een recente publicatie in Nature presenteert genetisch bewijs dat de bevolking van West-Europa afstamt van de gewone, gestaag vermengde bevolking die hier woonde in de Late Oudheid. Er is nauwelijks sprake geweest van een gewelddadige golf van indringers. Dit onderzoek is leuk en belangrijk, maar

  • dit wisten we al een eeuw,
  • het heeft betrekking op Beieren en niet op pakweg het Balkanschiereiland, waar door de komst van de Avaren wel degelijk iets veranderde,
  • het zou fijn zijn als archeologen eens ophielden met beweren dat de geschiedenisboeken herschreven moeten worden.
  • Dat laatste is niet alleen een leugen – zie (1) – maar historici beweren ook niet dat zij archeologieboeken kunnen herschrijven, zoals biologen geen economieboeken herschrijven en anatomen geen wiskundeboeken. Heb toch eens wat respect voor de wetenschap.

    Niettemin: zolang politici “de val” van het Romeinse Rijk – bedoeld is doorgaans: de impasse in het keizerlijk gezag in West-Europa tussen 476 en 539 – blijven aanhalen als afschrikwekkend voorbeeld, zijn bioarcheologische publicaties die herhalen wat al bekend was, niet helemáál gespeend van betekenis.

    Krommenie

    Ik zal als eerste erkennen dat de opgraving in Krommenie niet de allerbelangrijkste aller tijden was. Spectaculaire nieuwe inzichten zijn er niet. Maar zoals Krommenie een leuk stadje is met karakter, zo vormt de Romeinse wachttoren die er in de eerste eeuw na Chr. heeft gestaan een leuke opgraving. In het Huis van Hilde, het archeologisch depot/museum van de provincie Noord-Holland in Castricum, is nog tot het einde van deze maand de kleine expositie “Romeinen op de uitkijk”. Er is een mooie maquette, waarvan ik hoop dat ’ie in de vast opstelling blijft staan.

    Krommenie in de Romeinse tijd

    Artificiële intelligentie (1)

    Artificiële intelligentie is te beschouwen als een versterker. Als de knowledge base is gevuld met goede informatie, zal de inference engine goede informatie doorgeven. Hier is een overzicht van de manier waarop de wetenschap er inmiddels van profiteert.

    De digitale paleografie is een voorbeeld van wat mogelijk is in de oudheidkundige disciplines: de A.I. versterkt en versnelt processen, en die kwantitatieve verbetering leidt tot een kwalitatieve verbetering. Nu handschriftherkenning mogelijk is, proberen paleografen teksten ook met A.I. te dateren. Dit is echt tof.

    Artificiële intelligentie (2)

    Het gevaar bestaat echter dat de A.I. zélf het nieuws vormt. Een onprettig voorbeeld komt uit Pompeii, waar men onlangs een met A.I. gegenereerd beeld naar buiten bracht. Het zat tjokvol sensationalisme en was even geestloos als alle andere botshit.

    En vooral: het trok weer eens de aandacht zonder dat duidelijk werd waartoe. Tot het werk aan de conservering van Pompeii, waarvoor de archeologische dienst een EU-miljoenensubsidie kreeg? Nee. Tot het eigenlijke werk? Evenmin. Tot antwoorden op publieksvragen? Ook al niet. Tot de bedreiging van het erfgoed in een land dat te veel erfgoed bezit? Nee. De strekking van de berichtgeving was dat ook archeologen A.I. gebruiken. Tot de dingen die oneindig zijn, behoort ook & vooral de archeologische zelftrivialisering.

    Artificiële intelligentie (3)

    Hoe het wél kan? Kijk eens hoe het Romeinenmuseum in Heerlen onlangs naar buiten bracht dat dankzij A.I. de regels waren achterhaald van een antiek bordspel. Of ontleen inspiratie aan Dig It All in het Groningse universiteitsmuseum. Het is heus niet moeilijk de inhoud wél centraal te stellen.

    De Facebookpagina van de oudhistorici van de universiteit Leuven gaf als commentaar op het maaksel van de Pompeiaanse bietekwieten: “misschien wel de meest nutteloze toepassing van A.I. die we tot nu toe zagen”. Daar zullen we het verder maar bij laten.

    #Apeldoorn #artificiëleIntelligentie #BritishMuseum #diefstal #FaitsDivers #HuisVanHilde #ijzer #inferenceEngine #IttaiGradel #knowledgeBase #Krommenie #Odyssee #zelftrivialisering

    Avi Chawla (@_avichawla)

    LLM 추론 동작을 실제로 이해하도록 돕는 내용으로, vLLM은 100k+ 라인 코드인 반면 Mini-SGLang은 핵심 기능을 5,000라인으로 구현했다고 소개합니다. Mini-SGLang을 작고 투명한 참고용 추론 엔진/코드베이스로 제안하며 연구자·개발자에게 유용하다고 강조합니다.

    https://x.com/_avichawla/status/2021109400593891531

    #vllm #minisglang #inferenceengine #opensource #llm

    Avi Chawla (@_avichawla) on X

    Learn how LLM inference actually works under the hood. vLLM has 100k+ lines of code. Mini-SGLang does the same core job in 5,000. It's a compact codebase that serves as both a capable inference engine and a transparent reference for researchers and devs. Something you can

    X (formerly Twitter)

    金のニワトリ (@gosrum)

    로컬 LLM은 동일한 모델이라도 추론 엔진이 다르면 속도와 성능이 달라질 수 있어, 클라우드 LLM보다 오히려 더 많은 고민거리를 안겨준다는 내용입니다. 즉, 로컬 배포 환경에서는 모델 자체뿐 아니라 사용되는 추론 엔진(인퍼런스 런타임)에 따른 최적화와 성능 검증이 중요하다는 지적입니다.

    https://x.com/gosrum/status/2020506477732262014

    #localllm #llm #inferenceengine #performance #edgeai

    金のニワトリ (@gosrum) on X

    ローカルLLMはモデルが同一だったとしても、今回のように推論エンジンが違うと速度や性能が変わることもあるので、クラウドLLM以上に頭を悩ませられます😇

    X (formerly Twitter)

    Công ty khởi nghiệp tạo ra "NVIDIA KILLER" dựa trên llama.cpp, cho phép chạy mô hình LLM 120B+ parameter với chỉ 2x RTX 5070-TI + 64GB RAM + SSD. #NVIDIAKILLER #LLaMA #AI #TríTuệNhânTạo #InferenceEngine #GPU

    https://www.reddit.com/r/LocalLLaMA/comments/1qm4zxj/nvidia_killer_inference_engine_based_on_llamacpp/

    GitHub - trymirai/uzu: A high-performance inference engine for AI models

    A high-performance inference engine for AI models. Contribute to trymirai/uzu development by creating an account on GitHub.

    GitHub

    #ThemeOneProgram#JetsAndSharks 1
    https://inquiryintoinquiry.com/2022/08/25/theme-one-program-jets-and-sharks-1/

    In developing the Theme One Program I tested successive versions of its #InferenceEngine for #PropositionalCalculus #ConstraintSatisfaction on examples of #Logic problems current in the literature of the day. #McClelland and #Rumelhart's #PDPHandbook set one of the wittiest gems ever to whet one's app-titude so I could hardly help but take it on. The linked text is a light revision of the way I set it up in the program's User Guide.

    Theme One Program • Jets and Sharks 1

    Inquiry Into Inquiry