Mastodawn

Антипаттерн LLM-приложений: Когда модель игнорирует контекст. Часть 1

Всем привет! Бездумно соглашаться с любыми хотелками заказчика или начальства в технических вопросах — почти то же самое, что саботировать проект: всё это быстро превращается в тяжёлый технический долг. Да, жёсткие сроки, ограниченный бюджет и нехватка "свободных рук" — реальность, с которой приходится считаться. Но это не отменяет простой вещи: свои опасения и архитектурные риски нужно озвучивать, выносить на обсуждение и предлагать не только «работающие на сейчас», но и масштабируемые решения. Как разработчикам нам обычно говорят: «давайте максимально быстро и топорно соберём proof-of-concept (PoC)». Мы собираем PoC на костылях, а дальше слышим: «отлично, теперь давайте из этого сделаем MVP». Времени на переорганизацию и реинжиниринг архитектуры никто не даёт. В итоге недели и месяцы работы превращают проект в тупиковую поделку — груду классов, методов и промптов, к которой страшно прикасаться. С LLM эта история становится ещё болезненнее. В работе у меня было несколько показательных проектов с LLM в роли основного движка (RAG, Q&A-системы), на которых я очень наглядно увидел, как делать не стоит. Эти «шишки» превратились в набор антипаттернов проектирования LLM-приложений, о которых я хочу поговорить в серии статей. В этой части — антипаттерн взаимодействия с LLM, когда модель игнорирует контекст: важные детали промпта, куски документов и даже прямые инструкции. Представьте ситуацию: вы даёте модели текст, в котором прямо содержится ответ на вопрос, но она отвечает что-то совсем не то. Вы прописываете инструкции, как именно нужно вести диалог и решать задачу, но они стабильно игнорируются. Вы добавляете новые чанки с данными, дописываете всё более подробные правила и уточнения — а качество ответов только падает.

https://habr.com/ru/articles/970474/

#llm #nlp #lost_in_the_middle #rope #selfattention #архитектура_LLMприложений #promptengineering

Антипаттерн LLM-приложений: Когда модель игнорирует контекст. Часть 1

Хабр

N-gated Hacker News May 4, 2025

"Ah, the riveting showdown between #ViTs and #CNNs, where you get a convoluted explanation on how images are turned into a mush of pixels and self-attention. 😴 But don't worry, you won't be distracted by any tracking or analytics, because apparently, nobody cares to watch this spectacle. 🤷‍♂️ If you can't read code without JavaScript, that's your problem, not ours. 🖼️🔍"
https://lucasb.eyer.be/articles/vit_cnn_speed.html #imageprocessing #selfattention #techhumor #HackerNews #ngated

On the speed of ViTs and CNNs

foo

Show thread

Harald Klinke Apr 21, 2025

Since 2017, transformers have revolutionized language models.
No more sequential reading—transformers process all words at once using self-attention to capture meaning and context.
#Transformers #DeepLearning #AI #NLP #SelfAttention #LLM
https://www.akaike.ai/resources/on-the-origin-of-large-language-models-tracing-ais-big-bang

On the Origin of Large Language Models: Tracing AI’s Big Bang | Akaike Ai

Discover how Large Language Models (LLMs) originated. Learn about the transition from language models to LARGE language models, thereby triggering AI’s Big Bang.

Gray Beard Apr 21, 2025

AI models that run on "divine benevolence" have been discovered

source: https://www.linkedin.com/posts/eric-vyacheslav-156273169_what-a-rigorous-paper-we-offer-no-explanation-activity-7320038941175205888-Fd_w?utm_source=share&utm_medium=member_android&rcm=ACoAAAI_82QByJ2pOtvScPuBsWQ-Bel7qtO80zU

source: https://lnkd.in/gumqFCWK

#ai #ml #generativeai #transfomers #selfattention #divine #benevolence

What a rigorous paper. "We offer no explanation as to why these… | Eric Vyacheslav | 17 comments

What a rigorous paper. "We offer no explanation as to why these architectures seem to work; we attribute their success, as all else, to divine benevolence." by the amazing @NoamShazeer https://lnkd.in/gumqFCWK | 17 comments on LinkedIn

Habr Aug 30, 2024

Отличается ли внимание человека и модели-трансформера?

Для того, чтобы понимать язык и делать различные выводы, человек рассуждает, опираясь на знания о мире и здравый смысл. Несмотря на то, что большие языковые модели достигли значительных успехов в обработке естественного языка, рассуждение на основе здравого смысла остаëтся одним из самых сложных навыков. Наиболее распространëнным способом оценки способностей моделей рассуждать, опираясь на здравый смысл, является тест на основе схемы Винограда ( The Winograd Schema Challenge , или WSC), названный в честь Терри Винограда, профессора компьютерных наук в Стэнфордском университете. Тест основан на разрешении синтаксической неоднозначности. Давайте рассмотрим пример из схемы Винограда: "Кубок не помещается в коричневый чемодан, потому что он слишком большой." Что в этом случае является слишком большим: чемодан или кубок? Для человека ответ является очевидным, а для модели?.. Мы расскажем про наше исследование, в котором сравнили внимание человека и модели, а также проанализировали, на какие слова при решении схемы Винограда обращают внимание человек и модель. Хотя внимание человека и внимание трансформера кажутся совершенно разными, отдельные результаты говорят о взаимосвязи между ними.

https://habr.com/ru/companies/sberbank/articles/839634/

#natural_language_processing #selfattention #transformers #eyetracking

Отличается ли внимание человека и модели-трансформера?

Хабр

Giulio Apr 24, 2023

On top of #tokens and #embeddings, are #transformers and #selfattention the secrets behind #chatgpt? interesting that they are simple low level parallelism primitives independent from compilers and pipeline models

https://twitter.com/ItakGol/status/1650425754449059840

Itamar Golan 🤓 on Twitter

“8/🔗 Links Code - https://t.co/cRFEz4OCMD Paper - https://t.co/mCgMpeMQPG”

Twitter

Lynd Bacon Apr 12, 2023

Maybe "attention" as used in common transformer models isn't all you need, or need at all. Microsoft researchers describe "focal modulation networks" that aid interpretation of image processing:

https://arxiv.org/abs/2203.11926

#transformer
#computervision
#selfattention

Focal Modulation Networks

We propose focal modulation networks (FocalNets in short), where self-attention (SA) is completely replaced by a focal modulation mechanism for modeling token interactions in vision. Focal modulation comprises three components: (i) hierarchical contextualization, implemented using a stack of depth-wise convolutional layers, to encode visual contexts from short to long ranges, (ii) gated aggregation to selectively gather contexts for each query token based on its content, and (iii) element-wise modulation or affine transformation to inject the aggregated context into the query. Extensive experiments show FocalNets outperform the state-of-the-art SA counterparts (e.g., Swin and Focal Transformers) with similar computational costs on the tasks of image classification, object detection, and segmentation. Specifically, FocalNets with tiny and base size achieve 82.3% and 83.9% top-1 accuracy on ImageNet-1K. After pretrained on ImageNet-22K in 224 resolution, it attains 86.5% and 87.3% top-1 accuracy when finetuned with resolution 224 and 384, respectively. When transferred to downstream tasks, FocalNets exhibit clear superiority. For object detection with Mask R-CNN, FocalNet base trained with 1\times outperforms the Swin counterpart by 2.1 points and already surpasses Swin trained with 3\times schedule (49.0 v.s. 48.5). For semantic segmentation with UPerNet, FocalNet base at single-scale outperforms Swin by 2.4, and beats Swin at multi-scale (50.5 v.s. 49.7). Using large FocalNet and Mask2former, we achieve 58.5 mIoU for ADE20K semantic segmentation, and 57.9 PQ for COCO Panoptic Segmentation. Using huge FocalNet and DINO, we achieved 64.3 and 64.4 mAP on COCO minival and test-dev, respectively, establishing new SoTA on top of much larger attention-based models like Swinv2-G and BEIT-3. Code and checkpoints are available at https://github.com/microsoft/FocalNet.

arXiv.org