Tencent HY (@TencentHunyuan)

Tsinghua University와의 공동 연구인 Spatial-TTT 발표. 스트리밍 비주얼 기반의 공간 인텔리전스를 위한 프레임워크로, 테스트-타임 트레이닝(TTT)을 통해 긴 비디오 스트림에서 공간적 증거를 빠르게 포착하고 가중치를 적응시켜 구조화된 3D 정보를 구축하는 방법을 제안합니다.

https://x.com/TencentHunyuan/status/2033485392226447870

#spatialttt #testtimetraining #computervision #research

Tencent HY (@TencentHunyuan) on X

New research with @Tsinghua_Uni: Spatial-TTT. A framework for streaming visual-based spatial intelligence with test-time training (TTT). Spatial-TTT adapts fast weights to capture and organize spatial evidence from long video streams, enabling models to build structured 3D

X (formerly Twitter)

TTT‑Discover shows how inference‑time reinforcement learning can double GPU kernel speed compared to hand‑tuned experts. The method learns on‑the‑fly during LLM inference, turning each run into a tiny optimizer. A breakthrough for open‑source AI research and scientific discovery. Dive into the details and see the benchmarks. #TestTimeTraining #ReinforcementLearning #GPUKernelOptimization #LLM

🔗 https://aidailypost.com/news/ttt-discover-uses-inference-time-rl-double-gpu-kernel-speed-vs-experts

New research shows how Test‑Time Training equips Transformers with a dual‑memory system: a sliding‑window for short‑term context and a persistent long‑term store, all while keeping inference cheap. The TTT‑E2E framework uses targeted weight updates to boost performance on streaming data. Open‑source friendly, it could reshape real‑time NLP pipelines. #TestTimeTraining #DualMemory #Transformers #SlidingWindowAttention

🔗 https://aidailypost.com/news/test-time-training-adds-dualmemory-transformers-keeping-inference

Kỹ thuật mới Test-Time Training cho phép mô hình AI tự học khi hoạt động, giúp cải thiện hiệu quả trên dữ liệu lạ mà không cần huấn luyện lại.

#AI #MachineLearning #TestTimeTraining #Research #HocMay #CongNghe

https://i.redd.it/x11g4ceqybag1.png

Test-Time Training: Ein Durchbruch beim AI Reasoning

In einer bahnbrechenden neuen Arbeit von MIT-Forschern hat die künstliche Intelligenz bei der Lösung neuartiger, komplexer Probleme einen bedeutenden Schritt nach vorn gemacht. Die Forschungsarbeit zeigt, dass KI-Systeme mit einer Technik namens „Test-Time-Training“ (TTT) ihre Denkfähigkeiten drastisch verbessern können - und bei einigen anspruchsvollen Aufgaben mit der Leistung von Menschen gleichziehen. Was das bedeutet und warum es wichtig ist, wollen wir im Folgenden näher erläutern.

Die Herausforderung: KI abstraktes Denken beibringen

Stellen Sie sich vor, Sie versuchen, ein Rätsel zu lösen, das Sie noch nie zuvor gesehen haben. Wir Menschen sind darin bemerkenswert gut - wir können uns ein paar Beispiele ansehen, Muster erkennen und dieses Verständnis auf neue Situationen anwenden. Aber für KI-Systeme ist diese Art von abstraktem Denken eine große Herausforderung. Herkömmliche KI-Modelle sind wie Studenten, die Probleme aus dem Lehrbuch auswendig lernen, sich aber schwer tun, wenn sie mit neuen Arten von Fragen konfrontiert werden. Sie schneiden bei den Aufgaben, für die sie trainiert wurden, gut ab, versagen aber oft, wenn sie mit neuartigen Problemen konfrontiert werden, die komplexe Schlussfolgerungen erfordern.

Die Lösung: Lernen an Ort und Stelle

Der Durchbruch des MIT-Teams beim Test-Time-Training (TTT) kombiniert eine elegante Architektur mit einer ausgeklügelten Implementierung. Ich möchte Ihnen zeigen, wie es unter der Haube funktioniert.

Grundlegende Architektur und Design

Das Herzstück des Systems ist ein großes Sprachmodell - das Team experimentierte mit verschiedenen Größen von 1 Milliarde bis 8 Milliarden Parametern. Anstatt das gesamte Modell während des Trainings zu verändern, wendeten sie eine clevere Technik namens Low-Rank Adaptation (LoRA) an. Stellen Sie sich LoRA als eine Reihe kleiner, effizienter einstellbarer Knöpfe vor, die an den Schlüsselkomponenten des Modells angebracht sind: seinen Aufmerksamkeitsmechanismen, den Verarbeitungsschichten (MLPs) und den Ausgabesystemen. Mit diesem Ansatz kann sich das Modell schnell anpassen, ohne dass die Aktualisierung aller Parameter einen hohen Rechenaufwand erfordert.

Der TTT-Prozess: Eine vierstufige Symphonie

Der Prozess teilt sich in vier sorgfältig aufeinander abgestimmten Phasen ein:

1. Zuerst kommt die Phase der Datengenerierung. Wenn das System auf ein neues Problem stößt, geht es es nicht einfach frontal an. Stattdessen erstellt es einen benutzerdefinierten Trainingsdatensatz in einem zweistufigen Prozess. Zunächst spielt es ein ausgeklügeltes „Leave-one-out“-Spiel, bei dem jedes Beispiel des Problems abwechselnd die Rolle eines Testfalls übernimmt, während die anderen als Trainingsdaten dienen. Dann wird dieser Datensatz durch eine Reihe von Transformationen angereichert - Drehen der Eingaben, Spiegeln, Ändern der Farben und Anpassen der Größe. Auf diese Weise entsteht ein reichhaltiger Satz von Übungsproblemen, die das Kernmuster beibehalten, es aber auf unterschiedliche Weise darstellen.

2. In der zweiten Phase werden die Parameter optimiert. Hier findet der eigentliche Lernprozess statt. Das System stimmt seine LoRA-Parameter mithilfe einer sorgfältig ausgearbeiteten Verlustfunktion ab, die sowohl die unmittelbare Aufgabe als auch den breiteren Kontext berücksichtigt. Mithilfe des AdamW-Optimierers verarbeitet es diesen benutzerdefinierten Datensatz in kurzen Schüben - nur zwei Epochen mit kleinen Losgrößen. Wichtig ist, dass jedes neue Problem einen eigenen Satz von LoRA-Parametern erhält, um sicherzustellen, dass das Lernen fokussiert und spezifisch bleibt.

3. In der dritten Stufe wird eine erweiterte Inferenzstrategie angewandt. Anstatt sich für eine einzige Antwort zu entscheiden, generiert das System mehrere Kandidaten, indem es das Problem aus verschiedenen Blickwinkeln betrachtet - buchstäblich durch verschiedene Transformationen. Diese Kandidaten durchlaufen dann ein ausgeklügeltes Abstimmungsverfahren, bei dem die Vorhersagen zunächst nach ihrer Transformationsart gruppiert und dann durch ein zweistufiges Abstimmungssystem gefiltert werden, um die vielversprechendsten Antworten auszuwählen.

4. Schließlich optimiert das System die Leistung durch sorgfältige Technik. Es setzt eine spezielle Software (vLLM) für schnelle Berechnungen ein, verwaltet den Speicher effizient und verwendet optimierte Vorhersagemethoden. Dank dieses Augenmerks auf die Berechnungseffizienz kann das System beeindruckende Ergebnisse erzielen und gleichzeitig praktisch einsetzbar bleiben.

Leistung unter realen Bedingungen

Die Ergebnisse sprechen für sich. Auf High-End-Hardware (NVIDIA A100 GPUs) verarbeitet das System 100 Validierungsaufgaben in etwa 12 Stunden. Die Rechenanforderungen skalieren mit der Modellgröße - kleinere Modelle benötigen zwei GPUs, während die größeren Versionen mit 3B und 8B Parametern vier benötigen. Die Leistungssteigerungen sind jedoch beträchtlich: Die Genauigkeit des 8B-Basismodells steigt mit TTT von 39,3 % auf 47,1 %, und wenn es mit anderen Techniken (wie BARC) integriert wird, erreicht es beeindruckende 53 %.

Es ist wichtig zu erwähnen, dass das Erreichen dieser beeindruckenden Ergebnisse mit Rechenaufwand verbunden ist. Im Gegensatz zur traditionellen Inferenz, bei der die Modelle fast sofort Antworten liefern, erfordert Test-Time-Training Geduld. Jede Aufgabe dauert etwa sieben Minuten, da das System Übungsbeispiele generiert, seine adaptiven Parameter trainiert und mehrere potenzielle Lösungen durch sein Abstimmungssystem sorgfältig prüft. Dieser bewusste Ansatz spiegelt in gewisser Weise die menschliche Problemlösung wider - so wie wir Zeit damit verbringen, ähnliche Probleme zu üben, bevor wir ein schwieriges Rätsel in Angriff nehmen, investiert das KI-System Zeit in das Lernen aus ähnlichen Beispielen, um seine Leistung zu verbessern.

Diese sorgfältige Abstimmung von Architekturdesign, Datenerweiterung und Optimierungstechniken ermöglicht es dem System, sich spontan an neue Probleme anzupassen und ein Leistungsniveau zu erreichen, das unsere Annahmen darüber, was mit neuronalen Netzen allein möglich ist, in Frage stellt.

Übertreffen der Erwartungen

Die Ergebnisse des Forscherteams erzählen eine überzeugende Geschichte von bahnbrechenden Leistungen in der künstlichen Intelligenz. Ihr neuartiger Ansatz für das Training zur Testzeit veränderte das, was bisher mit Sprachmodellen möglich war, die abstrakte Denkaufgaben bewältigen.

Ausgehend von einem Basismodell, das mit komplexen logischen Problemen zu kämpfen hatte, führten die Innovationen des Teams zu einer dramatischen Verbesserung der Genauigkeit um das Sechsfache. Dieser Sprung nach vorn war nicht nur ein bescheidener Zuwachs - er bedeutete einen grundlegenden Wandel in der Art und Weise, wie gut KI-Systeme mit neuartigen, abstrakten Problemen umgehen können.

Die eigentliche Bewährungsprobe kam, als sie ihr System mit dem Abstraction and Reasoning Corpus (ARC) bewerteten, der weithin als einer der anspruchsvollsten Benchmarks im Bereich des KI-Schlussfolgerns gilt. ARC testet die Fähigkeit einer KI, Muster zu erkennen und sie in völlig neuen Situationen anzuwenden, ähnlich wie ein IQ-Test einen Menschen herausfordert, versteckte Muster zu finden. Bei diesem anspruchsvollen Test erreichte das System 53 % Genauigkeit - eine bemerkenswerte Leistung für einen rein neuronalen Ansatz.

Aber das Team gab sich damit nicht zufrieden. Durch die geschickte Kombination ihres Testzeit-Trainingsansatzes mit anderen hochmodernen Techniken konnten sie die Grenzen noch weiter verschieben und erreichten eine Genauigkeit von 61,9 %. Diese Zahl ist besonders wichtig, weil sie der durchschnittlichen menschlichen Leistung bei diesen Aufgaben entspricht. Zum ersten Mal sehen wir ein KI-System, das in der Lage ist, neue Probleme auf einem Niveau zu lösen, das mit dem menschlicher Problemlöser vergleichbar ist.

Diese Leistung stellt unsere Annahmen darüber, was mit künstlicher Intelligenz möglich ist, in Frage. Sie legt nahe, dass neuronale Netze mit dem richtigen Ansatz komplexe Denkaufgaben bewältigen können, von denen man früher annahm, dass sie explizite symbolische Verarbeitung oder menschenähnliches logisches Denken erfordern.

Warum das wichtig ist

Diese Forschungsarbeit stellt eine grundlegende Annahme der KI in Frage: dass symbolisches Denken (die Art des schrittweisen logischen Denkens, die wir oft mit Mathematik oder Computerprogrammierung in Verbindung bringen) für die Lösung komplexer Probleme notwendig ist. Stattdessen legt sie nahe, dass neuronale Netze - mit den richtigen Werkzeugen und dem richtigen Ansatz - ähnliche Ergebnisse durch einen flexibleren, anpassungsfähigen Prozess erzielen können. Stellen Sie sich das so vor: Anstatt von einer KI zu verlangen, dass sie eine vollständige Bedienungsanleitung für jedes mögliche Problem hat, gibt ihr dieser Ansatz die Möglichkeit, schnell ihre eigene Anleitung zu entwerfen, die auf die jeweilige Herausforderung zugeschnitten ist.

Fazit

Diese Forschung ist ein wichtiger Schritt auf dem Weg der KI zu menschenähnlichen Denkfähigkeiten. Wir sind zwar noch weit von künstlicher allgemeiner Intelligenz entfernt, aber diese Arbeit zeigt, dass wir mit cleveren Ansätzen wie dem Testzeittraining die Grenzen dessen, was KI-Systeme erreichen können, verschieben können. Der aufregendste Aspekt ist vielleicht, was uns dies über das maschinelle Lernen im Allgemeinen sagt: Manchmal liegt der Schlüssel zu einer besseren Leistung nicht nur darin, größere Modelle zu bauen oder mehr Trainingsdaten zu verwenden, sondern vielmehr darin, intelligentere Wege zu finden, um das Wissen, das wir bereits haben, anzuwenden.

Foto Rostislav Uzunov

Gehen Sie mit KI in die Zukunft Ihres Unternehmens

Mit unseren KI-Workshops rüsten Sie Ihr Team mit den Werkzeugen und dem Wissen aus, um bereit für das Zeitalter der KI zu sein.

Kontaktieren Sie uns

#f22938 #AI #TestTimeTraining

Test-Time Training: A Breakthrough in AI Problem-Solving

In a groundbreaking new paper from MIT researchers, artificial intelligence has taken a significant step forward in its ability to solve novel, complex problems. The research demonstrates that with a technique called "test-time training" (TTT), AI systems can dramatically improve their reasoning abilities—matching human-level performance on some challenging tasks. Let's dive into what this means and why it matters.

The Challenge: Teaching AI to Think Abstractly

Imagine trying to solve a puzzle you've never seen before. As humans, we're remarkably good at this—we can look at a few examples, spot patterns, and apply that understanding to new situations. But for AI systems, this kind of abstract reasoning has been a major challenge. Traditional AI models are like students who memorize textbook problems but struggle when faced with new types of questions. They perform well on tasks they've been trained on but often fall short when encountering novel problems requiring complex reasoning.

The Solution: Learning on the Spot

The MIT team's breakthrough in test-time training (TTT) combines elegant architecture design with sophisticated implementation. Let me walk you through how it works under the hood.

Core Architecture and Design

At the heart of the system lies a large language model—the team experimented with different sizes ranging from 1 billion to 8 billion parameters. Rather than modifying the entire model during training, they employed a clever technique called Low-Rank Adaptation (LoRA). Think of LoRA as a set of small, efficient adjustable knobs attached to the model's key components: its attention mechanisms, processing layers (MLPs), and output systems. This approach allows the model to adapt quickly without the computational burden of updating all its parameters.

The TTT Process: A Four-Stage Symphony

The process unfolds in four carefully orchestrated stages:

1. First comes the data generation stage. When the system encounters a new problem, it doesn't just tackle it head-on. Instead, it creates a custom training dataset through a two-step process. It starts by playing a sophisticated game of "leave-one-out," where each example in the problem takes turns playing the role of a test case while the others serve as training data. Then, it enriches this dataset through a series of transformations—rotating the inputs, flipping them like mirror images, changing colors, and adjusting sizes. This creates a rich set of practice problems that maintain the core pattern but present it in different ways.

2. The second stage involves parameter optimization. Here's where the real learning happens. The system fine-tunes its LoRA parameters using a carefully crafted loss function that considers both the immediate task and the broader context. Using the AdamW optimizer, it processes this custom dataset in short bursts—just two epochs with small batch sizes. Importantly, each new problem gets its own separate set of LoRA parameters, ensuring the learning remains focused and specific.

3. The third stage implements an augmented inference strategy. Rather than settling for a single answer, the system generates multiple candidates by looking at the problem from different angles—literally, through various transformations. These candidates then go through a sophisticated voting process, where predictions are first grouped by their transformation type, then filtered through a two-tier voting system to select the most promising answers.

4. Finally, the system optimizes performance through careful engineering. It employs specialized software (vLLM) for fast computations, manages memory efficiently, and uses streamlined prediction methods. This attention to computational efficiency allows the system to achieve impressive results while remaining practically deployable.

Real-World Performance

The results speak for themselves. Running on high-end hardware (NVIDIA A100 GPUs), the system processes 100 validation tasks in about 12 hours. The computational requirements scale with model size—smaller models need two GPUs, while the larger 3B and 8B parameter versions require four. But the performance gains are substantial: the base 8B model's accuracy jumps from 39.3% to 47.1% with TTT, and when integrated with other techniques (like BARC), it reaches an impressive 53%.

It's important to note that achieving these impressive results comes at a computational cost. Unlike traditional inference, where models produce answers almost instantaneously, test-time training requires patience. Each task takes about seven minutes to complete as the system generates practice examples, trains its adaptive parameters, and carefully considers multiple potential solutions through its voting system. This deliberate approach mirrors human problem-solving in a way—just as we might spend time practicing similar problems before tackling a challenging puzzle, the AI system invests time in learning from related examples to improve its performance.

This careful orchestration of architectural design, data augmentation, and optimization techniques allows the system to adapt to new problems on the fly, achieving levels of performance that challenge our assumptions about what's possible with neural networks alone.

Exceeding Expectations

The research team's results tell a compelling story of breakthrough performance in artificial intelligence. Their novel approach to test-time training transformed what was previously possible with language models tackling abstract reasoning tasks.

Starting with a baseline model that struggled with complex reasoning problems, the team's innovations led to a dramatic six-fold improvement in accuracy. This leap forward wasn't just a modest increment—it represented a fundamental shift in how well AI systems could handle novel, abstract problems.

The true test came when they evaluated their system on the Abstraction and Reasoning Corpus (ARC), widely considered one of the most challenging benchmarks in AI reasoning. This isn't your typical benchmark; ARC tests an AI's ability to spot patterns and apply them in entirely new situations, much like an IQ test might challenge a human to find hidden patterns. On this demanding test, their system achieved 53% accuracy—a remarkable feat for a purely neural approach.

But the team didn't stop there. By cleverly combining their test-time training approach with other state-of-the-art techniques, they pushed the boundaries even further, reaching 61.9% accuracy. This number is particularly significant because it matches the average human performance on these tasks. For the first time, we're seeing an AI system that can reason about novel problems at a level comparable to human problem-solvers.

This achievement challenges our assumptions about what's possible with artificial intelligence. It suggests that with the right approach, neural networks can handle complex reasoning tasks that were once thought to require explicit symbolic processing or human-like logical thinking.

Why This Matters

This research challenges a fundamental assumption in AI: that symbolic reasoning (the kind of step-by-step logical thinking we often associate with mathematics or computer programming) is necessary for solving complex problems. Instead, it suggests that neural networks—when given the right tools and approach—can achieve similar results through a more flexible, adaptive process. Think of it this way: instead of requiring an AI to have a complete instruction manual for every possible problem, this approach gives it the ability to quickly sketch out its own manual based on the specific challenge at hand.

Conclusion

This research represents a significant step forward in AI's journey toward more human-like reasoning capabilities. While we're still far from artificial general intelligence, this work shows that with clever approaches like test-time training, we can push the boundaries of what AI systems can achieve. The most exciting aspect might be what this tells us about machine learning in general: sometimes, the key to better performance isn't just building bigger models or using more training data, but rather finding smarter ways to apply the knowledge we already have.

Photo by Rostislav Uzunov

Unlock the Future of Business with AI

Dive into our immersive workshops and equip your team with the tools and knowledge to lead in the AI era.

Get in touch with us

#AI #f22938 #TestTimeTraining