#QtDev #QML #GUIAutomation #Embedded
Claude 3.5 Computer Use: Die KI, die Ihren Computer sieht und steuert
Stellen Sie sich eine künstliche Intelligenz vor, die Ihren Computer genauso bedienen kann wie Sie selbst und nur ihre „Augen“ benutzt, um den Bildschirm zu verstehen und mit ihm zu interagieren. Das ist genau das, was Claude 3.5 Computer Use erreichen will. Es kann verschiedene Aufgaben bewältigen, vom Surfen im Internet bis hin zur Bewältigung von Herausforderungen in Videospielen, ohne auf herkömmliche Methoden wie HTML-Parsing oder den Zugriff auf interne Software-APIs angewiesen zu sein. Forscher der National University of Singapore haben in einer Studie untersucht, wie gut Computer Use in verschiedenen Bereichen und mit unterschiedlicher Software funktioniert.
Wie Claude 3.5 Computer Use den Computer überwacht
Claude 3.5 Computer Use beobachtet seine Umgebung ausschließlich durch visuelle Informationen, die aus Echtzeit-Screenshots gewonnen werden, ohne sich auf Metadaten oder HTML-Informationen zu stützen. Dank dieses Ansatzes kann das Modell auch bei Closed-Source-Software, bei der der Zugang zu internen APIs oder zum Code eingeschränkt ist, effektiv funktionieren.
Diese Methode - auch bekannt als „vision-only approach“ - unterstreicht die Fähigkeit des Modells, menschliche Desktop-Interaktionen zu imitieren, indem es sich ausschließlich auf visuelle Eingaben stützt. Dies ist ein bedeutender Fortschritt in der GUI-Automatisierung, da es dem Modell ermöglicht, sich an die dynamische Natur von GUI-Umgebungen anzupassen, ohne die zugrunde liegende Struktur der Schnittstelle verstehen zu müssen.
Screenshot-Integration in Claude's Reasoning-Prozess
Claude 3.5 verwendet ein „reasoning-acting“-Paradigma, ähnlich dem traditionellen ReAct-Ansatz. Das bedeutet, dass das Modell zunächst die Umgebung beobachtet, bevor es sich für eine Aktion entscheidet, um sicherzustellen, dass seine Aktionen für den aktuellen Zustand der Benutzeroberfläche geeignet sind. Die Screenshots werden während der Ausführung der Aufgabe erfasst und wie folgt in den Schlussfolgerungsprozess des Modells integriert:
Dieser Ansatz ermöglicht es Claude 3.5, fundiertere Entscheidungen zu treffen, indem der gesamte visuelle Kontext der Aufgabe berücksichtigt wird, während sie sich entfaltet.
Selektive Beobachtungsstrategie
Wichtig ist, dass Claude 3.5 vom traditionellen ReAct-Paradigma abweicht, indem es eine **selektive Beobachtungsstrategie** anwendet. Das bedeutet, dass das Modell den Zustand der Benutzeroberfläche nicht kontinuierlich bei jedem Schritt beobachtet, sondern nur dann, wenn dies aufgrund seiner Überlegungen erforderlich ist. Diese selektive Beobachtung reduziert die Rechenkosten und beschleunigt den Gesamtprozess, da unnötige Screenshot-Aufnahmen und -Analysen vermieden werden.
Evaluierung der Performance von Claude 3.5 Computer Use
Die Studie hebt hervor, dass Claude 3.5 Computer Use eine starke Leistung bei der Automatisierung einer Vielzahl von Desktop-Aufgaben zeigt, aber auch Bereiche mit Verbesserungspotenzial aufzeigt. Diese Bewertung betrachtet die Planung, die Ausführung von Aktionen und das kritische Feedback als Schlüsselaspekte der Leistung.
Stärken
Limits
Schlüsselergebnisse
Verbesserungspotenzial
Fazit
Claude 3.5 Computer Use zeigt ein erhebliches Potenzial für die Automatisierung der Benutzeroberfläche. Seine Leistung bei einer Vielzahl von Desktop-Aufgaben unterstreicht seine Stärken bei der Websuche, der Automatisierung von Arbeitsabläufen, der Produktivität im Büro und sogar bei Videospielen. Allerdings gibt es Einschränkungen bei der Planung, der Ausführung von Aktionen, dem kritischen Feedback und der Abhängigkeit von nicht menschenähnlichen Interaktionsmustern, die Bereiche für zukünftige Entwicklungen hervorheben. Die Behebung dieser Einschränkungen ist eine wesentliche Voraussetzung für die Entwicklung wirklich anspruchsvoller und zuverlässiger GUI-Automatisierungsmodelle, die die menschliche Computernutzung wirksam unterstützen und ergänzen können.
Gehen Sie mit KI in die Zukunft Ihres Unternehmens
Mit unseren KI-Workshops rüsten Sie Ihr Team mit den Werkzeugen und dem Wissen aus, um bereit für das Zeitalter der KI zu sein.
Kontaktieren Sie unsClaude 3.5 Computer Use: The AI That Sees and Controls Your Computer
Imagine an AI that can navigate your computer just like you do, using only its "eyes" to understand and interact with the screen. That's exactly what Claude 3.5 Computer Use aims to achieve. It can tackle various tasks, from browsing the web to conquering challenges in video games, all without relying on traditional methods like HTML parsing or access to internal software APIs. Researches from the National University of Singapore have conducted a study of how well Computer Use works in variety of domains and software.
Claude 3.5 Computer Use Observation Method
Claude 3.5 Computer Use observes its environment exclusively through visual information obtained from real-time screenshots, without relying on any metadata or HTML information. This approach allows the model to function effectively even with closed-source software, where access to internal APIs or code is restricted.
This method - also known as - vision-only approach - highlights the model's ability to mimic human desktop interactions by relying solely on visual input. This is a significant advancement in GUI automation as it enables the model to adapt to the dynamic nature of GUI environments without needing to understand the underlying structure of the interface.
Screenshot Integration in Claude's Reasoning Process
Claude 3.5 employs a reasoning-acting paradigm, similar to the traditional ReAct approach. This means the model first observes the environment before deciding on an action, ensuring that its actions are appropriate for the current GUI state. The screenshots are captured during the task operation and are integrated into the model's reasoning process as follows:
This approach allows Claude 3.5 to make more informed decisions by considering the full visual context of the task as it unfolds.
Selective Observation Strategy
Importantly, Claude 3.5 departs from the traditional ReAct paradigm by adopting a **selective observation strategy**. This means that the model does not observe the GUI state continuously at every step but only when necessary, as determined by its reasoning. This selective observation reduces the computational cost and accelerates the overall process by avoiding unnecessary screenshot capture and analysis.
Evaluating the Performance of Claude 3.5 Computer Use
The study highlights that Claude 3.5 Computer Use exhibits strong performance in automating a diverse range of desktop tasks, but also reveal areas for improvement. This evaluation considers planning, action execution, and critic feedback as key aspects of performance.
Strengths
Limitations
Key Insights
Areas for Improvement
Conclusion
Claude 3.5 Computer Use demonstrates significant potential in GUI automation. Its performance across a variety of desktop tasks highlights its strengths in web search, workflow automation, office productivity, and even video games. However, limitations in planning, action execution, critic feedback, and its reliance on non-human-like interaction patterns underscore areas for future development. Addressing these limitations will be essential for creating truly sophisticated and reliable GUI automation models capable of effectively supporting and augmenting human computer use.
Unlock the Future of Business with AI
Dive into our immersive workshops and equip your team with the tools and knowledge to lead in the AI era.
Get in touch with usMagentic-One von Microsoft – GUI-Automatisierung Ante Portas
Magentic-One von Microsoft ist ein quelloffenes Multi-Agenten-System, das komplexe Aufgaben mit Hilfe künstlicher Intelligenz lösen kann. Magentic-One nutzt ein Team spezialisierter Agenten, von denen jeder über Fähigkeiten wie Webbrowsing, Dateiverarbeitung und Codeausführung verfügt, die alle von einem Orchestrator-Agenten koordiniert werden. Dieser modulare Aufbau ermöglicht Flexibilität und Erweiterbarkeit, so dass das System an verschiedene Szenarien angepasst werden kann, indem Agenten je nach Bedarf hinzugefügt oder entfernt werden.
Fähigkeiten und Beiträge der Agenten von Magentic-One
Als Multi-Agenten-System, das für die autonome Erledigung komplexer Aufgaben konzipiert ist, besteht es aus mehreren Agenten die von einem zentralen Orchestrator koordiniert werden:
Die Zusammenarbeit dieser Agenten, orchestriert durch die intelligente Entscheidungsfindung des Orchestrators, befähigt Magentic-One, komplexe Aufgaben zu lösen. Ablationsstudien mit dem GAIA-Benchmark zeigen die Bedeutung jedes einzelnen Agenten: Das Entfernen eines einzelnen Agenten führt zu einem erheblichen Leistungsabfall, was verdeutlicht, wie ihre speziellen Fähigkeiten synergetisch zum Erfolg des Systems beitragen.
Beschränkungen und künftige Richtungen für Magentic-One
Während Magentic-One als generalistisches Multi-Agenten-System eine starke Leistung zeigt, weisen die Forscher auf mehrere Einschränkungen und Bereiche für zukünftige Forschung und Entwicklung hin:
Bewertungsmetriken
Derzeitige Benchmarks konzentrieren sich in erster Linie auf die Genauigkeit des Endergebnisses und lassen entscheidende Aspekte wie Kosten, Latenzzeit, Benutzerpräferenz und Gesamtwert außer Acht. Ein umfassenderer Bewertungsrahmen sollte diese Faktoren einbeziehen und anerkennen, dass eine teilweise richtige, aber zeitnahe Lösung wertvoller sein kann als eine perfekt genaue, aber verzögerte oder teure Lösung. Darüber hinaus stützen sich die derzeitigen Bewertungen in hohem Maße auf Aufgaben mit eindeutigen richtigen Antworten. Die Einbeziehung subjektiver oder offener Aufgaben, bei denen die „Korrektheit“ weniger klar definiert ist, würde reale Szenarien besser widerspiegeln.
Effizienz und Kosten
Magentic-One stützt sich stark auf große Sprachmodelle (LLMs), die für ihre hohen Rechenkosten und Latenzzeiten bekannt sind. Für die Ausführung komplexer Aufgaben sind oft Dutzende von LLM-Aufrufen erforderlich, was das System teuer und zeitaufwändig macht. Künftige Forschungsarbeiten könnten die Verwendung kleinerer, spezialisierter Modelle für bestimmte Teilaufgaben untersuchen, um die Abhängigkeit von großen LLMs zu verringern und die Effizienz zu verbessern. Kleinere Modelle könnten beispielsweise die Verwendung von Werkzeugen in FileSurfer und WebSurfer handhaben oder das Set-of-Mark-Action-Grounding in WebSurfer durchführen. Darüber hinaus könnte die Einbeziehung menschlicher Aufsicht die Anzahl der Iterationen reduzieren, die erforderlich sind, wenn Agenten auf Schwierigkeiten stoßen, was zu einer weiteren Optimierung von Kosten und Zeit führt.
Multimodale Fähigkeiten
Das derzeitige Design von Magentic-One bietet keine umfassende Unterstützung für verschiedene Modalitäten, was seine Fähigkeit, bestimmte Aufgaben effektiv zu erledigen, einschränkt. So kann der WebSurfer beispielsweise keine Online-Videos verarbeiten (er ist stattdessen auf Transkripte oder Untertitel angewiesen), und der FileSurfer konvertiert alle Dokumente in Markdown, wodurch Informationen über visuelle Elemente wie Abbildungen und Layout verloren gehen. In ähnlicher Weise werden Audiodateien durch Sprachtranskription verarbeitet, was verhindert, dass die Agenten Musik oder nicht-sprachliche Inhalte verstehen. Die Erweiterung der multimodalen Fähigkeiten von Magentic-One ist von entscheidender Bedeutung für die Bewältigung eines breiteren Spektrums von Aufgaben in der realen Welt. Dies könnte die Verbesserung bestehender Agenten (WebSurfer und FileSurfer) oder die Einführung neuer spezialisierter Agenten (wie AudioSurfer und VideoSurfer) beinhalten.
Agent Action Space
Der Action Space der Agenten ist durch die derzeit verfügbaren Werkzeuge begrenzt. So kann der WebSurfer beispielsweise keine Aktionen wie das Bewegen des Mauszeigers über Elemente oder die Größenänderung durchführen, was seine Interaktion mit bestimmten Webanwendungen (z. B. Karten) einschränkt. In ähnlicher Weise sind die Unterstützung von FileSurfer für Dokumenttypen und der Zugriff von Coder und ComputerTerminal auf externe Ressourcen (APIs, Datenbanken) begrenzt. Die Erweiterung des Action Space durch die Entwicklung und Integration umfassenderer Werkzeuge ist für die Verbesserung der Flexibilität und Effektivität von Agenten in realen Umgebungen von entscheidender Bedeutung. Darüber hinaus könnte sich die Forschung darauf konzentrieren, Agenten in die Lage zu versetzen, bestehende, von Menschen entwickelte Betriebssysteme und Anwendungen zu nutzen, um so Zugang zu einer breiten Palette von Werkzeugen zu erhalten, die über die speziell für KI-Agenten entwickelten hinausgehen.
Programmierfähigkeiten
Die derzeitige Implementierung des Coder-Agenten ist relativ einfach. Er generiert eigenständige Python-Programme für jede Anfrage und erfordert die Ausgabe eines komplett neuen Code-Listings zur Fehlersuche. Dieser Ansatz ist ineffizient für den Umgang mit komplexen, mehrere Dateien umfassenden Codebasen oder Situationen, die eine iterative Entwicklung erfordern. Zukünftige Forschungen könnten alternative Designs erforschen, wie z. B. die Verwendung einer Jupyter-Notebook-ähnlichen Umgebung, in der Code inkrementell erstellt und modifiziert werden kann, was anspruchsvollere Programmieraufgaben erleichtert und besser mit realen Softwareentwicklungspraktiken übereinstimmt.
Anpassungsfähigkeit des Teams
Magentic-One arbeitet derzeit mit einem festen Team von fünf Agenten. Diese Struktur kann für bestimmte Aufgaben suboptimal sein: nicht benötigte Agenten können den Orchestrator ablenken, während wichtige Fachkenntnisse fehlen können. Das dynamische Hinzufügen oder Entfernen von Agenten auf der Grundlage der Aufgabenanforderungen könnte die Effizienz und Anpassungsfähigkeit des Systems verbessern.
Lernen und Gedächtnis
Magentic-One verfügt nicht über ein Langzeitgedächtnis, so dass Erkenntnisse, die während einer Aufgabe gewonnen wurden, beim Übergang zur nächsten Aufgabe verworfen werden. Dies führt zu einer wiederholten Wiederentdeckung von Lösungen für gemeinsame Teilaufgaben, was besonders bei Benchmarks wie WebArena auffällt. Die Einführung von Mechanismen für das Langzeitgedächtnis und den Wissenstransfer über Aufgaben hinweg ist ein Schlüsselbereich für die zukünftige Forschung, der es Agenten ermöglicht, aus vergangenen Erfahrungen zu lernen und im Laufe der Zeit effizienter und robuster zu werden.
Risikominimierung
Die Autoren betonen auch, wie wichtig es ist, sich mit potenziellen Risiken zu befassen, die mit Agenten verbunden sind, die in von Menschen gestalteten Umgebungen arbeiten. Zu den beobachteten Risiken gehören:
Es werden mehrere Abhilfestrategien vorgeschlagen:
Um das Potenzial von Multiagentensystemen wie Magentic-One voll ausschöpfen zu können, ist es entscheidend, diese Einschränkungen und Risiken durch kontinuierliche Forschung und Entwicklung zu beseitigen. Durch die Verbesserung der Effizienz, die Erweiterung der Fähigkeiten, die Erhöhung der Sicherheit und die Förderung einer verantwortungsvollen Nutzung können wir KI-Agenten schaffen, die wirklich nützlich und transformativ sind.
Gehen Sie mit KI in die Zukunft Ihres Unternehmens
Mit unseren KI-Workshops rüsten Sie Ihr Team mit den Werkzeugen und dem Wissen aus, um bereit für das Zeitalter der KI zu sein.
Kontaktieren Sie unsMagentic-One by Microsoft – GUI Automation Ante Portas
Magentic-One by Microsoft, is an open-source, multi-agent system designed to solve complex tasks using artificial intelligence. Magentic-One utilises a team of specialised agents, each possessing unique skills like web browsing, file handling, and code execution, all coordinated by an Orchestrator agent. This modular design allows for flexibility and extensibility, enabling the system to adapt to various scenarios by adding or removing agents as needed.
Capabilities and Contributions of Magentic-One's Agents
Magentic-One is a multi-agent system designed to autonomously complete complex tasks. Its success hinges on the specialised capabilities of its individual agents and their effective coordination by the Orchestrator agent. Here's a breakdown of each agent's capabilities and how they contribute to Magentic-One's overall performance:
The collaborative effort of these agents, orchestrated by the intelligent decision-making of the Orchestrator, empowers Magentic-One to solve complex tasks. Ablation studies on the GAIA benchmark demonstrate the importance of each agent: removing any single agent leads to a substantial decrease in performance, highlighting how their unique capabilities contribute synergistically to the system's success.
Limitations and Future Directions for Magentic-One
While Magentic-One demonstrates strong performance as a generalist multi-agent system, the sources highlight several limitations and areas for future research and development:
Evaluation Metrics
Current benchmarks primarily focus on the accuracy of the final output, overlooking crucial aspects like cost, latency, user preference, and overall value. A more comprehensive evaluation framework should incorporate these factors, recognising that a partially correct but timely solution may be more valuable than a perfectly accurate but delayed or expensive one. Moreover, current evaluations rely heavily on tasks with clear-cut correct answers. Incorporating subjective or open-ended tasks, where "correctness" is less well-defined, would better reflect real-world scenarios.
Efficiency and Cost
Magentic-One relies heavily on large language models (LLMs), which are known for their high computational cost and latency. Executing complex tasks often requires dozens of LLM calls, making the system expensive and time-consuming. Future research could explore the use of smaller, specialised models for specific subtasks, reducing reliance on large LLMs and improving efficiency. For example, smaller models could handle tool use within FileSurfer and WebSurfer or perform set-of-mark action grounding in WebSurfer. Additionally, incorporating human oversight could reduce the number of iterations needed when agents encounter difficulties, further optimising cost and time.
Multimodal Capabilities
Magentic-One's current design lacks comprehensive support for various modalities, limiting its ability to handle certain tasks effectively. For instance, WebSurfer cannot process online videos (relying on transcripts or captions instead), and FileSurfer converts all documents to Markdown, losing information about visual elements like figures and layout. Similarly, audio files are processed through speech transcription, preventing agents from understanding music or non-speech content. Expanding Magentic-One's multimodal capabilities is crucial for tackling a broader range of real-world tasks. This could involve enhancing existing agents (WebSurfer and FileSurfer) or introducing new specialised agents (like AudioSurfer and VideoSurfer).
Agent Action Space
The agents' action space is limited by the currently available tools. For instance, WebSurfer cannot perform actions like hovering over elements or resizing, limiting its interaction with certain web applications (e.g., maps). Similarly, FileSurfer's support for document types and the Coder and ComputerTerminal's access to external resources (APIs, databases) are limited. Expanding the action space by developing and integrating more comprehensive tools is essential for improving agents' flexibility and effectiveness in real-world environments. Additionally, research could focus on enabling agents to utilise existing human-designed operating systems and applications, providing access to a vast array of tools beyond those specifically developed for AI agents.
Coding Capabilities
The Coder agent's current implementation is relatively simple. It generates standalone Python programs for each request and requires outputting an entirely new code listing for debugging. This approach is inefficient for handling complex, multi-file codebases or situations requiring iterative development. Future research could explore alternative designs, such as using a Jupyter Notebook-like environment, where code can be built and modified incrementally, facilitating more sophisticated programming tasks and better aligning with real-world software development practices.
Team Adaptability
Magentic-One currently operates with a fixed team of five agents. This structure may be suboptimal for certain tasks: unneeded agents can distract the Orchestrator, while crucial expertise may be missing. Dynamically adding or removing agents based on task requirements could enhance the system's efficiency and adaptability.
Learning and Memory
Magentic-One lacks long-term memory, discarding insights gained during one task when moving to the next. This leads to repetitive rediscovery of solutions for common subtasks, particularly noticeable in benchmarks like WebArena. Introducing mechanisms for long-term memory and knowledge transfer across tasks is a key area for future research, enabling agents to learn from past experiences and become more efficient and robust over time.
Risk Mitigation
The authors also emphasise the importance of addressing potential risks associated with agents operating in human-designed environments. Observed risks include:
Several mitigation strategies are suggested:
Addressing these limitations and risks through ongoing research and development is crucial for realising the full potential of multi-agent systems like Magentic-One. By improving efficiency, expanding capabilities, enhancing safety, and fostering responsible use, we can create AI agents that are truly beneficial and transformative.
Unlock the Future of Business with AI
Dive into our immersive workshops and equip your team with the tools and knowledge to lead in the AI era.
Get in touch with us