Mastodawn

Automate repetitive #GUI tasks in Qt/QML applications like sending clicks, entering text, property checks, and even visual testing via screenshots with Spix - a small but useful library. Read the full blog here: https://www.kdab.com/automating-repetitive-gui-interactions-in-embedded-development-with-spix/
#QtDev #QML #GUIAutomation #Embedded

Martin Treiber Nov 24, 2024

Claude 3.5 Computer Use: Die KI, die Ihren Computer sieht und steuert

Stellen Sie sich eine künstliche Intelligenz vor, die Ihren Computer genauso bedienen kann wie Sie selbst und nur ihre „Augen“ benutzt, um den Bildschirm zu verstehen und mit ihm zu interagieren. Das ist genau das, was Claude 3.5 Computer Use erreichen will. Es kann verschiedene Aufgaben bewältigen, vom Surfen im Internet bis hin zur Bewältigung von Herausforderungen in Videospielen, ohne auf herkömmliche Methoden wie HTML-Parsing oder den Zugriff auf interne Software-APIs angewiesen zu sein. Forscher der National University of Singapore haben in einer Studie untersucht, wie gut Computer Use in verschiedenen Bereichen und mit unterschiedlicher Software funktioniert.

Wie Claude 3.5 Computer Use den Computer überwacht

Claude 3.5 Computer Use beobachtet seine Umgebung ausschließlich durch visuelle Informationen, die aus Echtzeit-Screenshots gewonnen werden, ohne sich auf Metadaten oder HTML-Informationen zu stützen. Dank dieses Ansatzes kann das Modell auch bei Closed-Source-Software, bei der der Zugang zu internen APIs oder zum Code eingeschränkt ist, effektiv funktionieren.

Diese Methode - auch bekannt als „vision-only approach“ - unterstreicht die Fähigkeit des Modells, menschliche Desktop-Interaktionen zu imitieren, indem es sich ausschließlich auf visuelle Eingaben stützt. Dies ist ein bedeutender Fortschritt in der GUI-Automatisierung, da es dem Modell ermöglicht, sich an die dynamische Natur von GUI-Umgebungen anzupassen, ohne die zugrunde liegende Struktur der Schnittstelle verstehen zu müssen.

Screenshot-Integration in Claude's Reasoning-Prozess

Claude 3.5 verwendet ein „reasoning-acting“-Paradigma, ähnlich dem traditionellen ReAct-Ansatz. Das bedeutet, dass das Modell zunächst die Umgebung beobachtet, bevor es sich für eine Aktion entscheidet, um sicherzustellen, dass seine Aktionen für den aktuellen Zustand der Benutzeroberfläche geeignet sind. Die Screenshots werden während der Ausführung der Aufgabe erfasst und wie folgt in den Schlussfolgerungsprozess des Modells integriert:

Historischer Kontext: Claude 3.5 speichert eine Historie von Screenshots aus früheren Schritten und sammelt visuelle Informationen, während die Aufgabe fortschreitet.

Aktionsgenerierung: Bei jedem Zeitschritt verwendet das Modell den aktuellen Screenshot in Kombination mit dem historischen Screenshot-Kontext, um die nächste Aktion zu bestimmen.

Dieser Ansatz ermöglicht es Claude 3.5, fundiertere Entscheidungen zu treffen, indem der gesamte visuelle Kontext der Aufgabe berücksichtigt wird, während sie sich entfaltet.

Selektive Beobachtungsstrategie

Wichtig ist, dass Claude 3.5 vom traditionellen ReAct-Paradigma abweicht, indem es eine **selektive Beobachtungsstrategie** anwendet. Das bedeutet, dass das Modell den Zustand der Benutzeroberfläche nicht kontinuierlich bei jedem Schritt beobachtet, sondern nur dann, wenn dies aufgrund seiner Überlegungen erforderlich ist. Diese selektive Beobachtung reduziert die Rechenkosten und beschleunigt den Gesamtprozess, da unnötige Screenshot-Aufnahmen und -Analysen vermieden werden.

Evaluierung der Performance von Claude 3.5 Computer Use

Die Studie hebt hervor, dass Claude 3.5 Computer Use eine starke Leistung bei der Automatisierung einer Vielzahl von Desktop-Aufgaben zeigt, aber auch Bereiche mit Verbesserungspotenzial aufzeigt. Diese Bewertung betrachtet die Planung, die Ausführung von Aktionen und das kritische Feedback als Schlüsselaspekte der Leistung.

Stärken

Websuche: Das Modell navigiert erfolgreich durch komplexe Websites wie Amazon und die offizielle Website von Apple, findet effizient Informationen, legt Artikel in den Warenkorb und kann sogar dynamische Elemente wie Pop-up-Fenster verarbeiten.
Automatisierung von Arbeitsabläufen: Claude 3.5 demonstriert die Fähigkeit, Aktionen über mehrere Anwendungen hinweg zu koordinieren. Es kann Daten zwischen Amazon und Excel übertragen, Online-Dokumente exportieren und lokal öffnen, Apps aus dem App Store installieren und sogar die Speichernutzung melden.
Office-Produktivität: Das Modell zeichnet sich durch die Automatisierung verschiedener Aufgaben in Microsoft Office-Anwendungen aus, darunter Word, PowerPoint und Excel. Es ändert erfolgreich Dokumentenlayouts, fügt Formeln ein, manipuliert Präsentationen und führt Such- und Ersetzungsvorgänge durch.
Videospiele: Claude 3.5 beweist seine Anpassungsfähigkeit an Spielumgebungen, interagiert mit Spieloberflächen und führt mehrstufige Aktionen in Spielen wie Hearthstone und Honkai: Star Rail aus. Er erstellt und benennt Decks um, setzt Heldenkräfte effektiv ein, automatisiert Warp-Sequenzen und erledigt tägliche Missionsaufgaben.

Limits

Planungsfehler: Das Modell interpretiert manchmal Benutzeranweisungen oder den aktuellen Zustand des Computers falsch, was zu einer falschen Aufgabenausführung führt. So navigierte es beispielsweise fälschlicherweise zur Registerkarte „Konto“, anstatt im Navigationsmenü von Fox Sports nach „Formel 1“ zu suchen.
Fehler bei Aktionen: Claude 3.5 kann mit der präzisen Steuerung innerhalb der GUI-Umgebung Probleme haben, was zu Ungenauigkeiten bei Aufgaben führt, die eine bestimmte Auswahl oder Interaktion erfordern. Dies zeigt sich bei der Aufgabe „Lebenslaufvorlage“, bei der das Modell den Namen und die Telefonnummer aufgrund einer ungenauen Textauswahl nur teilweise aktualisierte.
Kritische Irrtümer: Das Modell kann seine Aktionen oder den Zustand des Computers falsch einschätzen, indem es vorschnell den Abschluss einer Aufgabe meldet oder Fehler übersieht. So meldete es z. B. den erfolgreichen Abschluss der Aktualisierung der Lebenslaufvorlage, obwohl die Änderungen unvollständig waren, und wendete in PowerPoint fälschlicherweise Aufzählungszeichen anstelle von Nummern an.
Nicht menschenähnliche Interaktion: Die Abhängigkeit von „Bild hoch/runter“-Tastenkombinationen zum Blättern schränkt die Fähigkeit des Modells ein, Informationen umfassend zu durchsuchen und wahrzunehmen, was zu einer Diskrepanz zwischen seinem Interaktionsstil und dem menschlichen Nutzerverhalten führt.

Schlüsselergebnisse

Ausschließlich visueller Ansatz: Da sich Claude 3.5 bei der Umgebungsbeobachtung ausschließlich auf visuelle Informationen aus Screenshots stützt, kann es mit verschiedenen Anwendungen interagieren, sogar mit Closed-Source-Software, ohne dass Metadaten oder HTML-Parsing erforderlich sind.
Reasoning-Acting-Paradigma: Das Modell verwendet ein Reasoning-Acting-Paradigma, ähnlich wie ReAct, um sicherzustellen, dass seine Aktionen für den aktuellen GUI-Zustand angemessen sind. Es verwendet sowohl aktuelle als auch historische Screenshots, um Aktionen dynamisch zu generieren.
Selektive Beobachtungsstrategie: Claude 3.5 beobachtet den Zustand der grafischen Benutzeroberfläche selektiv und nur bei Bedarf, um die Rechenkosten zu senken und die Ausführung von Aufgaben zu beschleunigen.

Verbesserungspotenzial

Verbesserung des Kritiker-Moduls: Die Verbesserung der Selbstbeurteilungsfähigkeiten des Modells zur besseren Erkennung von Fehlern und zur genauen Bestimmung der Aufgabenerledigung ist entscheidend für die Erhöhung seiner Zuverlässigkeit.
Dynamisches Benchmarking: Die Bewertung von Claude 3.5 in dynamischeren und interaktiven Umgebungen, die die reale Nutzung von Anwendungen simulieren, würde eine umfassendere Bewertung seiner Leistung und Anpassungsfähigkeit ermöglichen.
Menschenähnliche Interaktion: Die Überbrückung der Kluft zwischen dem Interaktionsstil des Modells und dem des menschlichen Nutzers, insbesondere in Bereichen wie Scrollen und Browsen, würde seine Effektivität in realen Szenarien erhöhen.

Fazit

Claude 3.5 Computer Use zeigt ein erhebliches Potenzial für die Automatisierung der Benutzeroberfläche. Seine Leistung bei einer Vielzahl von Desktop-Aufgaben unterstreicht seine Stärken bei der Websuche, der Automatisierung von Arbeitsabläufen, der Produktivität im Büro und sogar bei Videospielen. Allerdings gibt es Einschränkungen bei der Planung, der Ausführung von Aktionen, dem kritischen Feedback und der Abhängigkeit von nicht menschenähnlichen Interaktionsmustern, die Bereiche für zukünftige Entwicklungen hervorheben. Die Behebung dieser Einschränkungen ist eine wesentliche Voraussetzung für die Entwicklung wirklich anspruchsvoller und zuverlässiger GUI-Automatisierungsmodelle, die die menschliche Computernutzung wirksam unterstützen und ergänzen können.

Foto Google DeepMind

Gehen Sie mit KI in die Zukunft Ihres Unternehmens

Mit unseren KI-Workshops rüsten Sie Ihr Team mit den Werkzeugen und dem Wissen aus, um bereit für das Zeitalter der KI zu sein.

Kontaktieren Sie uns

#Claude #ComputerUse #f22938 #GUIAutomation

Martin Treiber Nov 24, 2024

Claude 3.5 Computer Use: The AI That Sees and Controls Your Computer

Imagine an AI that can navigate your computer just like you do, using only its "eyes" to understand and interact with the screen. That's exactly what Claude 3.5 Computer Use aims to achieve. It can tackle various tasks, from browsing the web to conquering challenges in video games, all without relying on traditional methods like HTML parsing or access to internal software APIs. Researches from the National University of Singapore have conducted a study of how well Computer Use works in variety of domains and software.

Claude 3.5 Computer Use Observation Method

Claude 3.5 Computer Use observes its environment exclusively through visual information obtained from real-time screenshots, without relying on any metadata or HTML information. This approach allows the model to function effectively even with closed-source software, where access to internal APIs or code is restricted.

This method - also known as - vision-only approach - highlights the model's ability to mimic human desktop interactions by relying solely on visual input. This is a significant advancement in GUI automation as it enables the model to adapt to the dynamic nature of GUI environments without needing to understand the underlying structure of the interface.

Screenshot Integration in Claude's Reasoning Process

Claude 3.5 employs a reasoning-acting paradigm, similar to the traditional ReAct approach. This means the model first observes the environment before deciding on an action, ensuring that its actions are appropriate for the current GUI state. The screenshots are captured during the task operation and are integrated into the model's reasoning process as follows:

Historical Context Maintenance: Claude 3.5 maintains a history of screenshots from previous steps, accumulating visual information as the task progresses.

Action Generation: At each time step, the model uses the current screenshot, combined with the historical screenshot context, to determine the next action.

This approach allows Claude 3.5 to make more informed decisions by considering the full visual context of the task as it unfolds.

Selective Observation Strategy

Importantly, Claude 3.5 departs from the traditional ReAct paradigm by adopting a **selective observation strategy**. This means that the model does not observe the GUI state continuously at every step but only when necessary, as determined by its reasoning. This selective observation reduces the computational cost and accelerates the overall process by avoiding unnecessary screenshot capture and analysis.

Evaluating the Performance of Claude 3.5 Computer Use

The study highlights that Claude 3.5 Computer Use exhibits strong performance in automating a diverse range of desktop tasks, but also reveal areas for improvement. This evaluation considers planning, action execution, and critic feedback as key aspects of performance.

Strengths

Web Search:The model successfully navigates complex websites like Amazon and Apple's official site, efficiently finding information, adding items to carts, and even handling dynamic elements like pop-up windows.
Workflow Automation: Claude 3.5 demonstrates proficiency in coordinating actions across multiple applications. It can transfer data between Amazon and Excel, export and open online documents locally, install apps from the App Store, and even report storage usage.
Office Productivity: The model excels in automating various tasks in Microsoft Office applications, including Word, PowerPoint, and Excel. It successfully modifies document layouts, inserts formulas, manipulates presentations, and performs find-and-replace operations.
Video Games: Notably, Claude 3.5 demonstrates adaptability to gaming environments, interacting with game interfaces and executing multi-step actions in games like Hearthstone and Honkai: Star Rail. It creates and renames decks, uses hero powers effectively, automates warp sequences, and completes daily mission tasks.

Limitations

Planning Errors: The model sometimes misinterprets user instructions or the computer's current state, resulting in incorrect task execution. For example, it mistakenly navigated to the "Account" tab instead of scrolling for "Formula 1" in the Fox Sports navigation menu.
Action Errors: Claude 3.5 can struggle with precise control within the GUI environment, leading to inaccuracies in tasks requiring specific selections or interactions. This is evident in the resume template task, where the model only partially updated the name and phone number due to inaccurate text selection.
Critic Errors: The model may incorrectly assess its actions or the computer's state, prematurely declaring task completion or overlooking errors. For example, it reported successful completion of the resume template update despite incomplete changes and mistakenly applied bullets instead of numbering in PowerPoint.
Non-Human-like Interaction: Reliance on "Page Up/Down" shortcuts for scrolling limits the model's ability to browse and perceive information comprehensively, creating a discrepancy between its interaction style and human user behaviour.

Key Insights

Vision-Only Approach: Claude 3.5's reliance solely on visual information from screenshots for environment observation allows it to interact with diverse applications, even closed-source software, without requiring metadata or HTML parsing.
Reasoning-Acting Paradigm: The model employs a reasoning-acting paradigm, similar to ReAct, to ensure its actions are appropriate for the current GUI state. It uses both current and historical screenshots to generate actions dynamically.
Selective Observation Strategy: Claude 3.5 observes the GUI state selectively, only when necessary, to reduce computational cost and accelerate task execution.

Areas for Improvement

Critic Module Enhancement: Improving the model's self-assessment capabilities to better detect errors and accurately determine task completion is crucial for increasing its reliability.
Dynamic Benchmarking: Evaluating Claude 3.5 in more dynamic and interactive environments that simulate real-world application usage would provide a more comprehensive assessment of its performance and adaptability.
Human-like Interaction: Bridging the gap between the model's interaction style and that of human users, particularly in areas like scrolling and browsing, would enhance its effectiveness in real-world scenarios.

Conclusion

Claude 3.5 Computer Use demonstrates significant potential in GUI automation. Its performance across a variety of desktop tasks highlights its strengths in web search, workflow automation, office productivity, and even video games. However, limitations in planning, action execution, critic feedback, and its reliance on non-human-like interaction patterns underscore areas for future development. Addressing these limitations will be essential for creating truly sophisticated and reliable GUI automation models capable of effectively supporting and augmenting human computer use.

Photo by Google DeepMind

Unlock the Future of Business with AI

Dive into our immersive workshops and equip your team with the tools and knowledge to lead in the AI era.

Get in touch with us

#Claude #ComputerUse #f22938 #GUIAutomation

Martin Treiber Nov 19, 2024

Magentic-One von Microsoft – GUI-Automatisierung Ante Portas

Magentic-One von Microsoft ist ein quelloffenes Multi-Agenten-System, das komplexe Aufgaben mit Hilfe künstlicher Intelligenz lösen kann. Magentic-One nutzt ein Team spezialisierter Agenten, von denen jeder über Fähigkeiten wie Webbrowsing, Dateiverarbeitung und Codeausführung verfügt, die alle von einem Orchestrator-Agenten koordiniert werden. Dieser modulare Aufbau ermöglicht Flexibilität und Erweiterbarkeit, so dass das System an verschiedene Szenarien angepasst werden kann, indem Agenten je nach Bedarf hinzugefügt oder entfernt werden.

Fähigkeiten und Beiträge der Agenten von Magentic-One

Als Multi-Agenten-System, das für die autonome Erledigung komplexer Aufgaben konzipiert ist, besteht es aus mehreren Agenten die von einem zentralen Orchestrator koordiniert werden:

Orchestrator: Der Orchestrator ist das „Gehirn“ des Systems. Er nimmt die ursprüngliche Aufgabenanforderung entgegen und teilt sie strategisch in kleinere Teilaufgaben auf. Dieser Agent führt über die Aufgabe Buch: das Aufgabenbuch (task kedger), das den Plan, die Fakten und die Vermutungen enthält, und das Fortschrittsbuch (progress ledget), das die Ausführung des Plans verfolgt und Teilaufgaben an die entsprechenden Arbeitsagenten delegiert. Der Orchestrator überwacht den Fortschritt, erkennt unproduktive Schleifen und kann den Plan bei Bedarf dynamisch überarbeiten. Diese intelligente Planung, Delegation und Anpassung ist entscheidend für die effektive Bewältigung komplexer Aufgaben.
WebSurfer: Dieser Agent ist der Web-Experte des Teams. Er interagiert mit einem Chromium-basierten Webbrowser, empfängt Anweisungen vom Orchestrator und führt Aktionen wie das Navigieren zu URLs, Suchen, Scrollen, Anklicken von Links und Eingeben von Formularen aus. Der WebSurfer liefert auch Feedback an den Orchestrator, einschließlich Screenshots und Beschreibungen des Zustands der Webseite. Die Fähigkeit, Befehle in natürlicher Sprache zu interpretieren und einen Webbrowser zu bedienen, macht den WebSurfer unentbehrlich für Aufgaben wie Internetrecherche, Datenextraktion und die Interaktion mit Webanwendungen.
FileSurfer: Dieser Agent spiegelt die Funktionalität des WebSurfer wider, allerdings für das Dateisystem. Er interagiert mit einer benutzerdefinierten markdown-basierten Dateivorschau-Anwendung, die es ihm ermöglicht, in Verzeichnissen zu navigieren, verschiedene Dateitypen (PDFs, Office-Dokumente, Bilder usw.) zu öffnen und Informationen zu extrahieren. Diese Fähigkeit erweitert das Aufgabenspektrum von Magentic-One um Aufgaben wie Dokumentenanalyse, Datenverarbeitung und lokale Dateimanipulation.
Coder: Dieser Agent bringt Programmierkenntnisse in das Team ein. Er schreibt Python-Code auf der Grundlage von Anweisungen des Orchestrators und kann bestehenden Code durch die Erstellung überarbeiteter Versionen debuggen. Die Fähigkeit des Coders, Aufgabenanforderungen in funktionalen Code zu übersetzen, eröffnet eine große Bandbreite an Problemlösungsmöglichkeiten, insbesondere für Aufgaben, die Datenmanipulation, Automatisierung und Softwareentwicklung beinhalten.
ComputerTerminal: Dieser Agent dient als Code-Ausführungsumgebung für das Team. Er führt den vom Coder geschriebenen Python-Code aus und kann auch Shell-Befehle ausführen. Diese Fähigkeit ermöglicht es Magentic-One, den von ihm erzeugten Code auszuführen und zu testen, Ergebnisse zu erhalten und sogar neue Programmierbibliotheken zu installieren, um seine Codierungsfähigkeiten weiter auszubauen.

Die Zusammenarbeit dieser Agenten, orchestriert durch die intelligente Entscheidungsfindung des Orchestrators, befähigt Magentic-One, komplexe Aufgaben zu lösen. Ablationsstudien mit dem GAIA-Benchmark zeigen die Bedeutung jedes einzelnen Agenten: Das Entfernen eines einzelnen Agenten führt zu einem erheblichen Leistungsabfall, was verdeutlicht, wie ihre speziellen Fähigkeiten synergetisch zum Erfolg des Systems beitragen.

Beschränkungen und künftige Richtungen für Magentic-One

Während Magentic-One als generalistisches Multi-Agenten-System eine starke Leistung zeigt, weisen die Forscher auf mehrere Einschränkungen und Bereiche für zukünftige Forschung und Entwicklung hin:

Bewertungsmetriken

Derzeitige Benchmarks konzentrieren sich in erster Linie auf die Genauigkeit des Endergebnisses und lassen entscheidende Aspekte wie Kosten, Latenzzeit, Benutzerpräferenz und Gesamtwert außer Acht. Ein umfassenderer Bewertungsrahmen sollte diese Faktoren einbeziehen und anerkennen, dass eine teilweise richtige, aber zeitnahe Lösung wertvoller sein kann als eine perfekt genaue, aber verzögerte oder teure Lösung. Darüber hinaus stützen sich die derzeitigen Bewertungen in hohem Maße auf Aufgaben mit eindeutigen richtigen Antworten. Die Einbeziehung subjektiver oder offener Aufgaben, bei denen die „Korrektheit“ weniger klar definiert ist, würde reale Szenarien besser widerspiegeln.

Effizienz und Kosten

Magentic-One stützt sich stark auf große Sprachmodelle (LLMs), die für ihre hohen Rechenkosten und Latenzzeiten bekannt sind. Für die Ausführung komplexer Aufgaben sind oft Dutzende von LLM-Aufrufen erforderlich, was das System teuer und zeitaufwändig macht. Künftige Forschungsarbeiten könnten die Verwendung kleinerer, spezialisierter Modelle für bestimmte Teilaufgaben untersuchen, um die Abhängigkeit von großen LLMs zu verringern und die Effizienz zu verbessern. Kleinere Modelle könnten beispielsweise die Verwendung von Werkzeugen in FileSurfer und WebSurfer handhaben oder das Set-of-Mark-Action-Grounding in WebSurfer durchführen. Darüber hinaus könnte die Einbeziehung menschlicher Aufsicht die Anzahl der Iterationen reduzieren, die erforderlich sind, wenn Agenten auf Schwierigkeiten stoßen, was zu einer weiteren Optimierung von Kosten und Zeit führt.

Multimodale Fähigkeiten

Das derzeitige Design von Magentic-One bietet keine umfassende Unterstützung für verschiedene Modalitäten, was seine Fähigkeit, bestimmte Aufgaben effektiv zu erledigen, einschränkt. So kann der WebSurfer beispielsweise keine Online-Videos verarbeiten (er ist stattdessen auf Transkripte oder Untertitel angewiesen), und der FileSurfer konvertiert alle Dokumente in Markdown, wodurch Informationen über visuelle Elemente wie Abbildungen und Layout verloren gehen. In ähnlicher Weise werden Audiodateien durch Sprachtranskription verarbeitet, was verhindert, dass die Agenten Musik oder nicht-sprachliche Inhalte verstehen. Die Erweiterung der multimodalen Fähigkeiten von Magentic-One ist von entscheidender Bedeutung für die Bewältigung eines breiteren Spektrums von Aufgaben in der realen Welt. Dies könnte die Verbesserung bestehender Agenten (WebSurfer und FileSurfer) oder die Einführung neuer spezialisierter Agenten (wie AudioSurfer und VideoSurfer) beinhalten.

Agent Action Space

Der Action Space der Agenten ist durch die derzeit verfügbaren Werkzeuge begrenzt. So kann der WebSurfer beispielsweise keine Aktionen wie das Bewegen des Mauszeigers über Elemente oder die Größenänderung durchführen, was seine Interaktion mit bestimmten Webanwendungen (z. B. Karten) einschränkt. In ähnlicher Weise sind die Unterstützung von FileSurfer für Dokumenttypen und der Zugriff von Coder und ComputerTerminal auf externe Ressourcen (APIs, Datenbanken) begrenzt. Die Erweiterung des Action Space durch die Entwicklung und Integration umfassenderer Werkzeuge ist für die Verbesserung der Flexibilität und Effektivität von Agenten in realen Umgebungen von entscheidender Bedeutung. Darüber hinaus könnte sich die Forschung darauf konzentrieren, Agenten in die Lage zu versetzen, bestehende, von Menschen entwickelte Betriebssysteme und Anwendungen zu nutzen, um so Zugang zu einer breiten Palette von Werkzeugen zu erhalten, die über die speziell für KI-Agenten entwickelten hinausgehen.

Programmierfähigkeiten

Die derzeitige Implementierung des Coder-Agenten ist relativ einfach. Er generiert eigenständige Python-Programme für jede Anfrage und erfordert die Ausgabe eines komplett neuen Code-Listings zur Fehlersuche. Dieser Ansatz ist ineffizient für den Umgang mit komplexen, mehrere Dateien umfassenden Codebasen oder Situationen, die eine iterative Entwicklung erfordern. Zukünftige Forschungen könnten alternative Designs erforschen, wie z. B. die Verwendung einer Jupyter-Notebook-ähnlichen Umgebung, in der Code inkrementell erstellt und modifiziert werden kann, was anspruchsvollere Programmieraufgaben erleichtert und besser mit realen Softwareentwicklungspraktiken übereinstimmt.

Anpassungsfähigkeit des Teams

Magentic-One arbeitet derzeit mit einem festen Team von fünf Agenten. Diese Struktur kann für bestimmte Aufgaben suboptimal sein: nicht benötigte Agenten können den Orchestrator ablenken, während wichtige Fachkenntnisse fehlen können. Das dynamische Hinzufügen oder Entfernen von Agenten auf der Grundlage der Aufgabenanforderungen könnte die Effizienz und Anpassungsfähigkeit des Systems verbessern.

Lernen und Gedächtnis

Magentic-One verfügt nicht über ein Langzeitgedächtnis, so dass Erkenntnisse, die während einer Aufgabe gewonnen wurden, beim Übergang zur nächsten Aufgabe verworfen werden. Dies führt zu einer wiederholten Wiederentdeckung von Lösungen für gemeinsame Teilaufgaben, was besonders bei Benchmarks wie WebArena auffällt. Die Einführung von Mechanismen für das Langzeitgedächtnis und den Wissenstransfer über Aufgaben hinweg ist ein Schlüsselbereich für die zukünftige Forschung, der es Agenten ermöglicht, aus vergangenen Erfahrungen zu lernen und im Laufe der Zeit effizienter und robuster zu werden.

Risikominimierung

Die Autoren betonen auch, wie wichtig es ist, sich mit potenziellen Risiken zu befassen, die mit Agenten verbunden sind, die in von Menschen gestalteten Umgebungen arbeiten. Zu den beobachteten Risiken gehören:

Sicherheitsschwachstellen: Agenten, die ohne menschliche Aufsicht Aktionen wie das Zurücksetzen von Passwörtern oder die Zustimmung zu Cookie-Richtlinien versuchen.
Anfälligkeit für Manipulation: Agenten können Opfer von Phishing-Angriffen werden oder durch bösartige Aufforderungen beeinflusst werden.
Unumkehrbare Handlungen: Agenten, die Aktionen mit dauerhaften Folgen (Löschen von Dateien, Versenden von E-Mails) ohne angemessene Überlegung durchführen.
Gesellschaftliche Auswirkungen: Bedenken hinsichtlich möglicher Arbeitsplatzverlagerungen und wirtschaftlicher Beeinträchtigungen durch die zunehmende Automatisierung.

Es werden mehrere Abhilfestrategien vorgeschlagen:

Principle of least priveledge: Begrenzung des Zugriffs und der Berechtigungen von Agenten, um den potenziellen Schaden zu minimieren.
Verstärkte menschliche Aufsicht: Einbeziehung von Menschen in kritische Entscheidungsprozesse, insbesondere bei risikoreichen Aktionen.
Verbesserte Sicherheitsmaßnahmen: Ausstattung der Agenten mit Tools zur Erkennung von Phishing-Versuchen, zur Überprüfung von Informationsquellen und zur sicheren Verwaltung von Anmeldedaten.
Förderung der Zusammenarbeit zwischen Mensch und Agent: Der Schwerpunkt liegt auf der Entwicklung von Systemen, die die menschlichen Fähigkeiten ergänzen, anstatt sie vollständig zu ersetzen.

Um das Potenzial von Multiagentensystemen wie Magentic-One voll ausschöpfen zu können, ist es entscheidend, diese Einschränkungen und Risiken durch kontinuierliche Forschung und Entwicklung zu beseitigen. Durch die Verbesserung der Effizienz, die Erweiterung der Fähigkeiten, die Erhöhung der Sicherheit und die Förderung einer verantwortungsvollen Nutzung können wir KI-Agenten schaffen, die wirklich nützlich und transformativ sind.

Foto Nico Herrmann

Gehen Sie mit KI in die Zukunft Ihres Unternehmens

Mit unseren KI-Workshops rüsten Sie Ihr Team mit den Werkzeugen und dem Wissen aus, um bereit für das Zeitalter der KI zu sein.

Kontaktieren Sie uns

#Agents #f22938 #f22938 #GUIAutomation #collaboration

Agentic Workflows in AI: How Autonomous Agents are Transforming Task Automation

Agentic workflows stand out as a major leap forward, empowering AI systems to tackle complex tasks autonomously

IKANGAI

Martin Treiber Nov 19, 2024

Magentic-One by Microsoft – GUI Automation Ante Portas

Magentic-One by Microsoft, is an open-source, multi-agent system designed to solve complex tasks using artificial intelligence. Magentic-One utilises a team of specialised agents, each possessing unique skills like web browsing, file handling, and code execution, all coordinated by an Orchestrator agent. This modular design allows for flexibility and extensibility, enabling the system to adapt to various scenarios by adding or removing agents as needed.

Capabilities and Contributions of Magentic-One's Agents

Magentic-One is a multi-agent system designed to autonomously complete complex tasks. Its success hinges on the specialised capabilities of its individual agents and their effective coordination by the Orchestrator agent. Here's a breakdown of each agent's capabilities and how they contribute to Magentic-One's overall performance:

Orchestrator: The Orchestrator is the "brain" of the system. It receives the initial task request and strategically breaks it down into smaller subtasks. This agent maintains two ledgers: the task ledger containing the plan, facts, and educated guesses and the progress ledger that tracks the execution of the plan and delegates subtasks to the appropriate worker agents. The Orchestrator monitors progress, detects unproductive loops, and can revise the plan dynamically as needed. This intelligent planning, delegation, and adaptation are crucial for tackling complex tasks effectively.
WebSurfer: This agent is the team's web expert. It interacts with a Chromium-based web browser, receiving instructions from the Orchestrator and executing actions like navigating to URLs, searching, scrolling, clicking links, and typing in forms. The WebSurfer also provides feedback to the Orchestrator, including screenshots and descriptions of the web page's state. The ability to interpret natural language commands and operate a web browser makes the WebSurfer essential for tasks involving internet research, data extraction, and interacting with web applications.
FileSurfer: This agent mirrors the WebSurfer's functionality but for the file system. It interacts with a custom markdown-based file preview application, enabling it to navigate directories, open various file types (PDFs, Office documents, images, etc.), and extract information. This capability broadens Magentic-One's task-solving scope to include tasks involving document analysis, data processing, and local file manipulation.
Coder: This agent brings programming expertise to the team. It writes Python code based on instructions from the Orchestrator and can debug existing code by generating revised versions. The Coder's ability to translate task requirements into functional code unlocks a significant range of problem-solving possibilities, especially for tasks involving data manipulation, automation, and software development.
ComputerTerminal: This agent acts as the team's code execution environment. It runs the Python code written by the Coder and can also execute shell commands. This capability allows Magentic-One to run and test the code it generates, obtain results, and even install new programming libraries, further expanding its coding capabilities.

The collaborative effort of these agents, orchestrated by the intelligent decision-making of the Orchestrator, empowers Magentic-One to solve complex tasks. Ablation studies on the GAIA benchmark demonstrate the importance of each agent: removing any single agent leads to a substantial decrease in performance, highlighting how their unique capabilities contribute synergistically to the system's success.

Limitations and Future Directions for Magentic-One

While Magentic-One demonstrates strong performance as a generalist multi-agent system, the sources highlight several limitations and areas for future research and development:

Evaluation Metrics

Current benchmarks primarily focus on the accuracy of the final output, overlooking crucial aspects like cost, latency, user preference, and overall value. A more comprehensive evaluation framework should incorporate these factors, recognising that a partially correct but timely solution may be more valuable than a perfectly accurate but delayed or expensive one. Moreover, current evaluations rely heavily on tasks with clear-cut correct answers. Incorporating subjective or open-ended tasks, where "correctness" is less well-defined, would better reflect real-world scenarios.

Efficiency and Cost

Magentic-One relies heavily on large language models (LLMs), which are known for their high computational cost and latency. Executing complex tasks often requires dozens of LLM calls, making the system expensive and time-consuming. Future research could explore the use of smaller, specialised models for specific subtasks, reducing reliance on large LLMs and improving efficiency. For example, smaller models could handle tool use within FileSurfer and WebSurfer or perform set-of-mark action grounding in WebSurfer. Additionally, incorporating human oversight could reduce the number of iterations needed when agents encounter difficulties, further optimising cost and time.

Multimodal Capabilities

Magentic-One's current design lacks comprehensive support for various modalities, limiting its ability to handle certain tasks effectively. For instance, WebSurfer cannot process online videos (relying on transcripts or captions instead), and FileSurfer converts all documents to Markdown, losing information about visual elements like figures and layout. Similarly, audio files are processed through speech transcription, preventing agents from understanding music or non-speech content. Expanding Magentic-One's multimodal capabilities is crucial for tackling a broader range of real-world tasks. This could involve enhancing existing agents (WebSurfer and FileSurfer) or introducing new specialised agents (like AudioSurfer and VideoSurfer).

Agent Action Space

The agents' action space is limited by the currently available tools. For instance, WebSurfer cannot perform actions like hovering over elements or resizing, limiting its interaction with certain web applications (e.g., maps). Similarly, FileSurfer's support for document types and the Coder and ComputerTerminal's access to external resources (APIs, databases) are limited. Expanding the action space by developing and integrating more comprehensive tools is essential for improving agents' flexibility and effectiveness in real-world environments. Additionally, research could focus on enabling agents to utilise existing human-designed operating systems and applications, providing access to a vast array of tools beyond those specifically developed for AI agents.

Coding Capabilities

The Coder agent's current implementation is relatively simple. It generates standalone Python programs for each request and requires outputting an entirely new code listing for debugging. This approach is inefficient for handling complex, multi-file codebases or situations requiring iterative development. Future research could explore alternative designs, such as using a Jupyter Notebook-like environment, where code can be built and modified incrementally, facilitating more sophisticated programming tasks and better aligning with real-world software development practices.

Team Adaptability

Magentic-One currently operates with a fixed team of five agents. This structure may be suboptimal for certain tasks: unneeded agents can distract the Orchestrator, while crucial expertise may be missing. Dynamically adding or removing agents based on task requirements could enhance the system's efficiency and adaptability.

Learning and Memory

Magentic-One lacks long-term memory, discarding insights gained during one task when moving to the next. This leads to repetitive rediscovery of solutions for common subtasks, particularly noticeable in benchmarks like WebArena. Introducing mechanisms for long-term memory and knowledge transfer across tasks is a key area for future research, enabling agents to learn from past experiences and become more efficient and robust over time.

Risk Mitigation

The authors also emphasise the importance of addressing potential risks associated with agents operating in human-designed environments. Observed risks include:

Security vulnerabilities: Agents attempting actions like password resets or agreeing to cookie policies without human oversight.
Susceptibility to manipulation: Agents potentially falling prey to phishing attacks or being influenced by malicious prompts.
Irreversible actions: Agents performing actions with lasting consequences (deleting files, sending emails) without proper consideration.
Societal impact: Concerns about potential job displacement and economic disruption due to increased automation.

Several mitigation strategies are suggested:

Principle of least privilege: Limiting agents' access and permissions to minimise potential harm.
Increased human oversight: Involving humans in critical decision-making processes, particularly for high-risk actions.
Enhanced security measures: Equipping agents with tools to detect phishing attempts, validate information sources, and manage credentials securely.
Promoting human-agent collaboration: Focusing on developing systems that augment human capabilities rather than replacing them entirely.

Addressing these limitations and risks through ongoing research and development is crucial for realising the full potential of multi-agent systems like Magentic-One. By improving efficiency, expanding capabilities, enhancing safety, and fostering responsible use, we can create AI agents that are truly beneficial and transformative.

Photo by Nico Herrmann

Unlock the Future of Business with AI

Dive into our immersive workshops and equip your team with the tools and knowledge to lead in the AI era.

Get in touch with us

#Agents #collaboration #f22938 #GUIAutomation