KI-Textgeneratoren stellen die populärsten Anwendungen im Bereich Generative KI dar. Der populärste Bot ist zweifellos ChatGPT – inzwischen nutzen ihn 1,7 Milliarden Menschen weltweit. Doch ist das Tool des US-Techkonzern OpenAI auch der beste?

Zeit für einen Vergleich: Wir haben ChatGPT gegen „Bard“ antreten lassen, Googles Antwort auf den lange scheinbar unangreifbaren Klassenprimus.

Was beide KI-Textgeneratoren gemein haben: Sie haben sich schnell als nützliche Werkzeuge etabliert und sind in der Lage, diverse Texte zu verfassen und Fragen zu beantworten – fast so, als würde man mit einem Menschen interagieren. Sie werden in der Kommunikation und Marketing für eine Vielzahl von Aufgaben eingesetzt, von der Erstellung von Produktbeschreibungen und Blogartikeln bis hin zur Entwicklung personalisierter Werbekampagnen.

Die Frage, welcher Bot besser ist, lässt sich aus verschiedenen Perspektiven beantworten. Wir wollen hier gar nicht auf die technologischen Parameter eingehen, denn uns als Agentur geht es ja vor allem darum, welche KI-Tools im Alltag wirklich helfen. Daher haben wir ChatGPT und Google Bard einem direkten Vergleich unterzogen. Wir haben sie mit vier unterschiedlichen Aufgaben konfrontiert, um ihre Fähigkeiten in den Bereichen Zusammenfassung, Ideenentwicklung, Faktenprüfung und kreatives Schreiben zu testen.

Wie funktionieren die Tools?

ChatGPT und Google Bard gehören zu den fortschrittlichsten Sprachmodellen, die momentan verfügbar sind. Ihre Datenbasis, quasi das digitale Gehirn, sind sogenannte Large Language Models: riesige Menge an Texten aus dem Internet, mit denen diese „LLMs“ gefüttert worden sind, um zum einen möglichst viel Wissen aufzubauen und zum anderen menschliches Sprechen und Schreiben bestmöglich zu imitieren. 

Auf Basis der Daten, die das LLM enthält, analysieren die Modelle unsere Eingaben, erschließen den Kontext und versuchen anschließend, sinnvolle Sätze zu konstruieren, um die gestellte Aufgabe zu lösen. Sie tun dies, indem sie Muster und Strukturen in den Texten analysieren, mit denen sie trainiert wurden. Es ist wichtig zu verstehen, dass KIs nicht im eigentlichen Sinne „denken“, wie es Menschen tun. Stattdessen folgen sie komplexen mathematischen Regeln, um zu bestimmen, welche Wörter – den ihnen bekannten Wahrscheinlichkeiten und Mustern folgend – als Nächstes kommen sollten.

Im Effekt sind die Antworten zwar oft flüssig und klingen überzeugend, sind aber nicht immer wahr oder zwangsläufig logisch. Die Tools sind sehr geschickt darin, Texte zu erzeugen, die natürlich erscheinen, jedoch besitzen sie kein echtes Verständnis für die Bedeutung des Gesagten oder Geschriebenen, wie es bei Menschen der Fall ist. 

Was ist der Unterschied zwischen GPT-3.5 und GPT-4?

Da sich die Tools und die ihnen zugrunde liegenden LLMs sehr schnell weiterentwickeln, haben wir zwei Versionen von ChatGPT in den Test aufgenommen – die kostenlose Version GPT-3.5 wie auch die neueste, kostenpflichtige Version GPT-4. Unser Ziel war es, nicht nur zu ermitteln, welches Tool – ChatGPT oder Google Bard – überlegen ist, sondern auch zu untersuchen, ob die neueste Version von ChatGPT signifikante Vorteile gegenüber ihrer Vorgängerversion bietet. Der Test fand statt im Juli 2023. 

Auf geht’s zum Duell der künstlichen Intelligenzen: 

Aufgabe 1: Zusammenfassung eines Artikels in 500 Zeichen

In unserem ersten KI-Experiment stellten wir Google Bard und die GPT-Modelle vor eine scheinbar einfache Aufgabe: einen Artikel in nur 500 Zeichen zusammenzufassen, sodass ihn Menschen ohne Social-Media-Kenntnisse gut verstehen. Als Grundlage für unseren Test diente dieser Online-Artikel über „Threads“, die neue Messenger-App von Meta, die in ihrer Funktionsweise Twitter ähnelt.

Das Ergebnis? Keines der Tools kann zählen.

Google Bard schoss mit 1100 Zeichen weit über das Ziel hinaus. Ein klassischer Fall von „zu viel des Guten“. Seine Zusammenfassung wirkte wie ein Rundumschlag, der mehr aus anderen Quellen schöpfte als aus dem eigentlichen Artikel. 

Die GPT-Modelle hingegen zeigten sich disziplinierter und kamen der 500-Zeichen-Vorgabe mit 700 Zeichen näher. Inhaltlich waren sie deutlich präziser und griffen den Kern des Artikels auf.

Das Experiment zeigt, dass an dieser Stelle noch viel Luft nach oben ist. Die Qualität der Antwort von Google Bard leidet vor allem darunter, dass es sich nicht auf das Wesentliche zu konzentriert, sondern lauter Randnotizen aus dem Internet ausgräbt. Bei den GPT-Modellen von OpenAI mangelt es eher an Genauigkeit: Beide Tool-Versionen leisteten sich vereinzelte faktische und logische Fehler.

Aufgabe 2: Ideenentwicklung für eine Fortsetzung des Artikels

Als Nächstes folgte eine klassische Herausforderung für Text-KIs: „Ich bin Redakteur bei der ZEIT und möchte eine Fortsetzung des Kommentars schreiben. Auf welche Themen könnte ich eingehen?“ 

Hier hatten wir, basierend auf den Leistungsversprechungen des Tech-Riesen, hohe Erwartungen an Google Bard. Doch in Sachen Ideenentwicklung hat der GPT-Kontrahent noch einiges aufzuholen. Stellen Sie sich einen jungen Autor vor, der immer wieder dieselben Phrasen benutzt und manchmal sogar den Faden verliert – genau das passierte. Der Text von Google Bard wirkte repetitiv und war gespickt mit kleinen, aber störenden Fehlern. Im Ergebnis: mangelnde Kreativität, sprachliche Defizite und eine insgesamt unbefriedigende Leistung.

Auf der anderen Seite standen die GPT-Modelle. Sie verstanden nicht nur den Kern des Artikels besser, sondern lieferten auch frische, innovative Ideen und Denkanstöße. Während GPT-3.5 gelegentlich mit Logikfehlern zu kämpfen hatte, zeigte GPT-4 eine beeindruckende Reife bei der Ideenfindung und der konkreten Ausarbeitung von Konzepten. Es war, als würde man einem erfahrenen Redakteur über die Schulter schauen.

Unser Fazit vom Google Bard vs. ChatGPT-Test 

Wenn wir die Ergebnisse unseres Bot-Battles Revue passieren lassen, ist der Sieger eindeutig: GPT-4 hat im direkten Vergleich weiterhin die Nase vorn. Das Tool ist ein echter Allrounder und arbeitet vor allem inhaltlich korrekt. Flexibel in unterschiedlichsten Kontexten und bei komplexen Themen einsetzbar, beeindruckt OpenAIs Flaggschiff aber auch mit sprachlicher Varianz. Diese Kombination macht GPT-4 zur aktuell weiterhin besten Option für reguläre GenAI-Nutzer:innen.

Google Bard punktet bei der Aufbereitung aktueller Informationen –  dank direktem Internetzugriff. Doch in anderen Bereichen, wie der thematischen Tiefe und Ausdrucksstärke, hat das Sprachmodell aus der Google-Schmiede noch einiges aufzuholen. GPT-3.5 bleibt eine solide Wahl für viele Anwendungen, stößt jedoch an Grenzen, wenn es um Aktualität und mehrsprachige Vielseitigkeit geht. 

Interessanterweise zeigt sich Google Bard in Bezug auf Transparenz seiner eigenen Entwicklung und beim Datenschutz fortschrittlicher. In einer Zeit, in der Datenschutz und Sicherheit zunehmend wichtiger werden, könnte dies zu einem wichtigen Vorteil werden.

Deutlich ist jedenfalls, dass jedes Tool seine eigenen Stärken und Schwächen hat. Die Auswahl des passenden Werkzeugs hängt letztlich von den individuellen Bedürfnissen und Anforderungen ab. Eines ist jedoch sicher: Die Entwicklung in diesem Bereich ist rasant. In den USA sind mit Claude.ai und Perplexity.ai zudem schon zwei weitere Chatbots sehr populär geworden. Google hat zudem schon länger angekündigt, noch 2023 ein sehr viel leistungsfähigeres Large Language Model zu entwickeln. Und in Expertenforen liest man viel von ChatGPT-5, das allerdings voraussichtlich erst 2024 auf den Markt kommt.

Johannes Priewich SENIOR CONTENT STRATEGIST / TEXTCHEF


Sie möchten lernen, wie Ihr Team KI-Tools erfolgreich in den Arbeitsalltag integrieren kann?

In unseren KI-Workshops erhalten Sie praktisch nutzbares Wissen zu generativer KI und lernen am Beispiel konkreter Use Cases, die Tools sofort selbst zu nutzen.

Unser Senior Content Strategist und Managing Editor Johannes Priewich freut sich über Ihre E-Mail oder vereinbaren Sie einen kostenlosen Kennenlerntermin mit uns.