Die BüroFlow-Testcrew

Wer hier eigentlich antritt und nach welchen Regeln getestet wird.

Willkommen im KI-Labor von BüroFlow

Vier KI-Systeme, dieselbe Ausgangsfrage. Schauen wir, was passiert.

Warum sind manche Fragen so ausführlich?

Die Fragen fallen unterschiedlich aus. Manche bestehen aus einer einzigen Fragestellung, andere bündeln mehrere Teilfragen in einem Prompt. Entscheidend ist nicht die Länge der Frage, sondern dass alle Systeme dieselbe Ausgangsbasis erhalten.

Das verbessert die Vergleichbarkeit der Antworten, weil alle Systeme auf dieselbe Fragestellung reagieren.

Gleichzeitig hat dieser Ansatz Grenzen. Die erste Antwort bestimmt, welche Aspekte angesprochen werden und welche möglicherweise unerwähnt bleiben. Deshalb können in einzelnen Fällen zusätzliche Verständnisfragen gestellt werden, wenn Begriffe, Konzepte oder Beispiele näher erläutert werden müssen. Solche Erläuterungen werden gesondert gekennzeichnet und fließen nicht in die eigentliche Auswertung ein.

Die Testcrew

chatgpt.com

copilot.microsoft.com

claude.ai

gemini.google.com

Der Testcrew-Neuzugang

Le Chat bzw. inzwischen Vibe wird bei Digital Independance Day als Alternative zu den großen US-Modellen genannt.

Ein guter Grund, um ihn ins Team aufzunehmen.

chat.mistral.ai

Die Testbedingungen

Alle Systeme erhalten denselben Prompt.
Für jeden Vergleich wird ein neuer Chat begonnen.
Verglichen wird ausschließlich die erste Antwort auf die Ausgangsfrage.
Verwendet werden Konten ohne persönliche Nutzungshistorie oder individuelle Anpassungen.
Nachfragen oder Folgefragen fließen nicht in die Auswertung ein. Ausnahmen sind Verständnisfragen zu einzelnen Begriffen oder Konzepten. Solche Erläuterungen werden gesondert gekennzeichnet und dienen ausschließlich dem besseren Verständnis der ursprünglichen Antwort.

Was diese Tests zeigen – und was nicht

Die Tests sind keine wissenschaftlichen Studien und keine Rangliste. Sie zeigen Momentaufnahmen: Wie reagieren verschiedene KI-Systeme auf dieselbe Fragestellung unter möglichst vergleichbaren Bedingungen?

Ziel ist nicht die Kür eines Gewinners, sondern das Sichtbarmachen von Unterschieden, Gemeinsamkeiten und überraschenden Perspektiven.

Die eigentliche Stärke entsteht oft erst im Vergleich. Einzelne Systeme setzen unterschiedliche Schwerpunkte, verwenden andere Beispiele oder betrachten dieselbe Frage aus einem anderen Blickwinkel. Dadurch entstehen zusätzliche Fragen, neue Gedanken und manchmal auch Widersprüche, die erst durch den direkten Vergleich sichtbar werden.

Das Ergebnis – die „Antwort der Crew“ – ist deshalb keine Abstimmung und kein Durchschnitt der Einzelantworten. Sie ist der Versuch, aus den unterschiedlichen Perspektiven die bestmögliche Antwort auf die ursprüngliche Frage zu entwickeln.