August 2023

Benchmarks für ChatGPT & Co:

Ein weißes tablet das eine Tabelle zeigt, welche die Werte für das Large Language Model Leaderboard für den August 2023 zeigt

Monatlich aktualisiert: Das Trustbit LLM Leaderboard bietet Ihnen einen aktuellen Vergleich verschiedener Large Language Models wie ChatGPT und mehr, um deren Eignung für den Einsatz in der Produktentwicklung zu bewerten.

Trustbit Leaderboard
August 2023

model code crm docs integrate marketing reason final
OpenAI GPT4 v2-0613 💰 85 94 100 67 88 60 82
OpenAI GPT4 v1-0314 💰 76 97 89 67 75 76 80
Claude v1 💰 62 77 69 58 88 61 69
OpenAI GPT3.5 v2-0613 💰 49 77 84 83 84 39 69
Open Models 46 62 62 100 84 22 63
Llama2 13B Nous Hermes q5_K_M ✅ 46 62 62 100 56 21 58
Claude v2 💰 38 58 41 67 82 51 56
Claude v1 instant 💰 72 54 47 67 55 17 52
Vicuna v1.1 13B q4_1 30 45 57 83 71 19 51
Vicuna v1.1 13B q8_0 31 45 52 42 84 16 45
Vicuna v1.3 13B q5_1 36 51 47 50 61 19 44
Vicuna v1.1 13B q5_1 31 45 42 33 84 18 42
Puffin v1.3 13B q5_K_M ✅ 28 48 53 33 25 22 35
Wizard Vicuna 13B Unlocked q5_K_M 22 39 53 33 56 0 34
Llama2 13B Guanaco q5_1 ✅ 19 42 62 17 38 0 30
Llama 7B q8_0 25 30 28 25 50 0 26
Llama 13B q5_1 34 9 38 17 44 9 25
Llama2 7B chat ✅ 7 33 11 17 62 14 24
Llama2 7B chat Unlocked q8_0 ✅ 14 33 33 33 25 0 23
Llama2 13B chat q8_0 ✅ 7 33 17 0 66 11 22
Open Llama 7B instruct q8_0 16 17 38 17 22 14 21
Llama 13B q2_K 0 5 47 33 25 0 19
Llama2 7B ✅ 18 0 0 0 0 0 3

Die Benchmark-Kategorien im Detail

  • Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?

  • Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?

  • Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?

  • Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?

  • Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?

  • Kann das Modell Code generieren und bei der Programmierung helfen?

Neuste Versionen von ChatGPT, Anthropic Claude und Meta LlaMA auf dem Markt

Seit der Veröffentlichung des Trustbit Juli-Rankings gab es mehrere interessante Neuheiten.

  • OpenAI hat neue Versionen von ChatGPT (v0613) herausgebracht, die Effizienzsteigerungen und JavaScript-function calling conventions bieten.

  • Anthropic hat die zweite Ausgabe von Claude veröffentlicht - den engsten kommerziellen Konkurrenten von OpenAI ChatGPT.

  • Meta hat die zweite Generation von LLaMA - Llama v2 - eingeführt.

Jede dieser Veröffentlichungen verspricht bedeutsame Verbesserungen in den Fähigkeiten großer Sprachmodelle. Wir haben für Sie analysiert, ob sich ein Upgrade jedoch wirklich lohnt und was es zu beachten gibt.

OpenAI ChatGPT-4 0613: kann upgegradet werden

In unseren Tests schneidet die neue Version von ChatGPT-4 etwas besser ab als die vorherige Version. Sie hat einen spürbaren Geschwindigkeitsschub erhalten, die Leistung bei Aufgaben im Zusammenhang mit Code und Marketing hat sich signifikant verbessert. Allerdings ist gleichzeitig die Fähigkeit zur Schlussfolgerung und zur Arbeit mit Dokumenten leicht gesunken.

Wenn Sie die bestmögliche Leistung von Ihrem wissensorientierten Unternehmensassistenten herausholen möchten, könnte es sich lohnen, bei der Migration vorsichtig vorzugehen.

Anthropic Claude v2 hat in unseren Tests spürbar schlechter abgeschnitten. Es scheint, als wäre er darauf abgestimmt worden, ein besseres Chat-Bot zu sein, auf Kosten der Produktfähigkeiten.

Wenn möglich, empfehlen wir, Claude v1 weiterhin zu verwenden, bis die zweite Version sich weiter verbessert.

Anthropic Claude v2:
nicht upgraden

Meta Llama v2:
upgrade empfohlen

Das Llama v2-Modell ist ein offenes Modell von Meta (Facebook) mit einer kommerziell großzügigen Lizenz. Diese Lizenz macht das Modell endlich für ernsthafte Projekte nutzbar.

Llama v2 sollte ein besseres Modell sein. Allerdings performt das Basismodell signifikant schlechter als das Basismodell von v1. Die Hauptursache dafür ist, dass es ebenfalls zu gesprächig ist und sensibel auf Promts reagiert. Das Basismodell dominiert die unteren Ränge unserer Rangliste.

Doch bei offenen Modellen bedeuten schlechte Ergebnisse nicht das Ende der Geschichte. Sie können von der Community weiter trainiert werden.

Nous Research hat ihre eigene feinabgestimmte Version von Llama v2 veröffentlicht, die Nous Hermes genannt wird. Hermes übertrifft nicht nur Vicuna, sondern holt auch Claude v2 ein.

Was ist ein Leaderboard?

Ein Leaderboard ist eine Rangliste oder Tabelle, die verschiedene Elemente, Personen oder Produkte basierend auf bestimmten Kriterien miteinander vergleicht und ordnet. Es dient dazu, eine übersichtliche Darstellung der Leistung oder Eigenschaften der aufgeführten Elemente zu bieten und ermöglicht es den Betrachtern, schnell zu erkennen, welche Elemente an der Spitze stehen oder am besten abschneiden.

Wobei hilft mir das Trustbit LLM Leaderboard?

Das LLM Leaderboard von Trustbit hilft Ihnen dabei, das aktuell optimalste Large Language Model für den Einsatz im Bereich Produktentwicklung zu finden. Die von uns erstellte Scoring-Liste basiert auf realen Benchmarks, die wir aus von uns entwickelten Softwareprodukten extrahiert haben. Sie bewertet die Fähigkeiten der verschiedenen LLM-Modelle, spezifische Aufgaben in der Produktentwicklung zu erfüllen.

Welche Kategorien werden verglichen?

Folgende Kategorien stehen Ihnen zur Verfügung, um die Fähigkeiten der unterschiedlichen Modelle zu bewerten:

  • Dokumente: Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?

  • CRM: Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?

  • Integration: Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?

  • Marketing: Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?

  • Schlussfolgerungen: Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?

  • Code: Kann das Modell Code generieren und bei der Programmierung helfen?

Sie möchten mehr über den Einsatz von ChatGPT und Co erfahren?

Dann freuen wir uns, von Ihnen zu hören.

christoph.hasenzagl@trustbit.tech

+43 664 88454881