Shaberi3 ベンチマーク

LLMパフォーマンス比較ダッシュボード

あなたのベンチマーク結果を可視化したい場合は、shaberi/results/totals.csvをアップロードしてください

Select Models

Select Metrics

chatgpt-4o-latestclaude-3-5-sonnet-20241022o1-mini-2024-09-12gpt-4o-2024-05-13gemini-1.5-pro-exp-08277.57.98.39.0ScoreEvaluator : gemini-1.5-flash-exp-0827
  • Weighted Mean
  • ELYZA-tasks-100
  • MT-Bench
  • Tengu-Bench