Waimia.
§ PRODUCT · SKU WAI-DATA-001

Dataset Benchmark LLM FR. 1 000 prompts évalués en contexte francophone

Dataset de 1 000 prompts évalués sur Claude, GPT-4o, Gemini Pro et Mistral Large en contexte PME francophone : scores qualité, latence, coût et biais culturels mesurés.

€99 pack-zip
Acheter →

Bénéfices

  • 1 000 prompts métier catégorisés (rédaction, analyse, code, juridique, RH, commercial) évalués sur 4 LLM majeurs
  • Scores de qualité sur 5 dimensions : pertinence, précision, format, ton, conformité RGPD
  • Données de latence (p50, p95) et coût par prompt par modèle (tokens input/output)
  • Analyse des biais culturels francophones détectés (argot, références, exemples non-FR)
  • Fichier CSV + notebook Jupyter d'analyse prêt à l'emploi
  • Méthodologie d'évaluation documentée et reproductible

FAQ

Quand ce benchmark a-t-il été réalisé ?
Évaluation réalisée en avril-mai 2026 sur les modèles GA disponibles à cette date. Une mise à jour semestrielle est prévue.
Ce dataset peut-il être utilisé pour fine-tuner un modèle ?
Oui, pour usage interne. La licence interdit la redistribution ou la revente des données brutes.

FR : Dataset Benchmark LLM FR

1 000 prompts métier évalués en contexte PME francophone sur Claude 3.5 Sonnet, GPT-4o, Gemini 1.5 Pro et Mistral Large. Chaque entrée du dataset inclut le prompt original, les sorties des 4 modèles, les scores sur 5 dimensions qualité, les données de latence et de coût réel, et les observations sur les biais culturels francophones. Livré en CSV structuré avec un notebook Jupyter d’analyse prêt à l’emploi. La méthodologie d’évaluation est entièrement documentée et reproductible pour vos propres benchmarks internes.

EN : French LLM Benchmark Dataset

1,000 business prompts evaluated in a French-speaking SMB context on Claude 3.5 Sonnet, GPT-4o, Gemini 1.5 Pro, and Mistral Large. Each dataset entry includes the original prompt, outputs from all 4 models, scores on 5 quality dimensions, real latency and cost data, and observations on French-speaking cultural biases. Delivered as a structured CSV with a ready-to-use Jupyter analysis notebook. The evaluation methodology is fully documented and reproducible for your own internal benchmarks.