Dataset Benchmark LLM FR. 1 000 prompts évalués en contexte francophone
Dataset de 1 000 prompts évalués sur Claude, GPT-4o, Gemini Pro et Mistral Large en contexte PME francophone : scores qualité, latence, coût et biais culturels mesurés.
Bénéfices
- 1 000 prompts métier catégorisés (rédaction, analyse, code, juridique, RH, commercial) évalués sur 4 LLM majeurs
- Scores de qualité sur 5 dimensions : pertinence, précision, format, ton, conformité RGPD
- Données de latence (p50, p95) et coût par prompt par modèle (tokens input/output)
- Analyse des biais culturels francophones détectés (argot, références, exemples non-FR)
- Fichier CSV + notebook Jupyter d'analyse prêt à l'emploi
- Méthodologie d'évaluation documentée et reproductible
FAQ
- Quand ce benchmark a-t-il été réalisé ?
- Évaluation réalisée en avril-mai 2026 sur les modèles GA disponibles à cette date. Une mise à jour semestrielle est prévue.
- Ce dataset peut-il être utilisé pour fine-tuner un modèle ?
- Oui, pour usage interne. La licence interdit la redistribution ou la revente des données brutes.
FR : Dataset Benchmark LLM FR
1 000 prompts métier évalués en contexte PME francophone sur Claude 3.5 Sonnet, GPT-4o, Gemini 1.5 Pro et Mistral Large. Chaque entrée du dataset inclut le prompt original, les sorties des 4 modèles, les scores sur 5 dimensions qualité, les données de latence et de coût réel, et les observations sur les biais culturels francophones. Livré en CSV structuré avec un notebook Jupyter d’analyse prêt à l’emploi. La méthodologie d’évaluation est entièrement documentée et reproductible pour vos propres benchmarks internes.
EN : French LLM Benchmark Dataset
1,000 business prompts evaluated in a French-speaking SMB context on Claude 3.5 Sonnet, GPT-4o, Gemini 1.5 Pro, and Mistral Large. Each dataset entry includes the original prompt, outputs from all 4 models, scores on 5 quality dimensions, real latency and cost data, and observations on French-speaking cultural biases. Delivered as a structured CSV with a ready-to-use Jupyter analysis notebook. The evaluation methodology is fully documented and reproducible for your own internal benchmarks.