Token Counting : comprendre les tokens GPT et optimiser vos couts
Les tokens, c est comme les secondes de votre API OpenAI. Comprendre comment ils marchent = economiser 30 50 pourcent.
Les tokens sont l unite de facturation d OpenAI. Pas de comprehension des tokens = facture surprise.
1 token approximativement 4 caracteres en anglais
Hello world = 3 tokens
Bonjour le monde = 4 tokens (francais plus verbeux)
Pricing
GPT 4 turbo :
Input : 0.01 euro par 1K tokens
Output : 0.03 euro par 1K tokens
GPT 3.5 :
Input : 0.0005 euro par 1K tokens
Output : 0.0015 euro par 1K tokens
Cas reel : RAG query
Input :
Votre prompt : 100 tokens
Retrieved context 5 docs fois 200 words : 1500 tokens
Total input : 1600 tokens = cout 0.016 euro
Output :
Response : 300 tokens = cout 0.009 euro
Total par query : 0.025 euro
Si vous avez 1000 queries par jour : 25 euros par jour = 750 euros par mois
Comment optimiser ?
1. Compression de contexte
Au lieu de 5 docs complets, prendre les chunks pertinents.
Economies : 60 70 pourcent sur les tokens input.
2. Prompt engineering
Specifier la limite plutot que juste resumer.
Economies : 20 30 pourcent sur les tokens output.
3. Caching des prompts
Reutiliser le meme system prompt pour 100 queries.
Economies : 10 20 pourcent.
4. GPT 3.5 quand possible
Pour des taches simples, GPT 3.5 est suffisant et 20x moins cher.
Economies : 95 pourcent sur les couts.
Benchmark : Couts reels pour 100K queries
Sans optimisation :
GPT 4 plus contexte long : 2500 euros
Avec optimisation :
GPT 3.5 plus contexte court : 400 euros
Economies : 2100 euros par mois plus 45 pourcent plus rapide.
Comptez vos tokens actuels. Identifiez le plus gros consommateur. Optimisez d abord.
Source de référence
Blog Masterclass IA
Passez à la pratique
Maîtrisez l'IA avec nos masterclasses.
Dès 29€ · Accès à vie · Applicable dès demain
Voir le catalogue