Publié le: 26/02/2025 @ 13:27:38: Par Nic007 Dans "Programmation"

Cette approche, combinée au potentiel du modèle, est extrêmement efficace. Dans les benchmarks partagés par Anthropic, le Claude 3.7 Sonnet est capable de surpasser la plupart des autres modèles du marché. Quelques exemples sont SWE-Bench , qui mesure les tâches d'encodage de mots du monde réel (62,3 % contre 49,3 % pour o3-mini), ou TAU-Bench , qui mesure la capacité d'un modèle à interagir avec des utilisateurs simulés et des API externes dans un environnement de vente au détail (81,2 % contre 73,5 % pour o1). À partir de divers tests sur le terrain, les réponses de Claude 3.7 Sonnet se sont avérées conformes à celles de Grok 3 de xAI et meilleures que celles des autres modèles du marché, mais le modèle n'est pas capable d'effectuer une recherche Web en temps réel comme les autres modèles, et ses connaissances sont à jour en octobre 2024 .
Claude est également désormais moins susceptible de ne pas répondre aux questions : Anthropic affirme avoir réduit le gaspillage inutile de 45 % par rapport à Claude 3.5 Sonnet (cette approche est également courante parmi d'autres développeurs de modèles d'IA). Mais il y a un domaine spécifique dans lequel 3.7 Sonnet excelle : la programmation. C'est pour cette raison qu'Anthropic a introduit un agent spécifique pour ces opérations appelé Claude Code, capable de modifier le code en langage naturel. L'agent décrira ses modifications, testera le projet pour détecter les bugs ou même le poussera vers un référentiel GitHub. Tout cela ne sera pas gratuit et ne coûtera pas très cher. Anthropic rendra disponible lundi Claude 3.7 Sonnet , mais seuls les abonnés Claude Pro (18 euros par mois) ou Team (28 euros par mois pour 5 utilisateurs) pourront accéder aux fonctionnalités de raisonnement (Extended), tandis que les utilisateurs gratuits pourront accéder à la version du modèle qui n'affiche pas son raisonnement.
L'API coûte 3 $ par million de jetons d'entrée (environ 750 000 mots) et 15 $ par million de jetons de sortie, soit plus que o3-mini (1,10 $ / 4,40 $) et DeepSeek R1 (0,55 $ / 2,19 $). Le problème est que l’industrie progresse si rapidement qu’il n’est même plus judicieux de déterminer qui est « le meilleur ». OpenAI va bientôt publier ChatGPT 4.5 et 5 , qui suivent le même chemin que Claude 3.7 Sonnet , c'est-à-dire un modèle unique (et hybride) capable de tout faire.
Envoyer une nouvelle à un ami