Envoyer une nouvelle - Informaticien.be

Claude 3.7 Sonnet est le modèle « le plus puissant » du marché. Mais pour co...

Publié le: 26/02/2025 @ 13:27:38: Par Nic007 Dans "Programmation"

Anthropic vient d’annoncer Claude 3.7 Sonnet , son nouveau modèle d’IA qui représente un énorme bond en avant dans un domaine qui continue de progresser à un rythme vertigineux. Et l’amélioration est si remarquable qu’elle « surclasse » des concurrents comme le 03-mini, le Grok 3 de xAI ou le DeepSeek R1 . La principale nouveauté de la version 3.7, qui suit le chemin actuellement emprunté par l'industrie de lancer des modèles qui raisonnent et sont capables d'effectuer différentes opérations, est qu'il s'agit d'un type de raisonnement « hybride ». En pratique, comme l’explique Anthropic, aujourd’hui, lorsque nous utilisons un modèle d’IA , nous devons choisir entre un raisonnement approfondi et une réponse rapide , avec des coûts et des capacités différents. Le Sonnet Claude 3.7 nous sauve de ce « désagrément », car il est capable de fournir à la fois des réponses en temps réel et des réponses plus raisonnées. Actuellement, l’utilisateur demande au modèle de basculer entre les modes , mais à l’avenir, Anthropic souhaite que Claude « détermine » combien de temps il doit réfléchir à une question.

Cette approche, combinée au potentiel du modèle, est extrêmement efficace. Dans les benchmarks partagés par Anthropic, le Claude 3.7 Sonnet est capable de surpasser la plupart des autres modèles du marché. Quelques exemples sont SWE-Bench , qui mesure les tâches d'encodage de mots du monde réel (62,3 % contre 49,3 % pour o3-mini), ou TAU-Bench , qui mesure la capacité d'un modèle à interagir avec des utilisateurs simulés et des API externes dans un environnement de vente au détail (81,2 % contre 73,5 % pour o1). À partir de divers tests sur le terrain, les réponses de Claude 3.7 Sonnet se sont avérées conformes à celles de Grok 3 de xAI et meilleures que celles des autres modèles du marché, mais le modèle n'est pas capable d'effectuer une recherche Web en temps réel comme les autres modèles, et ses connaissances sont à jour en octobre 2024 .

Claude est également désormais moins susceptible de ne pas répondre aux questions : Anthropic affirme avoir réduit le gaspillage inutile de 45 % par rapport à Claude 3.5 Sonnet (cette approche est également courante parmi d'autres développeurs de modèles d'IA). Mais il y a un domaine spécifique dans lequel 3.7 Sonnet excelle : la programmation. C'est pour cette raison qu'Anthropic a introduit un agent spécifique pour ces opérations appelé Claude Code, capable de modifier le code en langage naturel. L'agent décrira ses modifications, testera le projet pour détecter les bugs ou même le poussera vers un référentiel GitHub. Tout cela ne sera pas gratuit et ne coûtera pas très cher. Anthropic rendra disponible lundi Claude 3.7 Sonnet , mais seuls les abonnés Claude Pro (18 euros par mois) ou Team (28 euros par mois pour 5 utilisateurs) pourront accéder aux fonctionnalités de raisonnement (Extended), tandis que les utilisateurs gratuits pourront accéder à la version du modèle qui n'affiche pas son raisonnement.

L'API coûte 3 $ par million de jetons d'entrée (environ 750 000 mots) et 15 $ par million de jetons de sortie, soit plus que o3-mini (1,10 $ / 4,40 $) et DeepSeek R1 (0,55 $ / 2,19 $). Le problème est que l’industrie progresse si rapidement qu’il n’est même plus judicieux de déterminer qui est « le meilleur ». OpenAI va bientôt publier ChatGPT 4.5 et 5 , qui suivent le même chemin que Claude 3.7 Sonnet , c'est-à-dire un modèle unique (et hybride) capable de tout faire.

Envoyer une nouvelle à un ami

Sujet:
Email:
Texte: