Il semble qu'en 2024, Apple entrera enfin dans le secteur de l'intelligence artificielle avec son propre chatbot appelé Apple GPT, mais apparemment, la société de Cupertino ne veut pas suivre le chemin d' autres entreprises , mais veille à ce que le traitement ait lieu directement sur le Téléphone . La nouvelle vient directement d'un article scientifique , qui illustre une technologie innovante d'utilisation de la mémoire flash (celle que vous utilisez pour stocker des photos et des applications) pour vous permettre d'implémenter un grand modèle de langage (LLM) sur des appareils à mémoire limitée . En raison de l'incroyable intensité de données utilisées, les chatbots basés sur LLM tels que ChatGPT et Claude nécessitent de grandes quantités de mémoire pour fonctionner, ce qui implique de devoir baser tous les calculs sur les serveurs des entreprises . Cependant, Apple veut s'assurer que tout se passe sur l'appareil et pour cette raison, il a essayé d'exploiter une caractéristique des téléphones : le fait que la mémoire flash est plus abondante que la RAM traditionnellement utilisée dans les serveurs pour exécuter les LLM.
Pour cette raison, dans l'article intitulé " LLM in a flash: Efficient Large Language Model Inference with Limited Memory ", deux techniques ont été introduites qui d'une part réduisent le transfert de données au minimum et d'autre part maximisent les performances de la mémoire flash. La première s'appelle Windowing, et permet de « recycler » les données déjà traitées au lieu de les recharger à chaque fois : cela réduit le besoin de récupération constante de la mémoire, rendant le processus plus rapide et plus fluide. La seconde a été appelée Row-Column Bundling et permet de regrouper les données plus efficacement afin de les lire plus rapidement à partir de la mémoire flash. Le concept de base revient à lire un livre en morceaux plutôt que mot par mot, et ce système accélère la capacité de l'IA à comprendre et à générer du langage. Le résultat, du moins sur l’article, est étonnant. Ces deux méthodes combinées permettent aux modèles d'IA de fonctionner jusqu'à doubler la mémoire disponible de l'iPhone, ce qui se traduit par une accélération de 4 à 5 fois par rapport aux processeurs standards (CPU) et jusqu'à 20 à 25 fois plus rapide sur les processeurs graphiques (GPU).
Selon les auteurs de l'article, que vous pouvez retrouver dans le lien en dessous de cette actualité , cette découverte constitue une véritable avancée capable de permettre la mise en œuvre de LLM avancés dans des environnements aux ressources limitées. Et apparemment c'est exactement ce que recherche Apple, qui selon les rumeurs les plus récentes entend lancer son propre Apple GPT sur iPhone et iPad fin 2024, avec des fonctionnalités liées à la fois au cloud et - surtout - traitées directement sur le appareil. On sait peu de choses sur ce chatbot " made in Cupertino ", mais apparemment la société Apple vise des fonctionnalités Siri plus avancées , notamment en ce qui concerne l'intégration avec Messages et autres applications propriétaires, mais aussi la traduction linguistique en temps réel et les applications en photographie et augmentée. réalité (après tout, nous savons à quel point Apple vise le nouveau visionOS). Et cela semble être le point clé du projet. Comme pour les systèmes d'exploitation d'Apple, le nouveau Apple GPT , nommé Ajax, serait développé pour intégrer plus profondément l'IA dans l'ensemble de l'écosystème d'Apple.
Pour cette raison, dans l'article intitulé " LLM in a flash: Efficient Large Language Model Inference with Limited Memory ", deux techniques ont été introduites qui d'une part réduisent le transfert de données au minimum et d'autre part maximisent les performances de la mémoire flash. La première s'appelle Windowing, et permet de « recycler » les données déjà traitées au lieu de les recharger à chaque fois : cela réduit le besoin de récupération constante de la mémoire, rendant le processus plus rapide et plus fluide. La seconde a été appelée Row-Column Bundling et permet de regrouper les données plus efficacement afin de les lire plus rapidement à partir de la mémoire flash. Le concept de base revient à lire un livre en morceaux plutôt que mot par mot, et ce système accélère la capacité de l'IA à comprendre et à générer du langage. Le résultat, du moins sur l’article, est étonnant. Ces deux méthodes combinées permettent aux modèles d'IA de fonctionner jusqu'à doubler la mémoire disponible de l'iPhone, ce qui se traduit par une accélération de 4 à 5 fois par rapport aux processeurs standards (CPU) et jusqu'à 20 à 25 fois plus rapide sur les processeurs graphiques (GPU).
Selon les auteurs de l'article, que vous pouvez retrouver dans le lien en dessous de cette actualité , cette découverte constitue une véritable avancée capable de permettre la mise en œuvre de LLM avancés dans des environnements aux ressources limitées. Et apparemment c'est exactement ce que recherche Apple, qui selon les rumeurs les plus récentes entend lancer son propre Apple GPT sur iPhone et iPad fin 2024, avec des fonctionnalités liées à la fois au cloud et - surtout - traitées directement sur le appareil. On sait peu de choses sur ce chatbot " made in Cupertino ", mais apparemment la société Apple vise des fonctionnalités Siri plus avancées , notamment en ce qui concerne l'intégration avec Messages et autres applications propriétaires, mais aussi la traduction linguistique en temps réel et les applications en photographie et augmentée. réalité (après tout, nous savons à quel point Apple vise le nouveau visionOS). Et cela semble être le point clé du projet. Comme pour les systèmes d'exploitation d'Apple, le nouveau Apple GPT , nommé Ajax, serait développé pour intégrer plus profondément l'IA dans l'ensemble de l'écosystème d'Apple.
Liens
Lien (51 Clics)
Plus d'actualités dans cette catégorie