Optimisation de l'IA : Inferact veut rendre l'inférence accessible à tous
Le déploiement de l'IA coûte cher. Inferact vient de lever 150 millions de dollars pour commercialiser une technologie capable de diviser les coûts d'inférence par dix.
Dans la course à l'intelligence artificielle, posséder le meilleur modèle n'est que la moitié de la bataille. L'autre défi, colossal, est de faire fonctionner ces modèles de manière efficace et économique. C'est ici qu'intervient Inferact. La startup vient de lever 150 millions de dollars pour commercialiser et optimiser vLLM, une bibliothèque logicielle révolutionnaire qui permet d'accélérer radicalement l'inférence des modèles de langage tout en réduisant la consommation de ressources GPU.La révolution technologique derrière vLLML'innovation du PagedAttentionLe cœur de la technologie d'Inferact repose sur l'algorithme PagedAttention. En s'inspirant de la gestion de la mémoire virtuelle dans les systèmes d'exploitation classiques, PagedAttention permet de gérer la mémoire KV (Key-Value) des modèles d'IA de manière beaucoup plus flexible. Cela élimine la fragmentation de la mémoire et permet de traiter jusqu'à 24 fois plus de requêtes simultanément sur le même matériel. Pour les entreprises, cela signifie une réduction drastique de la facture cloud.Un support multi-modèle et open sourceInferact ne se contente pas de supporter un seul type d'IA. Sa solution est compatible avec la majorité des modèles open source populaires comme Llama de Meta ou Mistral. Cette approche agnostique permet aux entreprises de changer de modèle sans avoir à reconstruire toute leur infrastructure de déploiement. L'engagement de la startup envers l'open source a créé un effet de réseau puissant, attirant les développeurs du monde entier.L'enjeu commercial de l'inférencePasser de la recherche à la productionDe nombreuses entreprises ont des prototypes d'IA impressionnants, mais peinent à les déployer à l'échelle pour des millions d'utilisateurs à cause des coûts de serveur prohibitifs. Inferact s'adresse directement à ce goulot d'étranglement. Avec les 150 millions de dollars fraîchement levés, la startup prévoit de développer une plateforme « as-a-service » ultra-performante, permettant de déployer des modèles complexes en quelques clics avec des performances garanties.La guerre des puces et le logiciel salvateurAlors que la pénurie de GPU Nvidia continue de ralentir certains acteurs, l'optimisation logicielle devient une arme stratégique. Si vous pouvez faire la même chose avec deux fois moins de puces, vous avez un avantage compétitif majeur. C'est la promesse d'Inferact : transformer le logiciel en un multiplicateur de puissance matérielle.Conclusion : L'infrastructure, prochain champ de bataille de l'IAL'investissement massif dans Inferact prouve que le marché de l'IA entre dans une phase de maturité. L'accent se déplace de la création de modèles vers l'efficacité opérationnelle. En se positionnant comme le leader de l'inférence optimisée, Inferact pourrait devenir un acteur incontournable de la chaîne de valeur de l'intelligence artificielle, au même titre que les fournisseurs de cloud ou les fabricants de puces.