11 applications innovantes avec OpenAI GPT-4 Vision

Guillaume André

21 novembre, 2023

7 min

APIIntelligence Artificielle

Spoiler, toutes ne sont pas encore exploitables.

Comme vous avez été nombreux à nous faire un retour sur l’article dédié à la sortie de GPT-4 Vision nous avons décidé de pousser nos tests et de vous partager une nouvelle fois nos résultats sur de nouveaux cas d’usage, et ce, malgré la tempête interne que subit OpenAI. L’objectif est d’appréhender correctement le champs des possibles offert par OpenAI et son API Vision.

La détection de sentiments au sein d’une photographie avec GPT-4 Vision ✅

La technologie évolue rapidement, et avec l’avènement de GPT-4 Vision d’OpenAI, une nouvelle ère de traitement d’images s’ouvre devant nous. Parmi les nombreuses applications passionnantes de cette technologie, l’une des plus prometteuses est la détection d’éléments spécifiques dans une image. L’outil peut analyser les éléments visuels pour déchiffrer les émotions qui y sont exprimées par exemple. Cela ouvre des opportunités fascinantes pour comprendre la réaction émotionnelle des individus face à des produits, des campagnes publicitaires ou des contenus visuels.

Dans ce test, on retrouve une classification des sentiments représentés en fonction des profils concernés. Nous aurions pu également demander d’identifier la couleur et le type de vêtement ou tout autre paramètre en lien avec le visuel. Cela fait écho à notre article précédent à découvrir ici.

L’analyse d’images ne se limite pas à la détection de sentiments, elle englobe également la classification de contenus visuels.

La classification de contenus avec GPT-4 Vision ✅

Imaginez la gestion simplifiée de vastes bibliothèques de médias, la création de bases de données visuelles, pour faciliter la recherche et la récupération d’informations, ou encore l’automatisation de la catégorisation de contenu sur les plateformes en ligne.

Dans cette étude de cas, on retrouve une hiérarchisation de la donnée en fonction du type et du nom des images analysées. La classification de contenus promet de transformer la manière dont les entreprises gèrent et exploitent leur contenu visuel, ouvrant la voie à des innovations futures dans la recherche, la gestion électronique de documents (GED), la sécurité, la publicité, la conception de produits, et bien plus encore.

Outre la classification de contenus, GPT-4 Vision peut exceller dans l’analyse de contenus visuels plus complexes.

L’analyse de contenus avec GPT-4 Vision ✅

GPT-4 Vision peut identifier des thèmes récurrents, extraire des informations pertinentes et déterminer les tendances émergentes. Cette capacité est essentielle pour les professionnels du marketing, les chercheurs, et les entreprises cherchant à rester à jour avec les évolutions en ligne.

Cependant, il est essentiel de noter que l’IA peut rencontrer des défis lorsqu’il s’agit d’analyser des situations complexes.

La mise en situation avec GPT-4 Vision ❌

L’IA peut rencontrer des difficultés lorsqu’elle est confrontée à des situations complexes nécessitant une compréhension approfondie du contexte. Les scénarios qui exigent une prise en compte de multiples facteurs, d’informations non visibles dans l’image, ou d’une interprétation subtile des détails peuvent présenter des défis.

Dans cet exemple, “l’interprétation” ne prend pas en compte qu’il s’agit d’un panneau de “fin de priorité”, mais bien l’inverse. Cela résulte que la deuxième réponse est erronée, car elle est confortée par l’idée qu’il s’agit d’un panneau de type “route prioritaire”.

Passons maintenant à l’utilisation de GPT-4 Vision pour vérifier la présence d’éléments spécifiques au sein de pages web.

Vérifier la présence d’un bloc ou un contenu spécifique au sein d’une page web avec GPT-4 Vision ✅

GPT-4 peut parcourir une page web et identifier de manière précise la présence ou l’absence d’un bloc ou d’un contenu spécifique. Que ce soit pour s’assurer de la conformité d’une page aux normes, pour adresser des tests de bout en bout (end-to-end), pour vérifier la disponibilité d’informations cruciales, ou pour automatiser la surveillance de contenu en ligne, cette technologie offre un vrai plus pour les acteurs du numérique.

La reconnaissance de caractères manuscrits via l’OCR de GPT-4 Vision ✅

La reconnaissance optique de caractères (OCR) est une technologie bien connue et essentielle pour extraire des informations à partir de documents manuscrits. GPT-4 Vision d’OpenAI propose une solution avancée pour la reconnaissance de caractères manuscrits, simplifiant ainsi la conversion de textes écrits à la main en formats numériques. En cas d’échec avec l’OCR utilisé, ChatGPT est capable de basculer vers une approche Deep Learning pour réaliser la reconnaissance.

L’OCR de GPT-4 Vision représente une véritable révolution dans la gestion de documents. Elle permet de convertir rapidement et précisément des écrits manuscrits en texte numérique, ouvrant ainsi la voie à une utilisation plus efficace et à une recherche avancée dans les documents manuscrits. Et si vous numérisiez vos notes ?

Générer du code sur base d’une image et d’un framework spécifique avec GPT-4 Vision ❗

La génération de code à partir d’une image peut considérablement réduire le temps nécessaire au développement de logiciels. Les développeurs peuvent ainsi se concentrer sur des aspects plus créatifs et complexes de leurs projets, tandis que GPT-4 Vision s’occupe de la conversion visuelle en code.

Attention toutefois, nous avons tenté l’intégration d’un ButtonGroup, celui-ci n’a pas été concluant. L’IA a en effet interprété l’image comme étant des inputs de type number accolés. Tableaux, mise en page simple, emailing : en se contentant de tâches simples l’IA sera en mesure de répondre à vos attentes.

Résoudre un labyrinthe avec GPT-4 Vision ❌

La résolution de labyrinthes implique souvent la navigation dans des espaces abstraits, où il faut comprendre la géométrie de l’environnement, les obstacles et les chemins possibles. Les IA ont du mal à conceptualiser et à représenter mentalement ces espaces, ce qui rend la résolution de labyrinthes un défi complexe.

Comprendre et synthétiser une carte avec GPT-4 Vision ❌

Les cartes météo sont des représentations graphiques complexes des données météorologiques. Interpréter ces cartes exige une compréhension avancée des symboles, des lignes isobares, des fronts et des systèmes atmosphériques, ce qui peut représenter un défi pour une IA qui ne possède pas une connaissance spécialisée.

Dans le cas présent, les données sont erronées car la localisation des villes est faussée. L’analyse aurait peut-être été positive si les noms des villes étaient explicitement indiqués.

Lire un scanner avec GPT-4 Vision ❗

L’IA comme ChatGPT-4 peut servir d’outil d’assistance aux radiologues et aux médecins. Il peut aider à accélérer le processus d’analyse en triant les images, en mettant en évidence des zones d’intérêt et en fournissant des informations de base. Cela peut permettre aux professionnels de la santé de se concentrer davantage sur les cas complexes. A noter que cette fonctionnalité est qualifié comme étant “limitée” de la part d’OpenAI.

Le résultat est concluant, néanmoins, la lecture des scanners médicaux est une tâche réservée aux professionnels de la santé. L’IA se décharge de toute responsabilité d’un faux positif.

Lire et analyser un graphique avec GPT-4 Vision ❗

L’IA peut interpréter des éléments visuels tels que les barres, les courbes et les légendes pour comprendre la signification d’un graphique démographique. Elle peut identifier des tendances, des variations et des corrélations potentielles dans les données. GPT-4 peut également communiquer les résultats de l’analyse d’un graphique démographique de manière compréhensible pour les utilisateurs. Il peut générer des explications en langage naturel sur ce que représente le graphique, les tendances observées et leurs implications.

Si certain graphique sont parfaitement compris d’autres comme des graphiques de Gantt ne sont pas du tout efficients.

Plus le graphique sera clair et visible, plus il sera simple pour l’IA de le déchiffrer.

Intégrer l’IA d’OpenAI avec GPT-4 Vision au sein de votre propre application

Avec gpt-4-vision-preview OpenAI met l’analyse et la manipulation d’images à la portée de tous. Quand autrefois il fallait entrainer des modèles spécifiques sur base de données souvent difficile à consolider pour chaques type de données, aujourd’hui le paradigme est tout autre. Grâce à l’API d’OpenAI il est devenu possible d’intégrer des scénarii extrêmement puissants et aboutis en très peu d’effort. Par ses API, OpenAI rend l’IA accessible. L’IA devient au fur et à mesure une commodité dont il parait difficile de se passer pour tout éditeur.

Curieux de découvrir plus sur les GPTs d’OpenAI ? Ne manquez pas notre article “Plongée dans l’Univers des GPTs d’OpenAI”. Approfondissez votre connaissance et explorez l’impact et les possibilités infinies de ces technologies révolutionnaires. Votre aventure dans l’intelligence artificielle continue ici !

Vous pensez que l’IA peut booster votre business ? C’est peut-être l’occasion de faire un POC ? Contacter-nous pour analyser ensemble la faisabilité et la mise en œuvre de ce type d’API au sein de votre entreprise ou de votre projet.