Facteurs à prendre en compte lors du test de précision des chatbots IA

L'IA a parcouru un long chemin depuis la production de résultats inappropriés et incohérents pour devenir plus sophistiquée. Les chatbots modernes utilisent des modèles de langage avancés qui répondent à des questions de connaissances générales, rédigent de longs articles et écrivent du code, entre autres tâches complexes.

Malgré ces avancées, notez que même les systèmes les plus avancés ont des limites. L'intelligence artificielle fait encore des erreurs. Pour déterminer quels chatbots sont les moins susceptibles d'halluciner, vous pouvez tester leur précision en fonction de ces facteurs. Vérifier La plupart des chatbots basés sur l'IA pour parler et s'amuser.

Intelligence artificielle | Tester les chatbots 1 | 1CAUb1Fi9z8UeIypcUZx8kA DzTechs

1. Arithmétique mathématique

Vous devriez commencer à ajouter des équations mathématiques via des chatbots. Il testera la capacité du modèle à analyser des problèmes de mots, à traduire des concepts mathématiques et à appliquer des fonctions correctes. Seuls quelques modèles montrent la fiabilité du compte. En fait, l'un des pires problèmes de ChatGPT au cours des premiers mois était la terrible compréhension des mathématiques.

L'image ci-dessous montre les statistiques de base en échec de ChatGPT.

Intelligence artificielle | Test des chatbots 2 | 1C5LR73cwdU3IN8jN21MBvw DzTechs

ChatGPT a montré une amélioration après le déploiement Mises à jour OpenAI de mai 2023. Mais étant donné des ensembles de données limités, vous rencontrerez toujours des problèmes avec les équations mathématiques intermédiaires à avancées.

Intelligence artificielle | Test des chatbots 3 | 1k91J5bD4FMiztnOoNKSrNw DzTechs

Pendant ce temps, Bing Chat et Google Bard montrent une meilleure approche de l'arithmétique. Il exécute des requêtes via ses moteurs de recherche, ce qui lui permet d'extraire des fonctions et des détails de réponses.

Intelligence artificielle | Test des chatbots 4 | 1cLWafHZxEchJoQoGoLmYRw DzTechs

Astuce: Essayez de paraphraser les problèmes mathématiques. évitez les phrases interminables et remplacez les verbes faibles; Sinon, les chatbots pourraient mal comprendre vos questions.

2. La compréhension

Les modèles d'IA modernes peuvent effectuer plusieurs tâches. Les LLM avancés lui permettent de conserver les instructions précédentes et de répondre aux invites par section, tandis que les systèmes plus anciens traitent les commandes individuelles. Par exemple, Siri répond à une question à la fois.

Nourrissez les chatbots de trois à cinq tâches à la fois pour tester leur capacité à analyser les réclamations complexes. Les modèles moins sophistiqués ne peuvent pas traiter autant d'informations. L'image ci-dessous montre que HuggingChat se bloque sur une invite en trois étapes - il s'arrête à la première étape et s'écarte du sujet.

Intelligence artificielle | Test des chatbots 5 | 1qXySuYqVk9vrkH bfD5GEA DzTechs

Les dernières lignes de HuggingChat sont vraiment incohérentes.

Intelligence artificielle | Test des chatbots 6 | 1X f3pgLWhqn 3fCeFae6pw DzTechs

ChatGPT complète rapidement la même invite, ce qui donne des réponses intelligentes et sans erreur à chaque étape.

Intelligence artificielle | Tester les chatbots 7 | 1Zxagl L4knjq51JeWIQ6lg DzTechs

Bing Chat fournit une réponse condensée aux trois étapes. Ses restrictions strictes interdisent les sorties inutilement longues qui gaspillent la puissance de traitement.

Intelligence artificielle | Tester les chatbots 8 | 15dnCQ0a55tkbCBOMW4q1Tw DzTechs

3. Actualité des informations

Étant donné que la formation à l'IA coûte d'énormes ressources, la plupart des développeurs limitent les ensembles de données à des intervalles spécifiques. Prenez ChatGPT comme exemple. Il a une date d'échéance connue de septembre 2021 - vous ne pouvez pas demander de mises à jour météorologiques, de bulletins d'information ou de développements récents. Voici ChatGPT et il dit qu'il ne peut pas accéder aux informations en temps réel.

Intelligence artificielle | Tester les chatbots 9 | 1p aEHlqbfzXNEyxqR ab2A DzTechs

Barde a accès à Internet. Il extrait les données des SERP de Google, ce qui vous permet de poser un ensemble plus large de questions, par exemple des événements récents, des actualités et des prévisions.

Intelligence artificielle | Test des chatbots 10 | 1O9YDbtT4MspiaNFC5GdgCw DzTechs

De même, Bing Chat extrait des informations en temps réel de son moteur de recherche.

Intelligence artificielle | Tester les chatbots 11 | 1tRDM2ADlShuUW36sXeFPIA DzTechs

Bing Chat et Bard fournissent tous deux des informations actualisées et en temps opportun, mais ce dernier fournit des réponses plus détaillées. Bing fournit les données telles quelles. Vous remarquerez que les résultats correspondent souvent au libellé et au ton des sources auxquelles ils sont liés textuellement. Vérifier Comparaison Bard, ChatGPT et Offline Alpaca : quel est le meilleur paradigme de grande langue ?

4. Pertinence

Les chatbots doivent fournir un résultat pertinent et attendu. Vous devez tenir compte de la signification littérale et contextuelle de vos revendications lorsque vous fournissez la réponse correspondante. Prenez cette conversation comme exemple. Le personnage a besoin d'un nouveau téléphone, mais il ne dispose que de 1000 XNUMX $. ChatGPT ne dépasse pas son budget.

Intelligence artificielle | Tester les chatbots 12 | 13XpVnMgQOogRTmVBuCF7xA DzTechs

Lors du test d'ajustement, essayez de rédiger de longues instructions. Les chatbots moins sophistiqués ont tendance à dévier lorsqu'ils reçoivent des instructions confuses. Par exemple, HuggingChat peut composer des histoires fictives. Mais cela peut s'écarter du sujet principal si vous définissez trop de règles et de lignes directrices.

Intelligence artificielle | Tester les chatbots 13 | 1bsEtO5Vbx pkhex0RFvOGg DzTechs

5. Mémoire contextuelle

La mémoire contextuelle aide l'IA à produire une sortie précise et fiable. Au lieu de prendre vos questions au pied de la lettre, il regroupe les détails que vous avez mentionnés. Prenez cette conversation comme exemple. Bing Chat relie deux messages distincts pour former une réponse utile et concise.

Intelligence artificielle | Tester les chatbots 14 | 1thjp5oLIYN36DpZyVrqG6w ​​​​DzTechs

De même, la mémoire contextuelle permet aux chatbots de se souvenir des instructions. Cette image montre ChatGPT simulant la façon dont un personnage fictif parle pendant de nombreux chats.

Intelligence artificielle | Tester les chatbots 15 | 1NPp c2YccmEl1im4jsM1Pg DzTechs

Testez vous-même cette fonctionnalité en vous référant constamment aux instructions précédentes. Donnez aux chatbots différentes informations, puis forcez-les à s'en souvenir dans les réponses suivantes.

Note: La mémoire contextuelle est limitée. Bing Chat démarre de nouvelles conversations tous les 20 tours, tandis que ChatGPT ne peut pas gérer les réclamations de plus de 3000 jetons. Vérifier Quelle est la limite de jetons ChatGPT et pouvez-vous la contourner ?

6. Restrictions de sécurité

L'intelligence artificielle ne fonctionne pas toujours comme prévu. Une formation incorrecte peut amener les techniques d'apprentissage automatique à commettre diverses erreurs, allant de simples erreurs arithmétiques à des commentaires problématiques. Prenez Microsoft Tay comme exemple. Les utilisateurs de Twitter ont profité du modèle d'apprentissage non supervisé et l'ont conditionné en prononçant des insultes raciales.

Heureusement, les entreprises technologiques mondiales ont appris de l'énorme erreur de Microsoft. Bien que l'apprentissage non supervisé soit rentable et pratique, il laisse également les systèmes d'IA ouverts à la tromperie. Ainsi, les développeurs s'appuient principalement sur l'apprentissage supervisé de nos jours. Les chatbots comme ChatGPT apprennent toujours des conversations, mais les formateurs filtrent d'abord les informations.

Attendez-vous à des conseils différents de la part des entreprises d'IA. Les restrictions moins strictes de ChatGPT s'adaptent à un plus large éventail de tâches, mais il est vulnérable à l'exploitation. Pendant ce temps, Bing Chat suit des limites plus strictes. Bien qu'ils aident à combattre les tentatives d'exploitation, ils entravent également la fonctionnalité. Bing ferme automatiquement les conversations potentiellement malveillantes. Vérifier ChatGPT apprend-il des conversations des utilisateurs ?

7. Biais de l'IA

L'IA est intrinsèquement neutre. Son manque de préférences et d'émotions le rend incapable de se forger une opinion - c'est juste une façon de présenter les informations que vous connaissez. Voici comment ChatGPT répond aux sujets personnels.

Intelligence artificielle | Tester les chatbots 16 | 1sen8RXvlQI1eH0c1PiSrNQ DzTechs

Malgré cette neutralité, des biais d'IA émergent encore. Ils découlent des modèles, des ensembles de données, des algorithmes et des modèles que les développeurs utilisent. L'IA peut être neutre, mais les humains ne le sont pas.

Par exemple, une organisation appelée Brookings Institution Ce ChatGPT montre des préjugés politiques de gauche. OpenAI nie bien sûr les allégations. Mais pour éviter des problèmes similaires avec les modèles plus récents, ChatGPT évite complètement les sorties opiniâtres.

Intelligence artificielle | Tester les chatbots 17 | 1sJkdbAnUMM551EQCNUruGQ DzTechs

De même, Bing Chat évite les sujets sensibles et subjectifs.

Intelligence artificielle | Tester les chatbots 18 | 1YaYutzSNIFyQsVmv o4V1Q DzTechs

L'IA peut être évaluée sur la partialité en posant des questions ouvertes basées sur l'opinion. Parlez de sujets qui n'ont pas de bonne ou de mauvaise réponse - les chatbots moins sophistiqués sont plus susceptibles d'afficher des préférences infondées envers certains groupes. Vérifier Comment les chatbots influencent la création de contenu.

8. Références

L'IA vérifie rarement les faits. Il extrait simplement les informations de ses ensembles de données et les paraphrase à travers des modèles de langage. Malheureusement, l'entraînement limité fait halluciner l'IA. Vous pouvez toujours utiliser des outils d'IA générative pour effectuer des recherches, mais assurez-vous de vérifier les faits vous-même. Prenez la sortie comme une directive.

Bing Chat simplifie la vérification des faits en répertoriant ses références après chaque sortie.

Intelligence artificielle | Tester les chatbots 19 | 1Q3SUJtzSPrJ1XcIiK pmyA DzTechs

Bard AI ne répertorie pas ses sources mais crée des explications détaillées et à jour en exécutant des requêtes de recherche Google. Vous obtiendrez les principaux points des SERP.

Intelligence artificielle | Test des chatbots 20 | 1kT6Hcv9eJOdA Zp0rx8e8g DzTechs

ChatGPT est sujet à des inexactitudes. L'interruption des connaissances en 2021 l'empêche de répondre aux questions sur les événements et incidents récents.

Intelligence artificielle | Tester les chatbots 21 | 1XqH c4uKcaUIjtvyVsBkZw DzTechs

Vérifier Quelques gros problèmes avec ChatGPT d'OpenAI.

Créez de nouvelles façons de tester la précision des chatbots

L'intelligence artificielle n'est ni l'être ni la fin de toutes les technologies. Bien que les systèmes d'IA et les modèles de langage sophistiqués réalisent des exploits impressionnants, ils font également des erreurs et des incohérences. Affichez les chatbots devant votre avis. Vous ne pouvez utiliser les plates-formes d'IA que si vous comprenez leurs fonctionnalités et leurs limites.

Bien qu'il existe des dizaines de chatbots multiplateformes, leur fiabilité et leur précision peuvent vous décevoir. Vous ne perdrez que du temps à le tester. Pour garantir des résultats de haute qualité, nous vous suggérons de vous concentrer sur les trois modèles les plus puissants du marché : ChatGPT, Bing AI et Google Bard.

DzTech

Je suis ingénieur d'état avec une vaste expérience dans les domaines de la programmation, de la création de sites internet, du référencement et de la rédaction technique. Je suis passionné par la technologie et me consacre à fournir des informations de qualité au public. Je peux devenir une ressource plus précieuse pour les utilisateurs qui recherchent des informations précises et fiables sur les critiques de produits et les applications spécialisées dans divers domaines. Mon engagement inébranlable envers la qualité et l’exactitude garantit que les informations fournies sont dignes de confiance et utiles au public. La recherche constante de connaissances me pousse à me tenir au courant des dernières évolutions technologiques, en veillant à ce que les idées partagées soient véhiculées de manière claire et accessible.
Aller au bouton supérieur