Utilisez le test Feuille de papier vierge pour optimiser le traitement du langage naturel


Si vous tendiez à quelqu’un une feuille de papier vierge et que la seule chose qui y était écrite était le titre de la page, comprendraient-ils ce que le titre voulait dire? Auraient-ils une idée claire de ce que pourrait être le véritable document? Si oui, alors félicitations! Vous venez de passer le test Feuille de papier vierge pour les titres de page car votre titre était descriptif.

le Test de feuille de papier vierge (BSoPT) est une idée dont Ian Lurie a beaucoup parlé au fil des ans, et récemment sur son nouveau site web. C’est un test pour voir si ce que vous avez écrit a un sens pour quelqu’un qui n’a jamais rencontré votre marque ou votre contenu auparavant. Selon Ian, « ce texte, écrit sur une feuille de papier vierge, aura-t-il un sens pour un étranger? » Le test de feuille de papier vierge concerne la clarté sans contexte.

Mais que se passe-t-il si nous effectuons le BSoPT sur une machine plutôt que sur une personne? Notre expérience de pensée s’applique-t-elle toujours? Je le pense. Les machines ne savent pas lire, même les plus sophistiquées comme Google et Bing. Ils ne peuvent que deviner la signification de notre contenu, ce qui rend le test particulièrement pertinent.

J’ai une version alternative du BSoPT, mais pour les machines: si tout ce qu’une machine peut voir est une liste de mots qui apparaissent dans un document et à quelle fréquence, pourrait-elle raisonnablement deviner de quoi parle le document?

Test de feuille de papier vierge pour la fréquence des mots

Si vous tendiez à quelqu’un une feuille de papier vierge et que la seule chose qui y était écrite était ce tableau de mots et de fréquences, pourraient-ils deviner de quoi parlait l’article?

Un article sur l’affûtage d’un couteau est une assez bonne supposition. L’article dont j’ai pris ce tableau de fréquence des mots était un guide pratique pour affûter un couteau de cuisine.

Et si les mots «étape» et «comment» apparaissaient dans le tableau? La personne qui lirait serait-elle plus sûre que cet article concerne l’aiguisage des couteaux, ou moins? Pourraient-ils dire si cet article concerne l’affûtage de couteaux de cuisine ou de couteaux de poche?

Si nous ne pouvons pas avoir une assez bonne idée de l’objet de l’article en fonction des mots qu’il utilise, alors il échoue au BSoPT pour la fréquence des mots.

Pouvons-nous encore utiliser la fréquence des mots pour BERT?

Les approches antérieures de traitement du langage naturel (PNL) utilisées par les moteurs de recherche utilisaient une analyse statistique de la fréquence des mots et de la cooccurrence des mots pour déterminer ce qu’est une page. Ils ont ignoré l’ordre et une partie du discours des mots dans notre contenu, traitant essentiellement nos pages comme des sacs de mots.

Les outils que nous avons utilisés pour optimiser ce type de PNL ont comparé la fréquence des mots de notre contenu par rapport à nos concurrents et nous ont indiqué les lacunes dans l’utilisation des mots. En théorie, si nous ajoutions ces mots à notre contenu, nous serions mieux classés, ou du moins aiderions les moteurs de recherche à mieux comprendre notre contenu.

Ces outils existent toujours: Market Muse, SEMRush, seobility, Ryte et d’autres ont une sorte de fréquence de mots ou de capacité d’analyse des écarts TD-IDF. J’utilise un outil gratuit de fréquence des mots appelé Comparateur de texte en ligne, et cela fonctionne plutôt bien. Sont-ils toujours utiles maintenant que les moteurs de recherche ont avancé avec des approches NLP comme BERT? Je pense que oui, mais ce n’est pas aussi simple que plus de mots = un meilleur classement.

BERT est beaucoup plus sophistiqué qu’une approche de sac de mots. BERT examine l’ordre des mots, une partie du discours et toutes les entités présentes dans notre contenu. Il est robuste et peut être formé pour faire beaucoup de choses, y compris la réponse aux questions et la reconnaissance d’entités nommées, nettement plus avancées que la fréquence de base des mots.

Cependant, le BERT doit toujours regarder les mots présents sur la page pour fonctionner, et la fréquence des mots en est un résumé de base. Maintenant, l’emplacement des mots et une partie du discours importent davantage. Nous ne pouvons pas simplement saupoudrer les mots que nous avons trouvés dans notre analyse des écarts autour de la page.

Améliorer le contenu avec des outils de fréquence de mots

Pour aider à rendre notre contenu non ambigu pour les machines, nous devons le rendre non ambigu pour les utilisateurs. Réduire l’ambiguïté dans notre écriture consiste à choisir des mots spécifiques au sujet sur lequel nous écrivons. Si notre écriture utilise beaucoup de verbes génériques, de pronoms et d’adjectifs non thématiques, alors non seulement notre contenu est fade, mais il est difficile à comprendre.

Considérez cet exemple extrême de langage non spécifique:

«L’astuce pour trouver le bon couteau de chef est de trouver un bon équilibre entre caractéristiques, qualités et prix. Il devrait être fait de métal suffisamment solide pour garder son bord pendant une période décente. Vous devriez avoir une poignée confortable qui ne vous fatiguera pas. Vous n’avez pas non plus besoin de dépenser beaucoup. Le cuisinier à domicile n’a pas besoin d’un couteau japonais de 350 $. « 

Cette copie n’est pas géniale. Il semble presque généré par la machine. Je ne peux pas imaginer un article complet écrit comme celui-ci passerait le BSoPT pour la fréquence des mots.

Voici à quoi ressemble le tableau de fréquence des mots avec certains mots vides supprimés:

Supposons maintenant que nous ayons utilisé un outil de fréquence des mots sur quelques pages qui se classent bien pour «comment choisir un couteau de chef» et avons constaté que ces parties du discours étaient utilisées assez souvent:

Entités: lame, acier, fatigue, acier damas, santoku, Shun (marque)
Verbes
: adhérence, hachage
Adjectifs
: parfait, dur, riche en carbone

L’intégration de ces mots dans notre copie produirait un texte nettement meilleur:

« L’astuce pour trouver le couteau de chef parfait est d’obtenir le bon équilibre entre caractéristiques, qualités et prix. La lame doit être en acier suffisamment dur pour conserver une arête vive après une utilisation répétée. Vous devriez avoir une poignée ergonomique que vous pouvez saisir confortablement pour éviter que la fatigue ne s’étende. Vous n’avez pas non plus besoin de dépenser beaucoup. Le cuisinier à domicile n’a pas besoin d’un santoku en acier à haute teneur en carbone de 350 $ de Shun. « 

Ce texte mis à niveau sera plus facile à classer pour les machines et plus facile à lire pour les utilisateurs. C’est aussi une bonne écriture d’utiliser des mots pertinents pour votre sujet.

Regard vers l’avenir de la PNL

L’amélioration de notre contenu avec le test de feuille de papier vierge optimise-t-elle pour le BERT ou d’autres algorithmes NLP? Non je ne pense pas. Je ne pense pas qu’il y ait un ensemble spécial de mots que nous pouvons ajouter à notre contenu pour classer magiquement plus haut en exploitant BERT. Je vois cela comme un moyen de s’assurer que notre contenu est clairement compris par les utilisateurs et les machines.

Je prévois que nous approchons assez du point où l’idée d’optimiser pour la PNL sera considérée comme absurde. Peut-être que dans 10 ans, écrire pour les utilisateurs et écrire pour les machines sera la même chose en raison des progrès de la technologie. Mais même dans ce cas, nous devrons toujours nous assurer que notre contenu a du sens. Et le test de feuille de papier vierge sera toujours un excellent point de départ.


Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *