Recherche en texte intégral

Il s'agit d'un outil extrêmement utile dans toute application dans laquelle vous voulez implémenter un système de recherche qui saurait parcourir tous les mots enregistrés. Cet outil permet de repérer le mot recherché sans égard à la forme sous laquelle le mot figure dans les textes et dans les bases de données parcourus. L'outil recherche en texte intégral possède deux fonctions :

  • détecter la forme canonique du mot saisi
  • générer toutes les formes grammaticales possibles du mot saisi

En général, la forme canonique (lemme) d'un nom est le singulier et celle d'un verbe l'infinitif. Mais il existe des exceptions à la règle comme c'est le cas du grec, par exemple, qui ne possède pas d'infinitif. C'est donc la première personne du singulier qui prend la fonction de la forme canonique d'un verbe grec. En revanche, en hongrois, on a l'infinitif, et pourtant c'est la troisième personne du singulier qui est considérée comme la forme canonique d'un verbe.

Aspects linguistiques

Le fonctionnement de cet outil repose, tout comme c'est le cas de notre correcteur orthographique, sur une description formelle de la morphologie de la langue. Or pour être suffisamment performant, notre outil de recherche en texte intégral prend en considération encore d'autres informations pertinentes telles que catégories grammaticales :

  • genre, nombre et cas des noms  
  • personne, nombre, mode et parfois aspect des verbes
  • catégories des pronoms, adverbes, conjonctions et numéraux

Parfois, la forme canonique n'est pas facile à détecter du fait qu'il existe de nombreuses formes irrégulières : avoir - eu, faire - font, pouvoir - peux.

De plus, la recherche en texte intégral devient parfois compliquée par l'existence de l'homographie, c'est-à-dire par l'existence de mots qui s'écrivent de la même façon bien que leur sens soit bien différent. Dans ce cas-là, l'outil ne sait pas distinguer si vous chercher le nom est ou la troisième personne du singulier du présent du verbe être.

Solutions logicielles

Notre outil de recherche en texte intégral est très efficace, et pourtant, il n'occupe que peu d'espace de stockage. Vous savez, par exemple, combien de formes grammaticales possède l'ensemble des mots tchèques figurant dans nos dictionnairs ? Plus de 6,7 millions ! Et pourtant, cet ensemble accompagné d'informations morphologiques n'occupe que de 1 MB d'espace de stockage. Trois mots tchèques ne prennent qu'un seul bit.

Fonctions disponibles

  • recherche de la forme canonique du mot
  • recherche de tous les mots morphologiquement apparentés
  • déclinaison des locutions nominales

Actuellement, nous proposons un outil de recherche en texte intégral pour de nombreuses langues et plateformes (voir la table). Pour rendre la recherche en texte intégral encore plus performante, nous recommandons d'utiliser encore un dictionnaire des synonymes développé par la société Lingea. Si vous voulez effectuer une recherche multilingue, il est préférable de combiner cet outil avec nos technologies de traduction. Pour pouvoir chercher un mot dans des fichiers audio et vidéo, il est nécessaire d'utiliser également nos outils de détection de la langue. 

Références

Vous pouvez essayer les fonctionnalités de recherche morphologique dans notre application Lingea Lexicon.