Matiére : RECHERCHE D’INFORMATION
Crédit : 4
Cours : 1h30
TD: 1h30
Semesire: St du M1
Assuré par: Herzallah Abdelkarim
Programme
4-Introduction :
Objectifs de la RI,
Concepts de base : information, Besoin en information et pertinence, Processus
général de la RI, Taches (RI, Fl, CLIR, QA, etc.).
2-Indexation pour la RI :
Introduction (indexation manuelle vs. Indexation automatique),
Etapes du processus d’indexation,
Statistiques sur les termes (Loi, Zipf,...),
Techniques de pondération des termes.
3- Modeéles de RI:
Taxonomie des modéles (Adhoc Vs Filtrage),
Modéle booléen,
Modéle booléen étendu,
Modéle vectoriel,
Modéle LSI (Latent Semantic Indexing),
Modéle probabiliste,
Modéle inférentiel,
Modéle de langage,
Modele possibiliste.
4- Reformulation de requétes :
Expansion de requéte,
Réinjection de pertinence,
Méthodes de sélection de termes.
5- Evaluation de la RI
Critéres d'évaluation,
Collections de tests,
Bilan des campagnes d'évaluation
6- RI surle WEB
7- Ri dans des documents structurés (XML)1-Introduction
1.1 Définition
La recherche d'information ou RI (ou encore SRI) prend plusicurs terminologies:
# recherche diinformation,
© informatique documentaire,
© information retrieval,
* document retrieval.
Salton définit la RI comme la branche de linformatique qui consiste & acquérir, organiser,
stocker; rechercher et s¢leetionner l'information. Les domaines d'application de la RI sont:
* Internet
* Bibliothéques numériques «digital library»
* Entreprises
La RI est un domaine vaste qui se situe dans les frontiéres de plusieurs disciplines tel que:
Recherche adhoc,
Classification /catégorisation (clustering), Question-réponses (Query answering),
Filtrage (information (filiering/recommendation)
Méta-moteurs (data-fusion, Meta-search)
Résumé automatique (Summarization)
Croisement de langues (cross language)
Fouille de textes (Text mining)
Nepeene
1.2 Objectif
© Identifier en vue d'exploiter de Vinformation contenue dans des documents et des
bases de données (son texte, image) par rapport & une requéte formulée par un
utilisateur.
* Le SRI devra nous retourner le moins possible de documents non pertinents
© Les contenus des documents peuvent étre non structurés ou semi structurés.
1.3 Bref historique de la RI
La RI n'est pas un domaine récent
* 1940 : Avec la naissance des ordinateurs, la RI se concentrait sur les applications dans
4 des bibliothéques. Depuis le début de ces études, la notion de pertinence a toujours été
un objet
* 1950: Début de petites expérimentations en utilisant des petites collections de
documents (références bibliographiques). Le modéle utilisé est le modéle booléen.
* 1960-1970: Expérimentations plus larges ont été menées. On a développé une
méthodologie d’évaluation du systéme qui est aussi utilisée maintenant dans d'autres
domaines (des corpus de test ont été concus pour évaluer des systémes différents).
* 1970 : Développement du systtme SMART. Les travaux sur ec systéme a été dirigés
par G. Salton, Certains nouvelles techniques ont été implantées et expérimentées pour
la premicre fois dans ce systéme (par exemple, le modéle vectoriel et la technique de
relevance feedback). Du cdté de modéle, il y a aussi beaucoup de développements sur
le modéle probabiliste.* 1980: Les travaux sur la RI ont été influencés par l'avénement de Vintelligence
artificielle. Ainsi, on tentait d'intégrer des techniques de '1A en RI, par exemple,
systéme expert pour la RI, ete.
* 1990: Internet a propulser la RI en avant scéne de beaucoup d'applications. La venue
de I'Internet a aussi modifié la RI. La problématique est élargie. Par exemple, on traite
maintenant plus souvent des documents multimédia qu'avant. Cependant, les
techniques de base utilisées dans les moteurs de recherche sur le web restent
identiques.
1.4)Architecture générale d'un Systeme de Recherche atnfofnation
=~
Documents,
@
Dictionnaire
|
Représentation
des documents
Représentation de
Processus d’appariement
par | la requ
(matehning)
Docunpsss -requites
Expansion
I
Documents sélectionnés
t
tion et/ou Evaluation
{
Modification
stéme de RI exécute une sé
En se basant sur cette requéte, le algorithmes. qui
permettent d’obtenir une liste de documents ordonnés par leur pertinence.
1.4.1) Information et besoin en informationUne information est une donnée dont un individu a besoin pour résoudre un probléme
particulier. L'individu exprime done un besoin sous forme de requéte (question). TI existe
deux types de besoins en information : le type fermé et le type ouvert.
8) Question fermée » A une requéte correspond un ensemble fini de réponses. Les tiches
Extraction d'information (ED) et de Question Answering (QA) font partie de cette
catégorie, et elles sont en général appliquées 4 un corpus spécialis
») Question ouverte : Questions pour lesquelles il n'existe pas de réponse complete ct
definitive,
La RI siintéressait a des BI ouverts et a des données non structurées.
1.4.2) indexation
L’étape d’indexation permet de réaliser le passage d'un document textucl (ou une requéte) &
une représentation exploitable par un modéle de RI par la construction de mots elés appelé
langage d’indexation, AV
Document textuel (ou requéte) > représentation exploitable par le SRI
Indexation
_~ N”
Cette transformation appelée indexation consiste a extraire du texte un ensemble de mots elés
appelés descripteurs. Ces descripteurs vont représenter le document dans le corpus. Chaque
descriptcur peut étre accompagné de connaissances 4 priori pour micux appréhender la
recherche,
1.4.3) recherche ou appariement
Une fois les documents transformés, il est possible de rechereher ceux qui répondent le micux
une question d'un utilisateur grice la relation d’appariement. Cette relation s'appuie sur des
approches mathématiques. On en distingue:
we
+ Llapproche ensembliste
© L'approche algébrique (ou vectorielle)
+ L'approche probabiliste
AN
Certains systémes de RI dits assistés permettent Vinteraction avec lutilisateur, afin
daméliorer petit & petit les réponses du systéme de RI au cours d'une session de travail
Llutilisateur intervient & chaque étape pour « aider » le systéme & sélectionner les documents
qu'il juge pertinents pour sa question. Ces indications peuvent aussi servir pour améliorer
globalement le fonetionnement du systéme de RI.
1.4.4) La reformulation
Un SR peut comporter une composante supplémentaire appelée reformulation automatique d la
question (requéte). Cette éape a pour objectif daméliorer les performances du SRI, done la
précision dans les réponses du systéme.La pertinence d'un document pour une question posée par l'utilisateur stexprime dans les
modéles de RI sous la forme d'une valeur de plausibilité déterminge grace 4 une heuristique.
A titre d’exemple, pour la question «base de données» la réponse sera d’autant plus
pertinente si « base » et « donnée » se trouvent localisés dans une méme phrase. Il le sera
lemmatisation
niveau syntaxique : niveau dlutilisation de la grammaire
+ niveau sémantique : niveau de la reconnaissance des concepts
1) Niveau de découpage (Tokénisation) : La tokénisation est appelée aussi segmentation.
Elle consiste 4 diviser un texte en unités lexicales (token) élémentaires. C'est une
opération qui « localise» les chaines de caractéres entounses de séparateurs (caractéreblane, ponctuations), et les identific comme étant des mots. Il permet aussi de procéder &
une premiére correction des fautes d’orthographe et des erreurs de saisie
2)Niveaux léxical et morphologique
‘Chaque mot de la langue lui correspond une catégorie morpho syntaxique.
b) Le lemme
Le lemme s'obtient par une flexion (paradigme flexionnel). Exemple: Je travaille,
travailles, ielle travaille.... Le lemme est travailler. La catégorie grammaticale
rattaché i ee lemme est un verbe. ow
©) Laracine Aw
La racine siobtient par une dérivation ( paradigme dérivationnel ). See
nationalité, nationaliser.... La racine est nation. La catégorie rattaché ibskar
h
d) Le mot composi
Mots non obligatoirement si S qui doivent étre reconnug fogmant une
seule entité.
Racinisation : Cette premiére opération est indispensable pour fouvWir retrouver tous les
documents dans lesquels apparaissent différentes formes du méme aot Y Exemple : écologie,
écologiste, écologique sont "racinisés" par un seul mot este
Le second traitement appek fiquetage » ou tagging wensiste a comparer chaque mot du
nnaire intégré (référentiel ou
o. étiquettes en fonction du ser
1 Mig sort utilisés. Cette opération permet aussi
Recherche des lemmes : On a souventSgesoingahs les logiciels indexation de texte de
regrouper les mots qui se ressemblen, PNgéal Serait de considérer la racine du mot, en la
recherchant dans un dietionnaire. demandant beaucoup de temps, on a souvent
aussi «
d° « identifier » les mots composés et les expr
"of
recours des heuristiques (mot 8 uur dire « recette de cuisine ») simples, telle que
celle-ci : A Yy
On garde toutes les letiPes. dey ‘he début du mot jusqu’a
- La troisi¢me cons. t incluse
XN
jnsonne non précédée d'une autre consonne (dans « elfe », on ne
Seule compte, u
compt tet % car le «f » est une consonne précédée dune autre consonne ; par
con .
a lompte deux consonnes). Ainsi « chien » a pour racine « chien »
re ‘emple : Lemmatiser le mot « informatique »
IN ORMATIQU E
™
Non pris en compte
- Epuisement des lettres'¥ela régle précédente n'a pu étre satisfaite
n
a pour racine « informat »iv. Elimination des mots vides) : Les mots qui sont tres fréquents dans les documents
une collection n’ont pas un bon pouvoir discriminant et ne doivent pas étre inclus
dans index. C'est le cas des pronoms, des prépositions et des conjonetions,
naturellement reconnus comme des mots vides. L’élimination des mots vides permet
une réduction de index d’environ 40%, Vu que la réduction du nombre de termes
augmente la performance, certains systémes considérent, aussi, comme des mots vides
quelques verbes, adjectif’ et adverbs
Cette étape arive dla constitution d'un index des termes non éliminés, considérés cogyme des
index.
La recherche se fait selon logique booléenne par exemple : dans la phras,
tous les pays : unissez-vous”, seuls les mots "protétaires”, "pays" et "uniss
A Ia recherche, il suffira de taper l'un de ces termes
retrouver la phrase.
‘tous les mots gardés sont d’égale importance, ct il n'y At ‘des mots.
apparition des différentes formes d'un mot (ex : mde ipparaitre plusieurs fois sous
des formes différentes r
olanalyse porte sculement sur des mots isol
expressions (les syntagmes), souvent porteur
(dX unitermes), et délaisse toutes les
: «pomme de terre » donnera deux
A noter aussi que certains recherches 1’¢liminent méme pas les mots vides pour
une recherche. Les mots pelés une stoplist ou une stopword.
yy
1) Utilisati s rdyJés de transformation du type CONDITION > ACTION. Exemple : un
mot ayantunt ison de s, supprimer le s.
2)CBlgotitbrhe Porter pour [Anglais est basé sur la mesure de séquences voyelles-
comtefings-Cette mesure est appelée m:
mesure m pour un «stem» est [C](VC)m[VC] ot: C est une séquence de consonnes et V est
une séquence de voyelles [] = option, comme par exemple :
m=0 (tree, by),
m=I (trouble, coats, trees, ivy),
m=2 (troubles, private)
Les régles de désuffixage et de normalisation (en Porter) sont divisées en 3 étapes et sont
examinées en séquence :Etape
sses > ss (caresses > caress)
ies > i (ponies > poni)
8 NULL (cats > cai)
Etape 2: En régle générale:
ifm>0 ced > ce (agreed > agree)
if*v*ed > NULL (plastered > plaster but bled > bled)
a
Happy > Happi <
ANT > NULL IRRITANT > IRRIT ro
MENT > NULL REMPLACEMENT > REMPLAC a w
MENT'> NULL JUSTEMENT > JUS!
Etape 3: a SY
ATIONAL > ATE RELATIONAL > RELATE aN
TIONAL > TION CONDITIONAL > CONDITION Ww
3) La Troneature,
Ilsagit de Tronquer les mots 4X caractéres,
Il s’agit de Tronquer les mots a X caractéres (tronqu
troncature 4 7 caractéres est : 6eonomiquement : éeom
La principale difficulté est comment détern
2.3.1) Niveau léxical : 4 NY
Elle consiste & déterminer les regr ts structurels des mots au sein des phrases et Tes
y
relations entre les mots.
\
pour dresser § relation:
x
2.3.3) oe
atid fondée sur le ealeul statistique des occurrences, cad de la fréquence
“Ng abgarition de mots dans un texte. Tous les mots significatifs d'un texte sont relevés
ON (Ie occurrences) et leur fréquence est calculée, sclon un indice moyen de fréquence
exemple 1 /1000).
© “Méthode permet les ealculs de pondération, cad l'importance d'un mot dans un
document déterminé ct I'élimination de termes moins significatifs.
2.3.2) Niveau sémantiqie;
Ce niveau s ment froupement de termes synonymes, aux familles de termes,
23.4) Fi verse
+ Aprés analyse de documents dun corpus, on obticnt un tableau : document x termes
+ Utilisation en tableau direct « document -> terme » possible
a 2 8 inDI
Dm
* Génération d°un tableau inverse « terme -> document » (appelé fichier inverse)
pi p23 Dm
tl Gx
Se
rapidité lors du. traitement de requéte, car pas de traitement séquexficl,de8 documents
TS
Avantage : Sy ?
des
Y
)
2.3.5) Typologie des langages documentaires ws
Un langage documentaire est un langage "pivot" desting °déerge Ye contenu des documents ct
le contenu des questions (requétes) des utilisateurs ghey 2 entrée (humain) qu'en sortie
(machine) 0 ‘\
Langagge libre ne contralé
gage langage de Langage
atoire classification naturel
ésaurus — Ontolog
(description) (classes, régles, relatons)
a) Thésaurus : langage documentaire fondé sur une structuration higrarchisée d°un ou
plusieurs domaines de la connaissance et dans lequel les notions sont représentées par des
termes d’une ou plusieurs langues naturelles ct les relations entre notions par des signes
conventionnel.
b) OntologieUne ontologie est un ensemble structuré de concepts organisés dans un graphe ot les relations
peuvent étre:
Des relations sémantiques;
+ Des relations de composition et dhéritage (au sens programmation objet).
Une ontologie permet de définir des termes les uns par rapport aux autres, chaque terme étant
Ja représcntation textuelle d'un concept.
La construction d'une ontologie & partir d'un texte consiste &:
# parcourir Ie texte a la recherche de termes récurrents ou définis par util Ps
* analyser la maniére dont ces termes sont mis en relation dans le, Sp.
grammaire, et par les concepts quils recouvrent et dont une oo out etre
trouvée dans un lexique fourni par l'utilisateur
Le résultat est une ontologie qui représente la connai
texte dans le domaine d'application qu'il couvre
2.3.6) Les pondérations
La pondération consiste 4 répondre a la question si. tous a Ta méme importance ?
ance globale q le corpus de
et comment attribuer un poids aux termes extraits ?
2.3.6.1) Loi de ZIPF
La loi de Zipf est une loi empirique énoneée SS par G.K Zipf [Zipf, 1949]. Selon Zipf,
les mots dans les documents ne s’organi faniére alGatoire mais suivant une loi
inversement proportionnelle a leur d'un mot est sa position dans la liste
décroissante des fréquences des mots wus. Ainsi, la fréquence du second mot le plus
feéquent dans le corpus est la moitig
frequent, son tiers, etc ronmeten
premier, la fréquence du troisiéme mot le plus,
S. He lol sexprime par la probabilité d’apparition du
nigme mot le plus fiéq ine collection de n’importe quelle langue est
approximativement inversemeMypropsitionnelle 4 n (rang), soit : P (n)=C N/n
On en déduit: ee Constante
Fréquenc
Pe _—
Les domaines concenés par la loi de ZIP sont nombreux. On peut citer:
© La répartition des pixels dans les images,
+ Les populations dans les grandes villes
© Les pages web sur Internet, of Ia relation de popularité d'une page Web x nombre
d'aceés 4 une page par mois prend la méme forme.Dans le domaine de la recherche d'information, la loi de Zipf est utilisée pour déterminer les
mots qui représentent au mieux le contenu d'un document. Pour cela, un autre concept est
introduit, il ‘agit de la conjecture de Luhn.
2.3.6.2) Conjecture de Luhn
La conjecture de Luhn est basée sur la loi de Zipf. Elle mesure I° Informativité d’un document
de la fagon suivante
# Les termes de rang faible (trés fréquents) ne sont pas pertinents a
# Les termes de rang élevés (trés rares) ne sont pas pertinent Com,
# Les descriptours pertinents sont les termes de rang intermédiaire ! ve.
fréquence
<
informativité sw
LSS
seuil
maxi
seuil
mini
A
A \ By c
A: mots trés fréquent§egeu Tatéfessants
C : mots peu fréquents,\pétsintéressants
B : mots intéres
Voici un algagitfme sifgplé pour extraire ct sélectionner
Ext ots du corpus
¢Alighincbtes mots-outils (anti-dictionnaire)
Q etiupdtiser (en anglais, algorithme de Porter) ; raciniser (déclinaisons
nigrphologiques, représcntation uniforme : sing, masc sing, infinitif)
¢ Wiser un seuil haut et un scuil bas : on ne garde que les mots se
© situant entre les 2 seuils
3 LES MODELES
III-1 Les modéles
Requéte Recherche d’information (SRI DocumentInterprétation __”_ Bases de \déxation
| Connaissances |
Représentation rechéfche ou Représentation
des requétes interrogation des contenus
(langage de requétes) i (langage
@indéxation)
| ~
| Recherche d¢ l'information |
Modéle de Fonction de Modeéle de
Requétes correspondance documents
| ao (contenus)
modéle de connaissance
Wi”
\
Le langage de description de documents (langag Singer, est basé sur un ensemble
de termes T= { tl, 2... fi, ...} et de connectetrs jins la conjonetion). On appelle
généralement « indexation », ou « descript =e un document dans ce
langage.
Le langage de requétes est aussi basé stf'T, ct borhprend divers Connecteurs. Généralement
on ne considére qu'une seule requéteMgnérique notée q, mais si nécessaire, Q = { ql. q2, ....
qi, ...} représentera ensemble dog reqllétes Yqi est ainsi une liste d’éléments de T ou une
expression booléenne construite sur
L’algorithme d’ jac ge construire une relation entre requéte et indexation. I
de pertinence, R (appelée « ran!
est utilisé pour const
eae g » en anglais)
IL-2 Les di wets
MODELES
AUTOMATIQUE ADAPTATIF.
Bookéer Vectoriel Probabilistes
Booléen pondéré Latent semantic Indexed | Réseau de neurones
III-2-1 Le modéle booléen
Le modéle booléen a été introduit en 1983 par Salton et McGill. Il s‘est imposé grice a la
simplicité et la rapidité de sa mise en euvre. L’interface d’interrogation de la plupart des
motcurs de recherche (Google, Alta Vista) est basée sur les principes de ce modéle. Il estcomposé d'une liste de termes (mots-clés) pouvant étre combings & des opérateurs logiques
ET, OU NON pour répondre au micux & une requéte dun utilisateur.
a) Modéle de connaissance :
Un document T est indexé par des termes t1, 12,3....tm: T= {ti}, i appartient a [1.n]
b) Modéle de document :
UndocumentD: — D=tl ET t2 Et 3.
Te)...
Une requéte q (t1 ET 2) OU (5
a
¢) Fonction de correspondance : AN
la fonction de correspondance est une implication logique de la logique des, Un
document (d) représenté par son ensemble de termes (ti), répond a une requ primée
comme une expression logique de texmes, si Mimplication dX gest valde. La
correspondance C(d, q) est déterminée comme suit : A
Yy
C(4, ti) = 1 siti €.d 5 0 sinon
C(d, q1 A q2)=1 si Cd, q1)
C(d, q1 V q2)=1 si C(d, ql)
C(d,>q) = 1 si C(d, q) =
et sfockés en conservant les liaisons
Nemble sous le nom de fichier (index)
Is figure un terme est ainsi fortement
Les termes tl des documents sont identifié
dappartenance 4 chaque texte. On désign
inversé. La recherche des documents dans
aceélérée, SS
“0
L’inconvénient majeur de ce mo ie schématisé dans la Figure 2-4, est que les
documents pertinents dont la représeitation ne correspond qu’approximativement & la requéte
ne sont pas sélectionnés, et m8
Le document D2 est le proche de la requéte.
AVG-SIM 0,406 ay
III-2-3-3 Distance “
>
Distance entre un document et une requéte
r
j= dy
im{ Q, Di) =
2
Lay? . Lowy)
t J
y requéte Q et le document D;
‘Copmtues pour d'autres documents.
Ly Bifierentes approches de calcul de probabilité dans le domaine de la RI:
1. Approche par modéle classique: A partir d’un document et d’une requéte on
détermine la probabilité d°avoir ’évenement pertinent.
2. Approche par modéle par Réseau d’inférences : A partir du contenu d’un document,
on détermine la probabilité pour que la requéte soit vraic.
3. Approche par modéle par langage : déterminer la probabilité pour qu’une requéte soit
générée a partir dun document.
III-2-4-1 Modéle classique
201) Rappel du théoréme de Bayes
P(A|B) = probabilité conditionnelle qui signifie la probabilité de A sachant que
B est réalisé. A noter que A et B sont dépendants.
AINTERB
P(A[B) = P(A inter B) / P(B)
P(A inter B) =|A inter B] / |E]
P(B) = [BI /|E|
P(A[B) =|A inter B| / |B) S
Exemple : soit 2 dés. On observe que la somme des 3 dés vaut 6. Quelle est la
probabilité que l'un des 2 dés vaut 2? fe)
ponse NO
Somme=6}
A= {Au moins un des 2 dés dom
e
B= {(2), (4,2), (1.5), (5.1). mo
A inter B = {(2,4), (4,2)
}
P(AIB) = 2/5 aS
Alors que P(A) = 11/ SY
Nous avons: Ws”
P(A[B) = Ped inter B) / P(B), ce qui donne:
P(A inter |B) * P(B)
Ss Sp(BIA) * P(A)
rag oro * P(A)/ P(B)
Théoréme de Bayes
Il permet d’inverser les probabilités conditionnelles
Exemple : Soit 2 dés. On observe que la somme des 2 dés vaut 6. Quelle est la
probabilité que I’un des 2 dés vaut 2?
B = {Somme=6}A= {Au moins un des 2 dés donne 2}
P(A[B) = P(BIA) * P(A) / P(B) = 2/11 * 11/5 = 2/5
P(BIA) = probabilité d’avoir 6 sachant qu’au moins l'un des 2 dés vaut 2
JA] =11 [A inter B]=2 P(BJA) = 2/11
P(AIB) = 2/11 * 11/5 =2/5
2) le corpus
Documents pertinents
(pert)
Documents non pertingl
(nonpert)
A
3/ Définition
a/ On definit P (Di/nonpert) vere é pour que le document i fasse partie de
ensemble des documents non pertiehi@a la requéte q
b/ On définit P (Di/pert),cgmmea probabilité pour que le document i fasse partie de
Pensemble des documgys Preis a la requéte q, soit
4/ Fonction clegche
En supposagt Rindépendance des variables documents « pertinents » et « non pertinents », la
RS Fee peut étre obtenuc en utilisant la formule de Bayes.
QS Soit D i (t, ty, ts, ..., ty) ob
1 si ti indexe le document Dj
T
0 sinon
a) P(pert/Di) = ( P(Di/pert) x P(pert) ) / P(Di)
b) P(nonpert/Di) = ( P(Di/nonpert) x P(nonpert) ) / PDI)Ou:
© P(Di/pert) : probabilité d’obtenir Di A partir des pertinents
© P(pert): — probabilité de pertinence. Chance de prendre au hasard un
document pertinent.
* P(pert/D,) est la probabilité de pertinence du document Di sachant sa
description. a
P(Di) : Probabilité pour que le document i soit choisi.Elle est de:
a
P(D,)=p(D, /pert) * p(pert) + p(D, /Nonpert) * a) 0)
%
4/ représentation du document et de la requéte Re
\y
On ne prend en compte que absence ou la mbes termes dans les
documents et dans la requéte. Ainsi, les termes cot é3he sont pas pondérés
mais prennent seulement des valeurs 0 (absendgu ésent).
C
Le document D répond a la requéte si:
rt)
*
pert) x P(nonpert)
P(per/D) PC
P((nonper/D) we
¥ P(D/nonpert)
XN \ 4
ILy a plusiétits hp6théses de calcul en tenant compte de l’indépendance des
SBarini celles-ci, il y a le BIM (Binary Independance Model).
si le terme ti est absent de D
1 si le terme ti est présent de D
Alors :
P(D/pert) = ILP(xi/pert)
P(D/nonpert) = —_‘T1 P(xi/nonpert)
Et
pi = P(xi=I/pert) entraine 1-pi = P(xi=0/pert)
gi. = P(xi=I/nonpert) entraine 1-qi=P(xi=O/nonpert)ona done :
pi (1-piy
log. 11 + log I
qi Q | C-ai)
5/ Estimation de pi et ai
+R (ou Ri) : nombre de documents pertinents pour Q (contenant ti) AA
cardinalité du corpus =
nombre de documents pertinents contenant ti
* ni: nombre de documents contenant le terme ti
Q
Pertinent Nonp ata Total
‘Terme ti présent ti RNY nh
Terme ti non présent R N- in N=n)
Total x N
Y
Remarque / AO
© Pertinent et pertinent par rapport culnents D
© Terme ti (présent ou non pré: A), et que A apparait dans une requéte booléenne, alors on va ajouter B dans levecteur de la requéte (s'il n'y est pas déja). La question qu'on se pose est plutdt sur ta
pondération des nouveaux termes dans le vecteur. Cette pondération peur étre =
+ Lemot ajouté B est pondéré comme le mot initial A en relation avec B.
‘+ Le mot ajouté B est pondéré comme la pondération de A multiplié par un facteur. Ce
facteur peut étre fixe (par exemple, 0.5), ou bien déterminé selon la pondération de B
en relation avee A (L'idée est que si A conduit & beaucoup de mots B religs, ces mots
reliés doivent étre pondérés plus faiblement).
Cette méthode de pondération a été expérimenté par plusicurs chercheurs, entre autres,
‘Voorhees (1994). Elle utilise le thésaurus Wordnet pour déterminer les mots ajouter dans le
vecteur. Cependant, le résultat est négatif: avec cet ajout, la performance est < ~
y
Ici, on doit se poser la question sur cette méthode naive de faire l'expansi ai Arecteur.
On peut observer que
~< &Q
+ expansion n'est pas uniforme pour tous les mots de la reqates.
* Un concept étendu sera renforeé dans le vecteur oN
Est-ce que ces concepts renforeés sont réellement ope
Y
1V-4 Choix des termes & ajouter oP
sées 5
© Utilisation dun dictionnaire ge“Synonyt¥€, ou un thésaurus. Les mots re!
utilisés dans l'expansion.
+ Expansion automatique par Gig ch 's fortement religs basée sur les co-occurrences:
Plus deux mots co-ogcurent ait’ des textes, plus on suppose quills sont fortement
reliés. e
© Processus d'expangion inftgactif: L'usager peut filtrer les mots proposés par le systéme.
Cette approche est ‘témes, par exemple, Medline qui intégre
un thésaurys di
La plupart des.apprichps considére chaque mot de la requéte isolément des autres termes de la
requéte. a choisir des mots qui sont religs & la requéte qu‘aux mots individuels de
Al
Trequéte?
Plusicurs démarches sont
sont
ic. cement dit, ils calculent la relation entre un mot et la requéte dans son
sent A utiliser les mots les plus fortement reliés. Ils montrent que cette
feilleure que de faire expansion de mots.
Chapitre V : Le Web sémantique
Introduction
Le nombre important et sans cesse croissant des documents de tout type sur Internet rend de
plus en plus indispensable Ia possession d’un outil de recherche avaneé qui permet d’obtcnir
des résultats pertinents.Les moteurs de recherche traditionnels se basent sur occurrence dun mot dans un document,
i s’en suit que ces moteurs fournissent des documents non pertinents. Une approche plus
judicicuse est dintroduire la notion du sens. Il suffirait alors d’un mot pour récupérer les
termes qui ont une relation logique avec ce mot (les synonymes, les antonymes, etc.). Les
résultats seraient done mieux ciblés et on obtiendrait ccrtainement moins de résultats mais
dont Ia plupart sont susceptibles d’Gtre intéressant s pour notre requéte.
1 faut noter que le probléme de recherche de information est intimement lig & la structure
des documents cibles de la recherche. La difficulté de la recherche sur la vision actuelle
internet émane du fait que la plupart des documents sur le web sont en hufl. Qr les
documents html ont lc défaut d’avoir un contenu non structuré. Scule la migé“en page)cst
structuré en balises htm! prédéfinies. Mais ces balises ne portent aucune i y Sur le
contenu du document.
‘permettant Ie traitement
cera done a générer, traiter et
1g)Web sémantique, la conception
Avantages
Le Web sémantique est la continuation logique du Web act
# Il comprend des documents structurés selon un
automatique de ces documents par des logiciels, On
changer des documents grace & des ek
du document est done une étape eruciale.
De plus, des moteurs d'inférences pagan és
relations logiques qui peuvent étre mis c entre les différents documents.
* Ainsi méme des données non, ieSyfhais déductibles de documents existants,
seront générés automatiquemeMy sah intervention humaine. Ceci est d’autant plus
intéressant que la quantitg deSgocuments est grande, Pour parvenir 4 ces
fonetionnalités, il fat ab ete les documents,
Sy
ww)
Les Langages Web ae)
Parmi les langages Web, y a :
‘mis en place pour raisonner sur les
. LE “Re88arce Description Framework, est un modéle de données
. langage XML pour, eXtensible Markup Language. C’est un des dialectes
RDF est un outil fondamental du Web Sémantique: il permet de définir des
métadonnées
+ YOWL (Web Ontology Language) ct Ontologies : Il offre une grand ¢ souplesse dans la
definition des relations. N(Exemple : on peut préciser qu’une propriété est Pinverse de
Pautre, ce qui permet d’inférer des relations non explicites. Par exemple « A est le
pére de B » nous dit également que B est fils de A. Ceci parait trivial, mais en
informatique, il faut établir ce genre de raisonnement de base afin d’avoir des
informations traitées « intelligemment ».
XML.
* Mest basé sur les bi
Cette rigueur fac
ises, seulement en XML toutes les balises doivent étre fermées.
Ie traitement automatique d’un document,* L’intérét premier de XML est de séparcr le fond (le contenu) de la forme (le contenant
‘ou la mise en page)
* XML est un métalangage : il permet de décrire un vocabulaire et une grammaire
associée selon un certain formalisme.
* La structure d’un document XML est définie par une DID (Document Type
Definition). La DID peut étre écrite dans un document a part puis référeneée dans le
document XML ou peut étre directement intégrée dans ce dernier.
1. Exemple : une bibliographie
<2xml version="1.0" encoding="1$O-8859-1"2>
Elément enfant titre >
Les Misérables
Victor Hugo
3
L'Assomoir RQ
Emile Zola 4.
.
Le rouge et le oir i
Stendhal
3. Les commentaires
En XML, les commentaires se déclarent de la méme fagon qu'en HTML. Ils
commencent donc par . Ils peuvent étre placés a
n'importe quel endroit tant qu'ils se trouvent a l'ex/érieur d'une autre balise.
4. Ragles sur les élément’,
Un élément permed
d'un élément etf’o
y
1 4 l'aide d'expressions quels seront les fils possibles
's lequel ils apparaissent.
element exp>
-xpressions utilisent :
+ le mot EMPTY qui signifie un contenu vide.
©
+ un sous élément qui précise le fils de élément
©
+ des séquences a Taide de la virgule exp1 exp2 :
expression exxp1 suit expression exp2.
+ des répétitions a l'aide
30du point dinterrogation exp? qui signifie 0 ou 1
occurrence de exp
de l’étoile exxp* qui signifie 0 ou plusieurs occurrences de
S*P
> le plus exp+ qui signifie au moins une occurrence de
exp
la disjonetion exp1_|_exp2 qui signifie soit exp1 soit exp2
les parenthéses (_et_) qui permettent de grouper, us
expressions. Se
le mot ANY qui signifie n'importe quel contenu. 7)
© ~~
A
le mot #PCDATA qui signifie un rae xtuel. (Parsed
Character Data ou données textuell sées : analysées
signifie ici que si des appels d'gritité ‘trouvent, ils seront
réalisés). :
Lorsque d'une dédl est sous la forme
(#PCDATA | e: lors\I'élément peut contenir a la fois
des données te @U'des éléments. On parle alors de
contenu mixte,
»y
Exemple d’un DTD ar y
La déclaration de type es a l'interne, c'est-a-dire dans le document lui-
méme.
~'’
<2xml version=" 1.0" encoding="UTF-8"?>
-
31
Hamiche
Khaled
12 janvier 1957
Oran
Baccalauréat
12 juin 1975
Alger
Passable
Régles sur les attributs SS
La déclaration des attributs se réa ikem @ suit :
a .
La déclaration est la donnée d'un nom d'attribut, suivi d'un type et dune
ualification.
qualificat. y
Les ossibles sont :
- Sc TA: des données textuelles (non analysées)
. (NMTOKENS) : une unité (ou une liste d'unités) lexicale(s)
nominale(s) qui est un nom Xml pouvant commeneer par un chiffre ou un
symbole.
+ ID un nom Xml qui devra avoir une valeur unique dans le document pour
tous les attributs ID. La valeur est un nom xml qui ne peut donc pas
commencer par un chifire.
32+ IDREF (IDREFS) un nom Xml qui devra prendre pour valeur parmi les
les valeurs prises par les attributs ID du document (Une liste de noms
Xn...)
Nous reviendrons par la suite sur les notions d'entités. La qualification dans la
déclaration peut prendre les valeurs suivantes :
+ #IMBLIED qui signifie optionnel
+ #REQUZTRED qui signifie obligatoire
+ #EIXED qui signifie constant (intérét assez limité...) ~O
+ la valeur par défaut donnée entre guillemets
\
——
es Lecture
William B. Frakes and Ricardo Baeza. Information Retrieval: Data Structures
and Algorithms, Yates, Prentice Hall, 1992.
M.Boughanem : Université de Toulouse. Université Paul Sabatier de Toulouse;
Laboratoire IRIT (plusieurs contributions dans le domaine de la RID).
Mustapha Baziz: indexation conceptuelle guidée par ontologie
33Pour la recherche d'information, Thése doctorat, Université de Toulouse.
Université Paul Sabatier de Toulouse.
Gaussier et al, 03] : Erie Gaussier, Christian Jacquemin, & Pierre
Zweigenbaum. Traitement automatique des langues et recherche d'information.
In Eric Gaussier and Marie-Héléne Stefanini, editors, Assistance intelligente a la
recherche d'informations, chapter 2, pages 71-96. Hermés-Lavoisier, Paris, 2003
Salton, 83] : Salton, G., & McGill, M.. Introduction to Modern Information
Retrieval. McGraw-Hill, New York, 1983.
Voorhees, 93] : E. Voorhees, "Using WordNet to Disambiguate Word-Senses
for Text Retrieval", Proceedings of the 16thAnnual Conference on Rese’retand
Development in Information Retrieval, SIGIR'93, Pittsburgh, PA, I~ w
oy )
ai
34