10 Aug 2004
CS 5244: Orientation
41
/32
Indexing output
¡
Output = L
w
,D
D
,I
W
×
D
¡
¡
Inverted File (Index)
l
Postings (
e.g.
, w
t
→
(
d
1
,f
wt,d1
), (d
2
,f
wt,d
),
…,
(d
n
,f
wt,dn
)
l
Variable length records
¡
¡
Lexicon:
l
String W
t
l
Document frequency f
t
l
Address within inverted file
I
t
l
Sorted, fixed length
records
¡
¡
×
D
1
D
2
D
3
D
4
D
5
D
6
… D
m
¡
¡
W
1
1
1
¡
W
2
2
1
¡
W
3
1
¡
W
4
1
1
¡
W
5
1
1
¡
W
6
1
1
1
¡
…
¡
W
n
¡
¡
¡
¡
¡
To think about: What type of entries are missing
from the search engine index that are present in
the book index?
W
f
2
3
1
2
2
3
Lexicon
Inverted File
(Postings File)