11 Oct 2005
CS 5244 - Computational
Document Analysis
22
Signature methods
¡
For text documents
¡
Checksum
¡
Keywords
¡
N
-gram (usually
character) inventory
¡
Grammatical phrases
¡
¡
For source code
¡
Words, characters
and lines
¡
Halstead profile
l
(Ignores comments)
l
Operator histogram
¡
e.g., frequency
of each type
sorted
l
Operand histogram
¡