11 Oct 2005
CS 5244 - Computational Document Analysis
22
Signature methods
¡For text documents
¡Checksum
¡Keywords
¡N-gram (usually character) inventory
¡Grammatical phrases
¡
¡For source code
¡Words, characters and lines
¡Halstead profile
l(Ignores comments)
lOperator histogram
¡e.g., frequency of each type sorted
lOperand histogram
¡