在计算机尚未问世时,英国统计学家G. Udny Yule和C.B. Williams就尝试过如何利用句长的差异来表征不同的文学风格,识别不同的作者。1964年,出现了史上第一个主题为“文学数据处理”的学术会议,参会者有150人,讨论题目包括“计算文体学”,还有在计算机辅助下就弥尔顿对雪莱之影响作出估计。更早的时候,Frederick Mosteller和David L. Wallace就曾对《联邦党人文集》中常见词的词频(例如also、an、by、of)进行统计分析,试图确定哪些文章是汉密尔顿写的,哪些文章是麦迪逊写的。
Brian Hayes特别想介绍的是19世纪美国的两位“数字人文学”先驱人物。一位叫Thomas Corwin Mendenhall(1841~1924),是科学家,曾任印第安纳州罗斯理工学院的院长、美国国家科学院院士和美国科学促进会会长。1887年,他在《科学》杂志发表一篇文章《文章的特征曲线》。他认为,正如光谱线的模式可以表明存在着某化学元素一样,通过“词谱”或“特征曲线”也能表征一篇文章。他以狄更斯的《雾都孤儿》和萨克雷的《名利场》为研究对象,看看两人的“词谱”差异大不大,结果发现,差异不足以区分开两个作者。