一文本分析的量化方法简介（第1页）

天才一秒记住【做客中文网】地址：https://www.zk01.net

一、文本分析的量化方法简介

banner"

在社会科学中，对文献文本进行研究已经有很长的历史。

然而，由于技术上的各种难点，文本研究至今仍然没有成为社会科学的主流分析范式。

随着计算机科学领域中“数据挖掘”

方法的出现，文本分析的方法在技术上越来越成熟，其在人文领域的应用潜力也随之增加。

在计算机科学研究中，“数据挖掘”

被认为是一种知识发现的过程：从数据中抽取模式，然后通过解释和评价转换成最终用户可理解的知识。

“数据挖掘”

的方法通常是基于大量的、模糊的、随机的数据集，并从中识别有效的、新颖的、潜在有用的以及最终可被相关研究者理解的模式的过程。

从本质上看，基于文本分析的大数据方法和传统的人文社会科学中定性的文本分析并没有什么差异。

在基于史料的定性研究中，创新点通常在于能看到其他学者不能清楚看到的现象或者问题。

基于文本分析的大数据方法通过定量的途径，从一个新的视角看到了一些新的东西，然而也会损失或者忽略掉一些在定性分析中能感受到的问题。

因此，文本分析相比于传统的史料阅读分析并不见得有绝对的优势，两种方法各有所长。

“机器自动识别有很多不准确的地方，但仍然在很多方面给学者提供了研究便利。

自动文本分析不能取代学者的阅读和思考。

没有一个最完美的自动识别方法。

对自动文本分析结果的效度分析非常重要。”

[21]在文本分析的过程中，无论研究者们采用计算机编码还是人工编码的方式，都可能会产生所谓的“效度”

问题。

也就是说，不同的人可能对同一段文字有着完全不同的理解。

在编码和分类中的误差是不可避免的，无论研究者采用有监督的、半监督的，还是无监督的计算机编码，都依赖于参考样本。

在“数字人文”

的研究中，文本分析是常用的探索文本和史料特征的定量方法。

尤其在文学研究和应用当中，文本分析可以帮助文学研究者从大量的文学作品中找出重要的特征，比如说不同作者的写作风格、不同学派的学术渊源和联系，等等。

在计算机科学和统计学领域发展出较为成熟的大数据方法之前，学者们对文本的分析主要采用“人工编码”

的方式，也就是通过人工阅读，然后对相应的文本、文字或者段落做出主观的判断和度量。

这样的方法在样本量比较小的时候反而比电脑的度量更准确到位。

而当样本量不断变大的时候，人工对文本的处理就显得比较低效。

此时，若将这个复杂的任务交由计算机去处理，“自动文本分析”

的方法就能相对比较有效地进行文本分析。

格里默认为“文本分析的核心工作是分类。

分类有三种方法：字典法（diethods），根据关键词的出现次数来确定文本；有监督学习法（supervisedlearhods），先由人工构建编码练习库，然后让机器根据人工编码模式进行自动编码，最后将机器编码与人工编码相比较检验其效度；无监督学习法（unsupervisedlearhods），不需要人工事先编码，而是基于模型假设和文本性质来分类并自动将文本分配到各类别。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

如遇章节错误，请点击报错(无需登陆)