下载客户端

语义的网络：以“意识的物质性”一文为例

2020-10-23 17:44

来源：澎湃新闻·澎湃号·湃客

原创王双燕、闫堃定量群学

社会科学通常采用民意调查来评估政治历史，但是这些方法在理解政治党派的出现以及政治精英的思想时略显不足。首先，它遗漏了一些塑造政治文化和参与投票的重要角色和团体的痕迹。其次，以往研究只关注最广为人知的文本，忽略了许多其它思想传播的文本。本次文本分析专题为大家推荐的第一篇文章题为“The Materiality of Ideology: Cultural Consumption and Political Thought after the American Revolution”。其采用语义网络分析技术（Semantic Network Analysis），对纽约两个关键历史时期的政治网络变化进行了分析。

这种通过将文本和网络分析相结合，来探究社会、经济和政治立场与人们阅读内容之间相关关系的研究方法，是大数据时代文献研究的独特方式。这种依赖计算机技术的程式化定量分析，对传统的以定性方法为主导的文本分析的再现性（Reproducibility）局限进行了弥补。一方面它使得研究者可以超越人类阅读能力的限制，对超大语料库开展分析；另一方面也能够减少因研究者对材料的主观评判而导致的偏误，使得研究更具客观性。

研究背景

独立战争后的美国仍然遗留着一些不平等问题，导致纽约在该时期形成了利益多样性的特点。这种利益的多样性促成了多样化和有争议的政治生态，其特点就是多样联盟的建立和复杂选举活动的产生。在19世纪之交，书籍（包括杂志）是传播思想的主要载体，这些思想包括地位、政治、需求等。正是它们作为知识资源对多数精英和中产阶层的有用性，进而为意识（ideology）与思想的繁荣、传播和延续提供了可能。

就图书借阅记录作为文本数据来源的可用性而言，它具有明显优势。一方面，图书馆较高的定价限制了成员的进入，而政治家们却获得了图书馆的准入特权，这种对于研究对象的限制为分析带来了便利。另一方面，书籍和报纸是美国后革命时期政治活动的主要文化资源，在1812年战争之前的若干年内，纽约政治中出现了某种民主共和的思想倾向，这种倾向与之前占主导地位的联邦主义思想形成了鲜明的对比。

研究设计

该研究力图通过绘制意识结构图去发现政治家的阅读痕迹中所体现出来的政治倾向。网络分析为绘制意识结构图并将其与人们的信仰和行为相关联提供了分析工具。在网络中，节点表示想法或信念，而信念之间的关联意味着它们处于临近的空间位置上，或者它们倾向于由相似的人群所表达。这样就可以将个体的阅读习惯与其他政治家的阅读习惯进行比较，从而挖掘其阅读习惯所体现的政治倾向。

其文本资料来源主要包括以下四个：1）纽约社会图书馆（NYSL）两个时期的收费账单，第一个时间跨度为1789-1792年，第二个为1799-1806年，这两个账单在2011年由纽约社会图书馆历史学家和图书馆员数字化并在线免费开放。其中，账单包括140,000笔交易，由1,058个读者借阅的2,701种书籍所构成；2）通过Gale Artemis和Hathi Trust Digital Library获得相关作者的信息和书籍内容；3）从1786-1807年出版的《纽约市指南》（New York City directories）获取借书者的职业信息；4）根据1789-1807年间的选举报告判断政治家的政治归属。

文本预处理是文本分析的关键步骤，在该研究中主要包括对书目的作者及内容进行处理。首先，借助光学字符识别（Optical Character Recognition，OCR）技术提高数字化文本的质量，同时利用一些OCR纠偏脚本来识别并解决18世纪英语中的“long S”问题和拼写错误，并重新连接了由换行符分隔的单词。在获得数字化的文本后，对其进行分词清洗。接着，提取文本特征并生成文本的量化输出。作者对词、句子和篇章编码，建立了一个文档-术语矩阵（document-to-term matrix, Dt）,矩阵中的行是指账单中的书目，而列则是这些书中语词的计数。同时，采用TF-IDF（Term Frequency, Inverse Document Frequency）为在整个语料库中很少出现但在某个文档中频繁出现的单词赋予最大的权重。简言之，预处理需要生成两个二分矩阵：分别为1）书籍与文字的关联和2）人与书的关联，从而构建阅读情况与政治党派的网络结构模型。

而后，作者运用语义网络分析技术进行了三种分析：1）通过比较书的内容直接将书籍相互联系以揭示阅读的机会结构；2）确定不同政党成员可能阅读的书籍，并揭示书籍的政治价值如何映射到阅读的机会结构上；3）分析阅读民主-共和党或联邦党书籍的人群。作者将特定时期的政治思想和阅读情况制成表格，表格中的行对应于政治派别，列对应于书籍，其中的单元格表示特定政治派别在该时期阅读特定书籍的人数。分析结果如图1所示，民主共和党（Democratic-Republicans）更倾向于阅读孟德斯鸠和卢梭的著作；而联邦主义者（Federalists）则更多地阅读休谟、伯克和瓦特尔的著作。

▲图1 民主共和党与联邦主义者在两个时期的阅读差异

▲图2 1789-1792年纽约社会图书馆藏书中语义相似性的结构

借助于构建借阅主题的网络图（见图2），我们不难发现某些主题分立两端，相距甚远。例如诗歌与自然哲学对立，商业、政治与小说、爱情故事对立，而位于中心的巨大的橙色集群则充当网络两端集群之间的桥梁。网络底部与其他集群相分离的是关于小说的两个集群。作者还通过采用似然比检验来评估阅读过某本书的人和其政治派别的重叠程度，并将这些值投射到语义网络上，根据它们的赋值给节点着色（值越高颜色越蓝，越低则越红），以此直观地揭示网络空间中政治意识的分化。

小结与讨论

作者引入语义网络分析方法，通过构建网络图使我们较好地识别主题与主题之间的关系，并以更直观的可视化图示来呈现传统文本背后的隐性知识。相比于传统文献研究的词频分析，这种以社会网络的形式表达人类知识构造的方法，可以更科学地揭示关键词之间的网络关系。

当然，语义网络分析也面临着语言模糊和模型复杂带来的限制。首先，由于语词可以包括多种含义，难以确保一个给定的语词和它所表示的语义概念之间的适当联系，导致自动化的文本分析难以确保所选择的模型精准地映射语义概念；其次，如果文本源变大，模型的复杂性也会相应增加（Drieger 2013）。并且，当语料库足够大时，语义网络分析也不能仅仅通过考虑拓扑信息（topological information）来区分概念之间距离的远近（Kozlowski et al. 2018），因此语义网络分析还不适用于对过大的文本集合进行分析。

然而，该文更大的价值在于，它为我们提供了一个新角度：即在计算社会科学背景下，文本分析可以超越传统以日记、信件、报刊等“被记录”的文本为单一数据来源的方法，转而采用数字化技术对文本信息进行预处理，自主建构可供语义网络分析的数据库。同时，该研究也为如何运用新的计算科学来重访传统议题提供了范例。至于如何采用恰当的技术对网络结构进行更好地可视化、语境化分析，目前仍是社会科学家和数据科学家持续努力的方向。（范晓光校）

参考文献：

[1]Hoffman, Mark. (2019). The Materiality of Ideology: Cultural Consumption and Political Thought after the American Revolution. American Journal of Sociology. 125. 1-62.

[2]Drieger, Philipp. (2013). Semantic Network Analysis as a Method for Visual Text Analytics. Procedia - Social and Behavioral Sciences. 79. 4–17. 10.1016/j.sbspro.2013.05.053.

[3]Kozlowski, A.C., Taddy, M., & Evans, J.A. (2018). The Geometry of Culture: Analyzing the Meanings of Class through Word Embeddings. American Sociological Review, 84, 905 - 949.

作者 | 王双燕（浙江大学社会学系硕士研究生）；闫堃（浙江大学社会学系博士研究生）

校对 | 范晓光（浙江大学社会学系副教授）

原标题：《语义的网络：以“意识的物质性”一文为例》

阅读原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报