下载客户端

如何更好地做网络调查？

2021-07-23 18:06

来源：澎湃新闻·澎湃号·湃客

原创李希雨、董海军定量群学

文章题目

Options for Conducting Web Surveys

作者

Matthias Schonlau and Mick P. Couper

文章导读

本期推送为一篇关于网络调查的文章。首先，文章在互联网时代的背景下，提出网络调查逐渐成为调查世界中的重要方法，它具有成本较低、较快进行的优势。同时，也发现网络调查通常是用非概率样本进行的，因此，普遍性的问题是该方法关注的重点。进而回顾了处理网络调查的框架和抽样问题的方法两种主要方法：一是基于概率的方法，即找到一种方法来对概率样本进行网络调查，而不会失去大部分成本和速度优势（例如，通过使用混合模式方法或基于概率的小组调查）；二是非概率的方法，即通过使用辅助变量的方法调整非概率样本（例如，广义回归估计）。最后的结论是，方法的选择应该与研究的目的相称，而不是采取一刀切的方法。

问题的提出

网络或互联网调查在很短的时间内主宰了调查世界(Couper，2000；Couper&Miller，2008)。网络调查的吸引力在于它能够以相对较低的成本对大量的人进行调查，使用复杂的工具将测量扩展到其他模式(尤其是纸质)无法做到的范围。尽管如此，开展高质量调查的挑战是巨大的”(Krosnick et al.，2015：18)，包括网络调查的抽样问题、覆盖问题、无响应误差等。因此，网络调查并没有取代所有其他的数据收集模式，而是为调查研究人员的工具包增加了一套强大的新工具。那么，网络调查(单独或与其他方法结合)对哪种类型的人群和研究问题是最佳方法之一？什么时候应该使用，什么时候应该避免？这从根本上来说是一个是否适合使用的问题，或者是否适合研究目的的问题。所有调查的标准或要求都不一样，理解这些不同的目的或目标对于选择最适合手头研究问题的方法很重要。同样，在评估网络调查是“好”还是“坏”时，我们应该总是问“相对于什么？”，了解设计和部署网络调查的各种方式可以帮助研究人员为任务选择最佳方法。考虑到一种规模并不适合所有人，应该避免对所有类型的人群和研究问题的网络调查的价值(或缺乏价值)进行笼统的概括，应转向更深入地探索不同类型的网络调查何时何地最合适。

方法回顾

（一）基于概率的方法

1.线下招聘，线上进行

即通过传统的调查模式(即面对面、随机电话号码拨号或通过邮件)联系样本，并邀请他们完成网络调查，从而获得概率样本。这种方法有两个缺点。第一，节约成本的机会减少了；第二，当以一种调查模式联系受访者时，可能很难将他们转换到另一种调查模式。因此，网络作为唯一的响应模式是没有吸引力的。例如，一项这样的研究通过邮件招募美国高中生，但最终被迫采用二级反应模式(Schonlau et al.，2003)。

2.混合模式

混合模式调查可以解决覆盖问题，也可以改善选择性无回答。涉及在线（Web）数据收集的混合模式设计有两种广泛的方法，并发混合模式或顺序混合模式。在并发混合模式方法中，通常通过邮件向样本调查对象发送调查问卷，并选择在网上完成调查。这也被称为带有网络操作的邮件调查。而顺序混合模式不是同时提供两个回答选项，而是首先向样本人员发送邀请(通过邮件)以完成网络调查，然后向那些尚未回复的人提供一份邮件问卷。在那个阶段没有回复的人可以用面试官管理的方法进行跟进。虽然关于这种方法对总体响应率的影响的证据仍然非常混杂，但从网络开始增加了网络响应的比例，有可能降低成本(Couper，2012；Holmberg et al.，2010；Hughes&Tancreto，2015)。因此，顺序混合模式设计越来越多地被用于大规模邮件调查，如美国社区调查。

3.基于概率的网络调查委员会

由于研究人员希望对受访者的概率样本进行网络调查，因此近年来出现了几个专业调查委员会，其中有的仅限内部使用，例如：德国互联网调查委员会（GIP，the German Internet Panel ）；有的可对学术用途开放，例如：荷兰移民调查委员会（the Dutch Immigrant Panel）；除此之外还应用于商业、政府项目等，例如：美国全国民意研究中心（芝加哥大学团队）组建的“美国之声”（National Opinion Research Center's AmeriSpeak）。该类调查大多数采用传统的线下方法来招募概率样本，同时考虑到并不是所有目标人群都能使用互联网，大多数小组为这些受访者提供免费的计算机和互联网接入。这种基于概率的网络调查小组的优点是样本可以在许多调查中重复使用，因此每次调查的招聘成本要低得多。面临的问题包括多层无响应、流失、专业受访者可能会随着时间的推移做出不同的回应(疲劳)以及如果样本因流失而变得太小或不太具代表性等。在实践中，通过计算因无响应而调整的权重和每隔几年补充一次小组，解决了在此类小组中长期保持代表性的挑战。至于随着时间推移而做出不同的回应，用训练有素的受访者和新受访者进行的实验得出了相同的结论(Toepoel et al.，2008)。低累积响应率是基于概率的网络小组调查的常见问题。但是，可以在招聘过程的每个阶段收集数据，这可能有助于无响应调整。

（二）使用非概率样本和概率样本的组合估计量

非概率样本成本要比概率样本低得多，但基于非概率样本的估计往往有偏差。基于组合概率和非概率样本的估计可能比单独基于概率样本的估计的均方误差更低（Elliott&Haviland，2007；Ghosh-Dastidar et al.，2009；Schonlau et al.，2002）。选择使用组合估计量或基于概率样本的估计量的判断标准是组合估计量的均方误差是否小于单独基于概率样本的估计量。如果偏差很小，概率样本很大(1000–10000个观测值)，而非概率样本更大，则组合估计量比概率样本估计量具有更小的均方误差。这种方法有几个缺点：第一，如果任何一个参数的偏差太大，那么非概率样本就被浪费了，并且估计必须仅仅基于概率样本；第二，分析的复杂性增加；第三，存在研究者战略性地从非概率样本中排除观察结果，以减少估计偏差的可能风险。尽管有这些缺点，我们认为这种方法在进行网络调查的实践中没有得到充分应用。仍然需要进行应用研究，以确定这种方法在多大程度上是可行的，以及在什么情况下可以减少偏差。

（三）非概率方法

鉴于在网上进行调查的成本相对较低，速度相对较快，大部分网络调查方法主要侧重于让大量不同群体的受访者完成调查。在网络调查的早期，特别是在市场研究领域，网络调查专业委员会发展迅速，他们通过各种非盈利方法招募成员并邀请其参与调查(Couper，2000)。由于其经济、方便，学术界越来越多地使用这些委员会组织的调查，用以做实验或生成关于人口的描述性统计数据。鉴于对其质量的关注日益增加（Faasse，2005），研究者们尝试以招募大量受访者的方式替代它。其中，一种方法被称为河流采样(BakerPrewitt，2010；DiSogra，2008)，即招募浏览网页的人，并引导他们进行特定的调查。另一种则是拦截采样，通常指的是在街上拦住路过的人进行现场采访或者指在人们浏览试图访问某个特定网站时拦截他们。例如，谷歌消费者调查拦截访问受限材料的用户，并要求完成两个调查问题才能访问此类材料(McDonald et al.，2012)。但是对这种方法的独立评估很少(Keeter&Christian，2012)。它依赖于“捕获”互联网用户并邀请他们参与。这种方法中固有的选择偏差在很大程度上是未知的(并且通常是不可知的)。除此之外，还有受访者驱动采样(RDS，Respondent-driven sampling)，它是一种类似“滚雪球”式的抽样技术，最初开发它是为了招募稀有或隐藏的种群(例如：艾滋病毒感染者、吸毒者、无家可归者)(Heckathorn，1997)。RDS现已成为美国疾病控制和预防中心(CDC，Centers for Disease Control and Prevention)艾滋病监测的关键方法(CDC，2016)。在RDS中，几个种子受访者被有目的地抽样，并被要求招募四个(或其他数量)他们的朋友，或他们的社交网络中的人，因此被称为受访者驱动抽样。该调查还包含一个关于受访者(符合条件的)朋友数量的问题，用以估计规模。

（四）非概率样本网络调查的调整

选择加入的网络小组和开放访问的网页调查的样本都是非概率样本，容易受到选择偏差和覆盖错误的影响。因此，需要进行调整来纠正这些错误，调整依赖于辅助变量，这些变量应与结果变量和反应倾向相关，在非概率样本中测量。辅助变量的总数必须从其他地方测量，或者必须有一个基于概率的参考样本来测量辅助变量。

1.人口总数的后分层

如果辅助变量的总体分布是已知的，后分层可用于重新加权非概率样本中的观测值，以匹配这些变量的已知总体分布。单元格或加权类是通过交叉所有类别的辅助变量形成的。任何连续的辅助变量首先被转化为分类变量。当只知道辅助变量的边际总数而不知道它们的全部分布时，可以使用斜率。社会人口变量最常被用作辅助变量，因为它们的人口总数更有可能从人口普查或参考样本中获得。假设调整可用的辅助变量将减少调查中所有其他变量的估计偏差。

2.使用参照样本计算倾向值

任何调整成功的关键都是找到好的辅助变量，然而，通常只有人口统计变量可以从外部来源获得。为了能够将网络调查校准到辅助变量，有时候使用概率样本进行第二次较小参考调查（例如随机电话号码拨号，RDD，Random Digit Dialing）是有必要的。具体来说，是在第二次调查只询问10-15个问题的子集，这些问题用作辅助变量，并作为参照样本来纠正非概率样本中的选择偏差。该参照调查可重复用于同一目标人群的多个网络调查，从而提高成本效率。当参照调查可用时，通常倾向值用于调整可能的偏差。倾向值被定义为具有辅助值Xk的被调查者k响应(或自我选择)非概率样本的条件概率ρ(Xk)(Bethlehem&Biffignandi，2011)，目的是平衡样本与辅助变量之间的关系(Valliant et al.，2013)。其中Rk是非概率样本中的成员指标。倾向值通常是在调查和参照样本相结合的基础上用Rk的逻辑回归来估计的：

倾向值的调整可以通过以下几种方式进行：

（1）计算倾向估计分层。倾向值可以分为五个层次，五层是迄今为止最常见的选择，因为科克伦(1968)发现五层足以消除大部分可消除的偏差。y的总体均值的倾向分层估计为（其中h表示5个层，nh是参考样本的样本量）：

（2）计算倾向权重估计。反向倾向值可以用作权重：wi =(1-ρ(xi))/ρ(Xi)，其中ρ(Xi)是估计的反应倾向。权重调整到对应于概率样本的总体，而不是对应于两个组合样本的总体。I表示非概率样本中的受访者，nn是非概率样本的样本大小，y是感兴趣的结果。这两种方法都会增加估计的方差。由反向倾向值产生的非常大的权重可以被削减，代表通常的偏差-方差权衡：

3.样本与参照样本的匹配

里弗斯(Rivers，2007；Vavreck&Rivers，2008；Rivers&Bailey，2009)提出了“样本匹配”的概念，即使用辅助变量为概率样本中的每个被调查者，从大的非概率样本中找到匹配的被调查者。总的来说，非概率样本中匹配的对应被称为“匹配样本”只有(成本更低的)非概率样本中的受访者完成了调查；概率样本的受访者仅作为参考样本。使用来自概率样本中相应匹配的采样权重，基于匹配样本产生估计。瓦夫雷克和里弗斯 (2008)发现，在预测2006年合作议会选举的结果时，该方法比随机电话号码拨号有更小的均方误差。与倾向值调整一样，辅助变量的选择对于这种方法的成功至关重要。伯利恒(2016)的结论是，“关于无反应偏差的还原，样本匹配与分层取样和分层后评估相比没有实质性的优势。”

4.广义回归估计(GREG)

GREG估计量在线性回归设置中使用辅助变量作为x变量，y的总体平均值的GREG估计值定义为（其中

是结果变量的样本平均值，

是辅助变量样本均值的向量，

是辅助变量和b =(b1，b2，...，bp)是回归系数的向量，系数b是用通常的最小二乘回归估计量来估计的。对于不等概率抽样包含概率应该考虑在内）：

5.辅助变量

上述每种方法都使用辅助变量，尽管它们的使用方式因方法而异。重要的是，必须在网络调查和参照调查(如果有)中测量辅助变量。为了使辅助变量真正有用(即减少偏差)，它们必须既与反应倾向(或被选择的可能性)相关，又与关键结果变量相关。许多调整方案只关注第一个条件，而忽略第二个条件。关注第二个条件要困难得多，部分原因是通常有许多感兴趣的变量。如果两个条件都成立，偏差和差异就会减少((Bethlehem，2010)。那么，哪些辅助变量可能有用？除了人口统计变量之外，还提出了所谓的网络地理或态度变量来限制在线和离线人群之间的差异。

（五）实践中的调整

调整的目的是改善估计值，即减少它们的均方误差。对于基于概率的调查，这种调整通常分步骤进行(Valliant et al.，2013；Haziza&Beaumont，2017)：（1）将基本权重适用于不相等的选择概率；（2）为未知的样本单位调整权重(对于并非所有样本单位都合格的调查)（3）以无响应调整纠正无响应错误。许多研究已经探索了在实践中调整消除偏差的方法，结论是对非概率网络调查推断的调整通常(但不总是)会减少偏差。调整通常会增加估计值的差异，因为它们会导致更多的异质权重，从而夸大设计效果，2015年英国大选前的民意调查是调整出错的非概率抽样的一个引人注目的例子。启示是在未来的选举中转向概率样本——虽然是理想的——是不现实的，因为成本十分高。相反，该研究建议改善加权单元的代表性(使用传统技术，即更多的提醒、激励)，并找到与投票倾向和投票结果相关的更好的辅助变量。

结论

文章回顾了获取网络调查样本的多种不同方法，以及可以进行统计调整以减少某些方法中固有偏差的一些方法。有几个关键点要注意：第一点是，可以有多种方法为网络调查抽取样本。将所有的网络调查同等对待，并对其进行统一评估(如“好”或“坏”)是一种冒险的做法。不同的方法有不同的优点和缺点，应该相对于它们所陈述的目的和它们所做的推论性声明来评估；第二点也是相关的一点是，调查是为了许多不同的目的而进行的。网络调查目的包括趋势分析，概率估计等，这些用途的要求可能大不相同。要了解目的的多样性，并为这些目的找到合适的方法；第三，统计调整不是能“解决”所有非概率样本推理问题的灵丹妙药；第四，对于那些试图从非概率调查中得出广泛结论的研究来说，调整不应被视为事后的想法。对仔细考察所需变量进而仔细地应用调整方法，可能更有效地减少估计中的偏差。此外，重点不应仅仅是减少偏差，还应根据方法对估计精度的影响来选择或评估方法；第五，为了增加我们对何时以及如何最好地使用网络调查的理解，报告的开放性至关重要。调查的目的和由此产生的估计数的预期用途应在一开始就明确说明。此外，特别是对于广泛声称具有代表性的调查，仔细分析潜在的偏见及其可能对估计对象产生的影响是很重要的。

总而言之，本文的观点是网络调查是调查研究者工具包中有价值的工具。它们不会取代其他工具，但会扩大可用工具的范围。没有一种工具对所有目的和环境都是最佳的，网络调查是一种非常有价值的方法，但应该适当、适时使用。