视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
数据融合的一种直接方法
2025-09-30 22:47:18 责编:小OO
文档
数据融合的一种直接方法

摘要:一般的数据融合问题是在对联合分布没有任何直接观察时,对两个变量集的联合分布做出推断。相反,信息只能分别供给每个数据集和一些其他的共同变量集。数据融合的标准方法用利息变量和共同变量创造了一个融合数据集。这篇文章开发了一种方法,可以仅通过利息变量直接评估联合分布。对于不是离散变量就是连续变量的情况,这个方法产生了一个解决方案,可以通过标准统计模型和软件来实现。在典型市场应用中,共同变量是心理变量或人口统计学变量,以及涉及媒体收视和产品购买的融合的变量。在这个例子里,该方法直接评估了媒体收视和产品购买的联合分布,而不包括共同变量。这正是市场决策的目标。在市场应用中,需要融合离散变量。作者开发了一种方法,以释放此案例中条件的假设。他们用来自英国消费者的大量调查产品购买和媒体收视的数据来描述这个方法。

关键词:数据融合,直接方法,联合方法,共同变量。

1 前言

在仅当每个数据集的边际分布信息可用时,数据融合是一个如何对两个随机变量集的联合分布做出推断的问题(下文中称作“目标”变量)。例如,对购买行为和媒体收视行为进行分别调查。信息在购买行为和媒体收视的边际分布是可用的,但这里没有对联合分布的直接观察。在媒体计划问题上,关于购买和收视的联合分布的推断是必须的。所以,问题在于对媒体收视和购买的联合分布做出推断,而不是这两个变量集的联合直接观察。

对基于边际的联合分布来说,推断的一般问题很难解决。有很多可能的联合分布与同一边际分布是一致的,因此,联合分布不是由知识边际单独确定的。额外的信息必须引进以解决这个问题。某组变量是两个目标变量集的边际信息源的共同变量,从而使得数据融合可能实现。一个例子是这个共同信息是人口统计学变量或心理变量。在媒体计划例子中,人口统计学信息在购买和媒体收视的调查中都是可用的。数据融合方法使用这种共同信息对联合分布做出推断。然而,共同变量的存在不足以确定两个目标变量集的联合分布。由于共同变量,额外的假设必须是关于目标变量的条件分布的,以实现确定。

术语“数据融合”是为这个问题创造出来的;它意味着两个数据集的合并或融合。其中一个数据集有一个目标变量集和共同变量集,并且另外一个数据集有另外一个目标变量集(和同一个共同变量集)。例如,购买数据集必须通过人口统计学变量的共同集合和媒体收视习惯数据集融合在一起。若购买和媒体收视之间的所有依赖性是通过共同变量,则把数据融合问题看作某种匹配问题可能更自然(见Kadane 1978;Rodgers 1984)。来自购买数据的某个记录必须与一个或一个以上来自收视数据的记录相匹配。

匹配蕴含的基本思想是形成观察小组,用它们的共同变量值来衡量其相似性。观察小组可以用来为在某一特定数据集中未观察到的和缺失的目标变量值承担责任。这样一来,数据融合问题可以被视为缺失数据问题,正如Rubin(1986)强调的。归责小组可以由简单规则形成,如有同一人口统计学变量值或界定为距离度量的“接近的”值(Rassler 2002, pp. 19, 56, 68;参见Moriarity and Scheuren 2001)。Kamakura and Wedel (1997, 2000)通过在有限混合模型中含蓄地定义了归责小组,推广了这个概念。

在市场营销问题里,数据集常由调查产生,并且所有变量都是离散的。而且,许多重要变量在性质上是绝对的。我们希望评估的联合分布的最终目标变量也是离散的。例子中包括媒体收视和购买,都是二元变量。基于多元正态分布假设(为了讨论,见Rassler 2002)的多重归责方法并不适用于太多情况,如市场应用。

我们的方法是直接评估目标变量的联合分布,而不是匹配或串联的方法。联合分布随后可以用于解决推断的问题,正如市场决策所需要的那样。我们的方法无论用在离散目标还是连续目标还有共同变量都一样地好。特别地,我们不需要任何共同变量及这些变量的代替条件的外在分布模型。这样就减少了评估参数的数量以及可能由于假定共同变量的联合分布而产生的可能的规范错误。

我们的重点在于市场决策,对此联合分布是分析的最终目标。多重归责和其他融合方法被设计用来应付更多一般情况,其中,分析的最终目标在融合时是不为人知的。我们的方法也设计用来探索将目标变量对共同变量的额外分布建模的现有方法,而不是需要专门的编码。标准方法(比如,罗吉或回归模型),可以与来自数据挖掘或非参数文献的更灵活的方法交替地使用。在我们的实证案例中,我们通过基于梯度推进算法的拟合模型检查了我们的基于罗吉模型的结果(Hastie,Tibshirani, and Friedman 2001, Ch. 10)。

我们是这样组织这篇文章的:在下一节,我们列出了数据融合问题的总体框架,并且陈述我们的一般方法。条件性假设在许多数据融合方法中扮演了一个重要角色。我们讨论了其他方法如何与问题的一般公式相联系,以及这些方法如何使用或不使用条件性假设。然后,我们开发了一个方法,以释放在一些融合数据或先验信息可用的案例中有用的条件性的假设。我们通过使用来自英国消费者的大量调查的购买和媒体收视数据描述了方法的价值。我们表明了这个方法在不使用高度参数化模型或专门编码的情况下,实现了高度精确的融合。

2 数据融合框架

为了开发一个数据融合的一般框架,我们需要提出一个数据融合问题的精确定义。大多数据融合文献认为,数据融合的目标是合并或者融合两个数据集成为一个完整的数据集。设,表示关于一个目标变量和共同变量的观察数据集。此外,,表示另外一个目标变量的观察数据集(以及相关的共同变量)。我们用“”和“”来标注目标变量以暗示媒体购买情境,其中,代表产品购买或使用,代表媒体收视。通常情况下,是变量的一个高维向量。

尽管这个符号符合我们的数据实施,问题是更普遍的。我们的看法是,数据融合的目标是使用数据中的信息对联合分布形成推断。然后联合分布的评估可以用于解决任何决策问题,这是市场实施所需要的。例如,在媒体计划中,媒体选择有高比例的观众购买的广告产品被认为是可取的。因此,媒体选择问题需要联合分布和的各个方面。随后地,我们讨论需要联合概率和或简单地说对的条件概率的详情。

然后,我们的目标能够简洁地陈述为在数据中预测分布的计算。预测分布是由求联合分布的参数的积分而得到的,。

因为和不是在一起观察的,而是分别与共同变量,我们必须提供一个对的的条件分布模型。正如我们在关于识别的部分讨论的那样,需要一些更进一步的假设来识别这个模型。我们以条件性的假设开始:

(1)     

这里的主意是和的公共源头是变量,并且在控制或以这些变量为条件之后,和之间的依赖性被消除了。与变量的排列的情况相比,这是一个合理的近似值。要强调的重点是某个关于依赖性的假设必须做出以解决数据融合问题。我们以条件性假设开始,这样我们相信可以做出合理的论据。然而,没有联合分布和的直接数据,这个假设不能被验证。部分关于数据融合的文献没有明确的提到条件性的假设,但是这样的例子含蓄的假设了。其他研究者,如Rogers(1984),明确地做出了这个假设。在识别部分,我们讨论其他的方法以及对条件性做出的含蓄或明确的假设。我们也开发了一个方法来释放条件性,这样就能应用于很多市场实施了。

在条件性的假设下,和的预测分布可以计算如下:

此处,是对两个数据集的参数的后验分布,是共同变量的边际分布。总的来说,可能不是连续的。所以,把前述的内部积分视作条件分布和对于和关于变量的边际分布的期望值:

对于计算关于的边际分布期望值,没有必要模仿和的分布或甚至仅模仿的边际。我们仅需有取得这个分布期望值的能力。变量可能呈现很多形式的依赖性,是离散和连续分布的混合体。鉴于仅需期望值而非全部分布,我们可以通过总结观察简单地近似期望值。这避免了武断的分布假设或困难的近似高维分布的非参数问题。在调查工作中有几千或更多的典型样本,所以这个近似是易于精确的。

我们的方法计算和的预测分布以形成期望值,

(2)

总和是基于两个数据集中的的所有观察的。先验分布的外部期望易于达到,可通过现代马尔可夫链蒙特卡罗方法或通过甚至更少计算地需求方法,如重点取样。作为一个实际问题,这意味着我们只需要模仿对和对的条件分布来完成数据融合。在典型情况下,每个元素和要么是二元变量,其中使用简单的罗吉特模型也就够了,要么是连续变量,其中可以用标准回归模型。诊断可以通过这些适合选取的模型来完成。模仿对和对的条件分布远没有模仿和/或的联合分布更有需要。这减少了计算并防止模型规范错误。

2.1 联合或条件概率

决定联合分布和的要素是必要的,我们必须检查媒体购买决策。考虑在种可能的媒体中如何分配媒体购买预算的问题(在我们的案例中,是在种可能的电视秀中)。我们把目标视为把通过购买引起消费者对产品兴趣的总曝光量最大化。因此,媒体购买决策可以形式化如下:

此处,是总媒体预算,是每接触媒体一次的价格,是购买媒体的数目。注意曝光的总数是与消费者观看媒体和购买产品的概率成比例的,简单地说就是联合概率和。这考虑到了媒体的总收视和购买时在产品目录中表达兴趣的媒体收看者的比例。

此问题的解决方案是购买最高比率的媒体,。这意味着联合概率和是媒体计划的关心目标。然而,若一种媒体的价格与收视规模成比例,,最优化条件成为最高条件概率的媒体的选择:

2.2 仅需的情况

正如我们先前讨论的,有几种情况,其中我们不需要估计全部联合分布而只要条件分布。在这些情况中,一些计算规范可以通过我们先前略述的方法来达到。现在的目标是计算条件分布的预测分布:

现在引进训练变量,成为:

利用条件性的假设,我们得到下面的:

这个表达式意为把条件分布和条件分布求平均:

我们可以大概估计条件期望值,通过对给定值的的观察的求和:

(3)

  此处,是对取某个特定值时的观察的数目。在媒体收看的情况下,这意味着我们把特定媒体的经验分布求和。因此,若我们仅对的计算感兴趣,我们可以简单的模仿,把变量的相关值求和。这避免了努力和由模仿相关的可能的模型规范错误。

2.3 证明和条件性假设

数据融合问题中有一个基础的证明问题(参见Rassler 2002,p.5),与在两个边际分布和的观察数据正相反。目标是对联合分布做出推断。在我们的数据融合方法中,我们通过对边际分布求平均,,从条件概率得到分布。为了观察证明问题,我们认为选择性定义为联合分布是联合的边际,。对于任何给定的边际分布和,这里有很多可能的联合分布。这意味着若联合分布或同样地条件分布没有某种,数据融合问题从基础上就是未经确认的。我们以是的以及是有条件的来。这是基于以下观点:如果向量够“丰富”,和就能够近似地。如果向量没有足够的解释力,就违背了条件假设。如果先验信息源(例如,融合数据的一个样品)是可用的,我们可以把条件性的背离合并,正如我们在下一部分说明的。

在很多情况下,条件性的假设是合理的。但是,很显然,可能在某些情况下向量的内容不足以确保条件性。例如,考虑向量仅包括人口统计学变量。为了确保条件性,目录购买和媒体收视在条件必须没有共同组成。若媒体狭隘地集中在某个具体兴趣上,可能就违背了条件的假设。例如,考虑照相器材的目录。摄影的兴趣与人口统计学箱关但又未必完全由人口统计学预测。这意味着有可能存在一个共同组成(摄影的兴趣)存在于(照相机的购买)和(摄影杂志的阅读)中。然而,对于更多一般媒体,如电视节目,电台秀,报纸和一般兴趣杂志,这不成问题。重要的是要意识到是必须的,以及没有关于的额外数据源,这个假设不能被测试。

检查数据融合的其他方法是有益的,以决定什么样的证明假设明确或含蓄的施加。最初的数据融合方法牵涉到某种数据匹配。同等观察小组是通过变量来识别的。例如,hotdeck方法,假设向量的同一个值的观察是同样的,或是来自对的条件分布的一个随机样本。尽管没有明确地陈述,这些匹配程序的理由是条件性近似地保持(参见Rogers 1984)。数据匹配方法,定义了空间的距离度量并利用了值相近的观察,也采用了条件性假设。Kamakura和Wedel(1997)没有假定条件,他们使用了多项的有限混合以近似联合分布。然而,不清楚地是他们的程序是否引起显示条件性的联合分布的估计。

3 释放条件性假设

我们的观点是条件性是有用的默认条件或支撑的模型假设。若变量集是全面的并且是可以预测行为的,条件性是有效的。释放条件的假设需要除了样本信息以外的额外信息,因为和的联合分布是不被识别的。补充信息有多种来源。我们认为和的完全分布的数据子集是可能的,且是观察的。

有很多办法合并条件依赖性,通过用条件联合分布的某个模型来代替等式1。例如,Rassler(2002)引进了先验分布,捕获了多元常态变量,和的某种依赖性。问题是结果对先验的选择是敏感的,先验评估是困难的。我们的观点是这个先验信息必须最终来自于可比较的联合观察数据。

条件依赖性的模型依赖于和是否是离散的或连续的,以及甚至在离散的情况下,和的值数能否控制。文献集中在多元正态模型,在市场应用中是否相关是有争议的。这里,我们制定了一个办法来加入二元变量和的依赖性,这在很多市场应用是最重要的。联合分布表是对的四维多项分布;概率如下:

总的来说,我们的方法涉及为和建模。设,此处表示模型的参数,表示模型的参数。设,。例如,如果我们使用二元罗吉模型,。若我们假设条件性,多项概率阵如下:

我们可以通过引进参数提供一个对条件的背离。对正的,设。对负的,设。如此一来,“”可以用于改变阵以表现一个条件依赖性的新多项分布:

(4)

若,这组成了一个有效的多项分布。的正值提供了正面的条件依赖,反之亦然。我们注意到:等式4中的参数化表示保持了和的边际,同时通过调节条件依赖的具体程度。的似然函数下面给出:

(5)

此处, 是在多项分布中表现的四个概率中的每一个的指示函数。在加入一个先验,我们可以实施有条件的贝叶斯分析。我们有先验信息,而无论条件依赖的存在可能很小。对这种情况的合理先验可能是:

(6)

等式6一个一个参数的均衡先验,围绕零上下波动,以决定它能提供多少信息。

注意等式4给出一个,,,的联合模型。如果我们从联合模型中求出或的积分,我们得到对或的同样的边际模型,和我们用于构建联合的一样。因此,在经验应用中,我们推断通过拟合模型,和,得到关于在,的条件。尽管联合估计所有模型参数是可能的,我们并不预期在我们的条件方法上失去精度,因为条件方法有执行起来比较简单的好处。

4 经验应用

数据融合方法的共有应用是融合购买行为和媒体曝光。有一般用途的调查印刷媒体和电视媒体的曝光率。通常地,这些调查也搜集人口统计学信息。如果营销者为某个特定类的一个或一组产品设计市场沟通策略,知道什么类型的媒体沟通最有效率是很有用的。这意味着营销者的兴趣在对的具体集的,其覆盖率在媒体曝光调查中被观察到。人口统计学变量集,在分别的购买调查中可用,在和数据集是共同的,这使得融合具有可行性。

4.1 英国市场研究署数据集

我们的数据来自英国市场研究署(BMRB)在1998年进行的一项对英国消费者的调查。这是对20,000多个消费者的普通用途的调查。BMRB调查搜集了英国最热门的电视秀的收视详细信息,并随着大量的人口统计学信息。表1列出了数据中可用的19个人口统计学变量。BMRB调查也搜集了各种不同类产品的购买信息。表1列出了15类这样的产品。这些产品目录有渗透率在和之间。我们从将近35类可用数据中选择这15类产品,并且我们只包括那些没有缺失数据的类。BMRB调查设计得到原始购买数据和生活方式信息。这包括测量媒体曝光。我们只限于注意个没有缺失数据的受调查的电视节目的收视信息。表1提供了节目列表。我们所有的和变量都是二元的,这样的话指示了产品的使用,指示了“特别地选择收看这个节目”。样本规模是24,497个观察。BMRB数据集提供融合数据,在一定意义上和变量对同一调查应答者都被观察到。这使我们能够测量我们提出的方法的性能。

最后,数据融合的目标是估计联合分布和。具体来说,我们估计条件分布,,我们指出将用于做出媒体选择决策。在BMRB数据集中,和变量中每一个都是二元变量,我们有一套广泛的变量。我们的预测方法需要估计条件分布,在“联合”方法中还要估计。我们首先以双方条件分布的一个逻辑回归规范开始。变量是顺序的、绝对的、离散的连续变量的混合体(年龄和教育程度)。我们指明,罗吉对于所有(除了一个)可能值,适合所有变量(除了年龄)进入作为虚拟变量。罗吉规范通过额外的、可能是非线性函数来预防潜在的变量输入形式的不规范,但它并不抵御概率轨迹和单指数假设的不规范。

表1

概要统计:人口统计学,购买,以及媒体收视

  

我们用各种图形程序检查了我们的罗吉函数形式的假设,并发现没有违反形式的证据。我们也通过Friedman(Hastie, Tibshirani,和Friedman 2001)的梯度增强算法用在和模型中,在包,(Ridgeway 2004)中执行。我们发现在性能上没有区别,可以视为对我们的发现的坚固证据。

对拟合罗吉模型,我们执行了联合方法(等式2),其中我们求了分布的数据中所有可能值的平均数。一个选择是仅拟合并简单地求或时值的平均数(等式3)。我们称“联合”方法为第一个方法,“直接”方法为第二个方法。注意我们并不清楚哪种方法在估计条件分布上做得更好。联合方法使用了值的大量样本(全部数据集)来求平均值,但它导致了随着模仿出现的取样和误规范错误。直接方法避免了模仿的成本,但在小得多的值子集中求平均。因为我们的数据集非常大,而且罗吉模型似乎很详细,基于联合和直接方法的结果非常一致就不足为奇了。

假定我们对数据中的联合分布和有直接的测量措施,我们可以检查我们的估计是否与数据中的值一致:

此处,是购买变量的指数,是媒体收视变量的指数。我们不需要把数据作为子集来测试我们的方法,因为我们在计算等式3我们的评价方式中不使用联合分布和的任一方面。图1中的三角形绘出与,对于所有([变量] [变量])对。绘出这些概率估计彼此的原值将是具有欺骗性的。若的边际概率在个变量中变化很大,糟糕的估计,比如仅报告每个变量的边际,仍将与实际样本值有合理的高相关。由于这个原因,我们从估计中减去每个变量的边际概率。也就是,我们绘出与,此处,是变量在的边际分布。

图1显示了我们的估计与基于全部样本24,497对和的实际样本值有接近的相关。相关率为,并且平均绝对离差,,为。图1中的黑线是度线。虚线是一个通过点云的最小二乘拟合线。显然,直接和实际估计是不同的两个层面。首先,也是最明显的,大多数点位于度线以下,显示我们的估计有点偏低。这个向下的“斜线”是轻微的但却是可辨别的。第二,度线上,点云在顺时针方向有轻微的旋转,正如度线和最小二乘拟合线间差别所显示的一样。如我们随后表明的,这两个差异而非完美的拟合(除了样本错误)是条件假设的结果。这个旋转是由条件的正面和负面联合离差的合并导致的。向下的斜线是由正联合离差对负联合离差的优势导致的。

4.2 比较匹配程序

数据融合最普遍的方法是使用某种算法在同一值的基础上来“匹配”数据集中的每个观察与数据集中的相应观察。匹配算法的困难在于指定适当的匹配标准。变量常常是离散的,但它们常取大量的值。为了做一个完美的匹配程序工作,对某个特定变量

需要指定离散值。然而,对于真实无条件的变量,不从本质上消除变量是不可能使值瓦解的。在BMRB数据中,是绝对和顺序变量的混合体。为了使完美匹配的机会最大,我们合并了很多变量的类。基于重新编码的变量集,我们可以得到近时间的完美的匹配。在非完美匹配时我们把的边际值填入。

为了执行和评价一个匹配算法,我们必须区分数据集。如果我们试图匹配数据集比如BMRB数据的每个观察,都有和,我们总能发现完美匹配。因为这个,我们区分24,497样本为两个不相重叠的数据集。在数据的一半中,我们认为值缺失,在另外一半,我们认为值缺失。然后我们做一个“直接”匹配,以那一半开始,接着与的一半相匹配以添加推算的值。然后我们反过来匹配值与那一半。我们联合这些数据集以形成融合数据集。

表1覆盖了完美匹配的结果,或者说hotdeck程序,在我们的直接方法结果之上,用“+”号表示。hotdeck程序的性能与我们的程序和两倍的MAD相比是糟糕的(与)。注意我们的程序事实上是自动的,因此它并不需要对变量进行任何检查以决定什么样的值会崩溃。然而,考虑到某些变量是接近连续的,改进匹配算法的性能是可能的。为了形成一个复合匹配算法,我们在五个实类变量以及为其它定义的距离度量上坚持完美匹配。我们的距离度量是简单的把绝对差异求和,对于非类变量,调整范围为。注意应用Mahalanobis风格的距离度量是不适当的,因为BMRB中的变量远没有椭圆形分布:

如果是类变量的指数,,或(这意味着完美匹配是必须的)。修正的匹配程序比默认的hotdeck程序效果好得多,但它始终胜不过直接程序,直接程序不需要距离度量公式,或者变量的分类和崩溃。修正匹配程序的MAD是。

4.3 关于的条件

对于表1中出现的计算,我们在罗吉参数的估计上是有条件的,,。我们的方法不需要这个,直接把这些参数与重点取样求积分。由于有着巨大的样本规模,在全贝叶斯和条件方法之间的差异是轻微的。通过计算拟合概率的后验分布我们证实了这一点。这个分布非常适合这个数据集。条件方法对我们的程序是很合适的版本,这样只在标准统计包里用几行编码就可以执行了。

4.4 与多重归因方法的比较

我们的数据融合方法是直接估计数据集中每对的联合分布。这可考虑某种形式的归因原则,其中来自模型的拟合概率插入文件的的缺失值,来自模型的拟合概率插入文件的的缺失值。(这只能解释为“插入”方法,以逻辑回归的估计参数为条件。全贝叶斯方法也是通过把后验求平均而成为可能。对于多重归因方法这个扩展是不可行的。 )我们连接这两个文件来形成融合数据集。然后我们通过把连接文件中的观察求和,构建概率表。首先,我们来看这两个数据集:

然后,我们插入拟合概率,连接如下:

等式2中联合方法为每个前述的排列形成了表,然后对排求平均。反之,等式3中直接方法计算,然后仅对的那些行求平均。

多重归因在适当的拟合概率,通过归因或刺激从伯努利分布抽取的多重数据集而继续下去。两个归因或抽取的情况描述如下:

此处,和。多重数据集用于捕获关于附加的和变量真实值的不确定性。如果最终目标是对和的联合分布做出推断,多重归因显然是效率很低的方法。直接计算应该通过拟合概率来做出。多重归因引进了不必要的样本错误源。

为了检查多重归因如何在融合过程引进更多错误,我们随机在我们的文件抽取了每个个观察的两个样本。一个样本,我们丢弃了对的观察,另外一个样本,我们丢弃了对的观察。我们使用联合方法以及二到五个归因的多重归因来计算概率的估计。然后我们计算MAD,在全部24,000+数据集观察到的真实条件概率与使用联合和多重归因方法得出的估计的条件概率之间。我们复制这个试验50次,计算MAD分布。我们的联合方法的MAD分布低于基于多重归因的估计(我们的联合方法的50个样本的中值MAD比两个归因的多重归因得出的中值MAD低20%,比五个归因的MAD低10%)。如果我们使用大量的多重归因(多于五个),多重归因方法与我们用联合方法得到的估计很接近,但这只能在付出不必要的计算和创建庞大数据集的代价才能出现。

我们认为简单的多重归因方法在这里假定了和的条件。我们方法的优势在于我们能够释放条件的假设。在下面两小节中,我们调查了条件依赖性的存在,并论证了在条件依赖的范围和性质上与有限的信息上可能的改进。

4.5 调查条件依赖的假设

正如我们在识别部分所讨论的,若不引进外部信息,条件的假设就不能被释放,因为完全的联合分布是不能识别的。然而,BMRB数据集提供了联合分布的完全信息,所以我们

能够从条件的维持假设中调查数据的背离。评估条件的一个简单方法是把变量加入模型,并观察是否影响拟合概率。我们拿出每个为直接方法而建的15罗吉模型,把变量(一次一个)加入以构建960罗吉拟合集。然后我们检查拟合概率和,的差异。表2的后半部分表明两对和变量的拟合概率的图。在左边的小组,第一个变量对的拟合概率绘出,与第一个变量对以及第一个变量相反。这些拟合概率确实是同样的,意味着没有提供额外的解释力,或和对是条件的。然而,并不总是这样。右边的小组表明同类型的绘图,除了对(第一个和第七个)。这里,有两组点。上面的点组与对应,下面的点组与对应。这意味着当,有购买第一类产品的机会增长。差异虽然小还是可以辨别的,意味着这一对违反了条件的假设。此外,这对变量的数据提出真实依赖是正的,所以条件的背离是同一个方向。

对于所有可能的和变量对,为了检查来自条件的标准背离,我们计算所有观

察的每对的最大的绝对差异:

表2的顶部小组表明对每对的最大绝对差异的柱状图。柱状图表明与条件有某些背离。然而,显然对的多数展示了非常少的背离,最大绝对差异是0.05或更少。这些差异的标志也是重要的。这里有785个正最大差异,仅有175个负的。所以,大部分条件的背离涉及正的依赖。这解释了为什么我们的估计在表1中有一个轻微的向下的斜线。

4.6 条件之外

我们的调查显示了有限范围的条件性。然而,不明显的是,条件度如何使概率的融合估计的质量有根据。为了调查这个,我们把条件依赖建模以执行我们的程序。我们使用随机样本10%的数据来估计每对的值。我们用来评定情报先验。我们为960对的每一对计算的估计(后验模式)。将近一半的后验估计为零,这意味

着几乎所有的对都显示了条件。条件的背离主要以正依赖的形式发生。

尽管我们的直接或联合方法提高了优秀的融合结果,我们可以用我们对条件依赖的分析来理解在我们的方法和出现在表1的“真实”估计之间差异的来源。表3绘出了直接与真实估计,使用色彩方案来指示不同的值。点出现在灰色阴影中。随着灰色阴影越来越淡,值也增长。我们证明了45度线下面的点主要是正条件依赖的和对。这意味着我们的估计的斜线是由于条件的假设,显示通过少数展示了正条件依赖的对违反了系统方法。

使用来自10%样本的的后验模式,我们开发了一种在等式4中使用参数表示的估计。这提供了一种新的评价方式,我们可以比较我们的基于条件依赖的联合或直接估计。我们应该期待这个评价方式表现更好,因为我们使用了来自联合分布的更多信息。表4绘出了我们的直接估计与这些使用依赖信息的新估计。这里,点的分散是以

45度线为中心的,从条件的假设中去除向下的斜线。新估计的MAD是0.0131,比直接MAD实质上改进了0.176。

4.7 取样试验

结果表明,迄今为止,我们的方法应用于多于24,000观察的全部样本。为了得当地解读方法间的分歧和测量每个方法的性能,我们进行了一次取样试验。我们随机把观察区分为两半,形成100个要融合的样本。也即,我们形成100对和数据集。对每一对,我们计算条件分布的估计,对960个可能应用中的每一个,使用五个方法:hotdeck,联合,直接,条件依赖。对于条件依赖的情况,我们需要所有三个类型的变量都被观察到的数据子集。我们使用了对随机抽取自校准估计的2000个观察的子集。表5显示了在100个样本中真实和估计概率间的MAD分布。我们的联合和直接方法,假设了条件,都胜过了hotdeck方法。直接方法的取样可变性大于联合方法,因为联合方法把所有观察求和,反之直接方法仅把被看到的那些观察求和。如果少量融合数据可用,数据是非常有价值的,正如我们的条件依赖法的性能在表5右边最后一个盒图显示的那样。

5 结论

在本文中,我们解决了通用融合问题:当给出的信息仅与每个集合的边际分布有关时,对两个变量集的联合分布做出推论,融合是可能的,因为共同变量集常取作地理-心理-人口统计学,在两个数据集中都被观察到。解决这个问题的自然方法是计算融合数据的预测联合分布,针对非融合数据和关于共同变量的依赖条件的一些先验假设。如果未融合数据对告知我们的先验信仰可用,我们使用条件的假设。然而,如果我们可以用融合数据的小集合,我们能够数据作为先验的基础,允许我们释放条件的假设。我们的方法不需要把共同变量分布建模,正如Kamakura和Wedel的方法所做的那样,把估计问题相当地简化。

在购买行为和媒体收视习惯上,我们用大量数据集执行了我们的基本方法的两个版本。这里,数据融合问题是购买行为对电视节目收视做出推论,不用购买和收视记录信息的联合数据集。一个版本,我们命名为直接,通过把适当集求和,仅仅使用购买变量对人口统计学变量的条件分布。另一版本,我们命名为联合,使用两个条件模型估计购买和收视的联合分布,一个是购买对人口统计学变量,另一个是收视对人口统计学变量。最后,我们释放用于直接和联合方法的假设,如果我们有购买和收视的某些观察。我们使用这个样本来估计条件依赖的程度,依据联合分布调整我们的预测。

表2概括了我们的三个方法的每个的性能,以及依据MAD,在购买对收视既定电视节目的真实观察概率与多种估计之间的行业标准匹配方法。

表2的第一行,显示了一种单纯方法的性能,是基于简单地报告购买的边际概率以及忽略电视节目收视的信息。标注为“hotdeck”的行显示了行业标准方法的性能,涉及了匹配共同人口统计学变量的基础上数据集间的观察。“改进的Hotdeck”指的是“hotdeck”的改进版本,使用了“最近的邻居”距离度量来匹配观察,不可能有精确的匹配。表明确地表示了我们的方法的优越,导致了MAD的巨大改进。重点强调,我们的方法是“自动的”,因为它们不需要建模或对共同人口统计学变量的本质进行深度分析。

我们的方法在释放条件假设时需要这个同一级别依赖的一些先验信息。我们的观点是这常来自于被观察的所有三个变量的一个样本数据。我们目前的解决方案适用于典型地在市场应用中出现的二元和变量的重要情况。源自更多一般多项目标变量的一种方法将是对我们的工作的有益扩展。

    6 参考文献

Hastie, T., R. Tibshirani, and J. Friedman (2001), The Elements of Statistical Learning. New York: Springer.

Kadane, J.B. (1978), “Some Statistical Problems in Matching Data Files,” in 1978 Compendium of Tax Research. Washington, DC: Office of the Treasury, 159–71.

Kamakura, Wagner A. and Michel Wedel (1997), “Statistical Data Fusion for Cross-Tabulation,” Journal of Marketing Research, 34 (November), 485–98.

——— and ——— (2000), “Factor Analysis and Missing Data,” Journal of Marketing Research, 37 (November), 490–98.

Moriarity, C. and S. Scheuren (2001), “Statistical Matching: A Paradigm for Assessing the Uncertainty in the Procedure,” Journal of Official Statistics, 17 (3), 407–422.

Rassler, Susanne (2002), Statistical Matching. New York: Springer.

Ridgeway, G. (2004), The gbm Package. Vienna, Austria: R Foundation for Statistical Computing.

Rogers, Willard (1984), “An Evaluation of Statistical Matching,” Journal of Business and Economic Statistics, 2 (1), 91–102.

Rubin, Donald B. (1986), “Statistical Matching Using File Concatenation with Adjusted Weights and Multiple Imputations,” Journal of Business and Economic Statistics, 4 (1), 87–94.下载本文

显示全文
专题