翻译_翻译科学

2020-02-28 其他范文 下载本文

翻译由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“翻译科学”。

改进指数随机图(p*)应用到大型社交网络

(基于指数随机图模型的家庭网络统计分析模型的改进)基于家庭的网络统计分析的指数随机图模型的改进,大大的提高了我们对社交网络进行推理的能力,本文应用先进的模型参数化和计算方法来检测由1681位演员构成的青少年友谊网络结构,社交网络结构的ERG模型使用R中的statnet包进行拟合的,通过模型预测的比较,评估观测数据进行高阶的网络统计数据

对于这种友谊网络,一般用马尔科夫相依模型会导致退化问题(由Handcodk讨论)。同时2006,Snijders等和2007年Hunter和Handcock介绍的参数化模型避免了退化并对数据提供了合理的拟合,只是度模型无法很好的捕获观察网络结构,那些做的比较好的包括外生性属性异构混合(年纪和自己上报的种族)和内生性聚类,从模型中模拟出来的网络的多重高阶统计量和观测网络要大体一直,包括:三角形的数量,最大组件的大小,总体可达性,分布的测地距离,度分布,和共享伙伴分布。大型数据集进行模型拟合的能力和对形成网络的下属进程进行推纳的能力表明在网络统计分析领域有很大的提高。

指数随机图模型作为一个模拟社交网络结构的方法第一次被提出是在20年前,基于空间统计。模型类是非常一般的,因此理论上应该是能够捕获经验性网络的广泛阵列的结构,允许进行有关结构的统计推断。然而,大多数从事这个领域的工作都集中在一个小的模型规范,最常见的是Frank和Strau的马尔可夫图。由于模型退化问题,最近的研究表明,这些常用的模型规范事实上并不适合捕获许多经验网络的潜在过程。退化问题可以简要的描述为这样一个现象,其中一个看似合理的模型其实可以是这样一个坏的错误规格的观测数据集,从而几乎使观测数据在该模型下是完全不可能的。相反,型号产量网络概述的社交进程比如全图或者空图,和观测数据是的性相异的数据,事实上也是毫无意义的。

如果模型退化是一个标志,某一特定模型不能很好的拟合数据的一个标志,那么它不能被证明是这个领域进步的障碍。在其他的领域,拟合效果查的模型通常可以帮助完善数据的认识,对成功捕获观测数据的模型和模型失败的地方进行分析,有助于后续模型的改善。然而,在EMG模型的情况下,最大似然估计模型的参数是使用MCMC进行拟合的,退化往往阻碍模型估计收敛于有限参数。使用近似替换技术,如MPLE估计(Strau和Ikeda1900)没有解决这个问题,而只是隐藏它。事实上,缺乏收敛性还可以从MCMC拟合算法的各种功能不起作用造成的。总的来说,这些问题解释了到目前位置将ERG模型应用到经验网络分析如此缓慢的原因,尽管他们很有潜力。关于这个问题的以前的论文提供了一个介绍ERG建模的方法,更加深入的研究了阻碍模型应用的退化问题,并提供可能的解决方案。在文中我们的目标是将这些发展应用到超过1600人的单一的大的网络数据集,以显示他们在复杂相依关系结构中推理的应用。数据集:增加42个卫生学校组

我们这里分析的数据集是一个全国纵向青少年健康研究的学校集,是一个以学校为基础的7-12年级的美国学生样本。以广泛的问卷调查个人的特征,如在友谊网络模块。学生收到一个清单,清单包含所有学生的在校名字和相应的唯一ID号码,并要求按照年纪顺序列出5个最好的男性朋友和5个最好的女性朋友的ID号码。他们可以提名不在一个学校的朋友(通过一个特殊的ID)或者在一个学校但是不在名单上的。这里的数据集包含两个独立的学校都是南部城市多种族的大型公立学校,一个学校含有10-12(即高中)年级,另一个学校含有7-9年级(即初中),每一个学校的学生相互为对方提供清单,并允许从中选择。

对这一分析,我们只考虑那些演员完成了调查,并且在名单上(n=1681)的。另外名单上的489名学生没有参与调查,而158名参与了调查但是却不在名单上或者他们的ID号码和名单上的不匹配。学校中能够唯一识别学生的总数是2328(还有更多的人,但是没有选上,如果他们都没有参与调查并且不在名单上)。1681名学生占整个数据集人数的72%,这一水平类似月AddHealth学校的一般水平。尽管我们无法知道损失学生的结构关系是否类似于这项研究,但是我们可以识别没有参与调查的学生的平均入度和那些提供原始无向数据的学生的平均入度。

我们认为相互化数据,即是那些一条边两名演员相互提名。进行相互化有实质性的原因(双重提名边作为验证友谊关系的一种形式)和实践性的原因(我们认为下面所考虑的统计量迄今为止只被定义和执行无向关系)。属于非有向网络的边的数量是1236,密度为0.00087(1236/1412040演员对),平均度是1.47。1236条边表示在原始数据中有2472个弧,或者一共有6985名提名着中,35%的是相互提名的,剩余65%的不是互相提名的。由于学生只被允许提名固定数量的朋友,所以解释相互数据集的比较复杂的。更多的关系可能会出现学生被允许相互提名任意数量的朋友。但是这个效应得到抑制,53%的受访者被提名的次数少于雌性朋友的最大数,54%的受访者被提名少于雄性朋友的最大数。我们认为演员的外生属性是年级,种族,性别。进行调查的学生可以自由填写他们想填写的,对所有的属性,除了年纪以外,我们保留了空白反应。考虑到给定属性的所有的反应,构建给定属性在任意相关分析中的单因素水平。把年级应用到一个比其他属性更广泛的网络统计集合中,由于这些统计量不允许有缺失值,对缺少的年级进行估算。1681人中有十个同学没有填写年级,其中有四个学生透露至少有一个共同好友,并且在每种情况下他们全部的好友都是一个年级的,这四个学生按照他们朋友的年级进行分配。剩余的6个人,四个回答了关于年纪的问题,按照他们的年龄给他们分配年级(12岁在7年级,13岁在8年级等等),最后没有提供可利用信息的两个学生,按照与年级大小同比例的概率随机分配年级。种族这个变量取自一对问题,自我鉴定种族和拉美裔,拉美裔被认为是主要的,即任何人谁确定为拉美裔就被归类为拉美裔,不分种族。所有其他的都归类为非拉美裔。我们摧毁了所有阻止模型收敛于有限参数,把黑人,白人,拉美裔分成一个单一的类别,给定小数值,一些类别组内边缺失。方法

ERG建模类定义了有演员个数为n的网络的概率如下: p(Y=y)=(1/k)exp{

} gA(y)表示任何可能的网络统计量,A标识的多元统计量包含在模型向量g(y)中,我们将在下一节中看到大量的例子,ηA表示这些术语的系数,他们的值反映在gA每增加一个单位的条件下,边的对数几率的变化。K表示:标准化常数,exp()对于演员数为n的所有可能网络的网络求和,除了最小的网络或简单的模型,这个常数不能直接估计指定矢量g(y)和η的特定网络的概率,也不能估计观测网络中参数向量η的最大似然估计。Strau和Ikeda(1900)讨论使用逻辑回归来计算极大伪似然估计(MPLE),尽管用较强的全局相依模型中用这种方法为真正的似然值估计的的效果不是很好。另一方面,Geyer 和Thompson(1992),采用MCMC作为这类问题的一般估计工具,并且Snijders(2002)讨论了它在社交网络中的应用。为获得η参数的极大似然估计值(MLE),使用逻辑回归的二元独立模型(极大似然估计值和伪似然估计值一致)和马尔可夫链蒙特卡罗的二元相依模型。对于无向网络,二元独立性模型定义为:

;这样的模型通常是有一个边术语和计算演员不同属性组合间的边的数量术语集合组成。二元相依性模型的例子包括的术语有:三角形,星状,度。

Statnet包能进行相应所有的模型拟合和估计,一组统计网络分析在R环境下运行。这个包包含了早起论文关于这个问题讨论的新的模型的确定以及快速准确的优化拟合数据模型的过程的许多算法的发展。其中的一些功能包括使用R的用户界面和在C下进行复杂的内存密集型计算的数据处理;更有效的稀疏网络存储方法;在远离MLE时候快速移向MLE,在靠近MLE时候会有更精确的MLE的混合算法的使用。通过常用的二元节点的大小的排序 加速链的混合的算法的应用。

对于本文基于MCMC估计过程,我们选择a chain burn-in of 100000 toggles,MCMC样本大小为10000,区间为1000个toggles的连续样本,链从MPLE的值开始,η向量获得逻辑回归。链运行上面的长度(100000+10000*1000=10.1百万的步骤),用Geyer和Thompson算法从链中得到η的新的估计值。然后链从这个新的起点从新开始,该循环最多重复5次,得到每个模型的η的最终估计。模型术语

ERG模型类是通用的,它包含的无数个潜在的网络统计量。这里我们重点关注在literature中常见的统计量,理论上和无向友谊数据相关,并且估算一个大小为1600的演员的网络是可行的。重点是那些能够捕获网络中全局结构的相对局部的统计量(那些给定边的概率直接相依于图中只有少量的数目的其他二价基)。

创造社交关系的同时,社交网络模型通常包含多个这样的术语来捕捉各个工作流程。在考虑社交网络的时,特定的统计量组合的选择一般有两种方法,这两种方法会在下一节中使用。第一个涉及推导相依性假设的术语集合,通过Hammersley-Clifford Theorem(1974)定理即(哈默斯利-克利福德定理)。这个方法的好处是得到明确的模型的相依性的确切性质。这种方法的一个常见例子是Frank和Strau的马尔可夫相依性模型,齐次形式导致一下术语:边,三角形,星集(或者等价于度)。另一种方法是部分有条件的独立的模型,由Pattion和Robins首次解释,由Snijders等扩展,由Robins等讨论这个问题。这篇文章认为“意识到”相依性的形式要比马尔可夫大一步;包括马尔可夫术语,k-三角形术语和k-twopaths术语。包含全套的k-三角形术语和k-twopaths术语产生大量的参数,能够导致退化问题,并且很难解释。相反,Snijders等提出这些分布参数形式(交替的k-三角形和交替的k-twopaths,交替的k-星统计量),减少了参数空间。前两个术语是几何加权沿边的共享的合作伙伴(GWESP)和由Hunter探索的Dyad-wise共享合作伙伴(GWDSP)。第三术语分享了和Hunter的几何加权度的类似关系,但这里的关系涉及小参数化,而不是确切的等价性。

另一种方法是考虑统计量的许多可能的组合,并观察哪一个组合凭经验得到能最好的拟合一个给定的数据集。这种类似于线性回归的迭代模型或者其他广义线性模型的各种各样的形式,这个方法在比较模型时有很大的灵活性,基于观察到的对于一个给定的数据集结构。然而,由于一些高阶术语的复杂的相互作用,并且非线性的影响,通过迭代添加或者去除术语来得到一个很好拟合模型的一般方法还不是很清楚。例如,具有抵消效应的两个不同的术语,对避免退化可能是很有必要的;只添加一种可能不能洞察包含两种的模型的适用性。然而,当结合理论基础和反复试验,这种方法成功取得了对一些大型、复杂的网络的模型拟合。

下面我们定义出现在任何模型的成分术语,模型表达式是在一个对称矩阵的假设的框架下,给定无向数据。我们首先定义一组变量: xvi:属性v下演员i的属性值 Xva:属性v=a的所有演员集合 di=

:演员i的度

:演员i,j共有的伙伴的数目,即他们共有的邻居的数目

:k-edgewise共享合作伙伴统计量

:k-dyadwise共享合作伙伴统计量

其中,I{}是标函数,=1如果

;=0 否则。如果不同的模型我们深入考虑向量z(y),将会得到如下的网络统计量: L(y):

:边统计量

T(y):

:三角形统计量 Dk(y):

:k-度统计量 Sk(y):

:k-星统计量

Mv,a(y):

:对于属性v=a的边统计量 Hv,a(y):

:属性v=a的有差异的聚类统计量 Uv(y):

:属性v的均匀聚类统计量

:属性v的绝对差统计量

:具有参数θ1的几何加权统计量

:具有参数θ2的几何加权沿边共享伙伴统计量

:具有参数θ3的几何加权dyadwise共享伙伴统计量

L(y), T(y), Dk(y)和Sk(y)在网络的文学中有很悠久的历史,一般都是熟悉的。Mv,a(y),Hv,a(y),Uv(y),Av(y)是能够捕获演员属性结构关系的属性特定术语。Mv,a(y)模拟主效应,允许属性的每一项水平形成不同倾向的边。Hv,a(y)模拟了在属性类中每个属性水平成员形成边的不相关的倾向。然而,所有的组的单一的组内偏好由Uv(y)模拟。Av(y)模拟了边概率趋势的单调变动,当两个演员属性值的差的绝对值增加;这个术语仅仅被定义为价值或序属性。

统计量u(y, θ1),v(y,θ2),w(y,θ3)表示Snijders等的高阶参数术语,由Hunter和Handcock(2006)和Hunter(2006)重新参数化。几何加权度术语u(y, θ1)表示度分布的参数形式,v(y,θ2)表示聚类的参数形式,并且等价于交替的k-三角形。最后,w(y,θ3)可以被认为作为对度结构等价的参数形式(以前书中没有讨论过的一种解释),它考虑那些可能或者不可能和另一个人相连接,但是却可能与同样的其他的人连接。这个术语等价于Snijders等的交替的k-twopaths。

注意,三个θ术语可以取任意的正值。考虑v(y,θ2),看这个范围表示什么。当θ2的取值接近无穷大时,v(y,θ2)统计值接近图中三角形数量的三倍。当θ2趋近于0,v(y,θ2)的值接近图中局部至少一个三角形的边的数量。后者的统计量也包含二元相依性,但是在形式上依旧是封闭的;一旦,一对演员在一个三角形中,他们不在形成任何特别的爱好

。θ2可以取值两者中间的任意一个,来捕获规模和集群的大小;θ2的值即最大似然估计的值可以通过Hunter和Handcock(2006)和Hunter(2006)的方法估计,虽然这显著的增加了必要的计算时间。θ1,θ3可以类似的估计或拟合。在下面的分析中我们令θ1,θ2,θ3=0.5。这个是基于探索一些降低模型在θ术语多水平下的似然值,确定似然值在0.25-1范围内变动,最大的似然值趋近于0.5,自由变动的θ值没有用到,因为这个方法并不对所有呈现出来的模型收敛。我们认为上述项组合的理论推导包括Frank和Strau的马尔可夫模型,其中统计量包括L(y), T(y), Sk(y)对任意的k属于{2……n-1}。我们检测了一般的缩减的马尔可夫模型通过研究网络文献,这些文献仅仅包含L(y), T(y), S2(y),S3(y)。鉴于目前的兴趣知识基于的网络文化某些分支的度模型,我们也拟合包含Dn(y)术语的,在一个完全饱和的非参形式中就可以捕获它的度分布,看到这种模型如何拟合很好的拟合该网络的整体结构。这种形式表示无向分析。饱和度模型也很有必要拟合度分布或者拟合的比在目前文献中讨论的任何各种参数化的度分布更好。

我们还采用添加术语集建议的术语到当前的模型中的方法,看哪一个能明显改进模型的拟合,在模型构建的下一次迭代开始之前选择添加到模型中去。一些术语是其他术语的函数(例如:),所以在随后的循环中包含一个抵消要考虑的另一个的情况。尝试我们建议的统计量的每一个模型太广泛,并且数据的检测表明,一些术语是显然是基础性的;我们将首先从有显著的重要性的术语开始建模来减少建模的数量。如下面所示:

模型选择和拟合优度

为了检验模型的拟合优度,我们使用三种常用的方法。

1、检查退化和模型收敛

拟合较好的模型的最低要求是估计的参数收敛到有限的参数值。它也必须是非退化的,即不要产生的一些网络的所有可能性与观测网络完全不一致,如空网和满网。

2、比较模型之间的赤池信息准则(AIC)

二元独立模型可以用标准的逻辑回归进行拟合,它可以产生模型的似然估计。二元相依模型必须用用MCMC进行拟合,也产生似然估计。这些似然值为近似值,由于在Addhealth数据集下,并不是所有的图形都是可能的;例如,在数据选择中选择出度为10的,这就是一种限制形式。在这里我们忽视效应,比较模型时用给定的似然值来推测AIC,低的AIC意味着拟合的模型有显著的提高。注意,由于模型变得越来越复杂,并且包含多个二元相依性术语,在当前方法下似然值的估计变得不太精确,必须找到模型选择的额外方法。

3、高阶统计量的拟合优度的绘制。

这一方法有Hunters等详细介绍。根据拟合的模型蕴含的概率分布,需要形成新的网络。因为规范常量仍然存在拟合的模型中,必须在估计过程中用相同的MCMC方法。感兴趣的统计量将会在原始网络和从模型中预测的网络得到的进行估计,然后通过绘图进行比较。如果原始网络和模型中拟合出的网络不一致,网络的结构不同于从模型中预测出来的结构,说明该模型没有拟合好。多远统计量提供有关系统的方法的详细信息,来观察数据和模型拟合的不同。

对于这种方法,我们比较的网络统计量包括度分布(所有的参与者),共享伙伴分布(所有边),测地距离分布(所有的二元接点)。度和测地距离是众所周知的;另外,在在捕获网络中的聚类模式时,共享伙伴是一个相对较新的概念。一个边的共享伙伴值(早期定义的spij统计量)表示边的两边的演员的是相互伙伴的数量。所有边的分布提供一个图形,不仅包含聚类的大小,而且包含存在的规模。为了有更大的可视性,在任意值log-odds规模上绘制每一个术语。虽然我们选择了三种统计分布进行了比较,但该方法是目前更为一般的;任何感兴趣的统计量都可能通过图形加以考虑。统计量的选择可通过网络理论和研究者的个人目标的组合进行引导。结果

1、我们首先伯努利模型(模型1),即用单个术语捕捉密度网络。AIC在表1中显示;参数估计 表2中(连同标准误差估计),拟合优度在图1中显示。毫无疑问,这种简单的模型不能捕捉原始数据的更大统计量,在比较拟合优度图时。

2、标准的马尔可夫模型(模型2)。该模型不收敛有限的参数估计;不同条件下的多次运行,三角形参数的值趋近于正无穷,其他的术语趋近于负无穷;真正的极大似然值可能存在无限参数,或者观测网络是不可能的,在模型有限的极大似然值下,拟合过程是不收敛的。

减小的马尔可夫模型(模型3),产生相同的结果。

Snijdr等人的均匀的实现相依模型(模型4),提供了更好的效果;其参数估计都包含在表1中,拟合优度统计量图在图1b中。模型收敛。很大程度上是能够捕捉度的分布和共享的合作伙伴,网络特性,它是使用一个简单的参数化的形式进行建模的。然而,这个模型捕获路径长度的高阶结构的能力是有限的。

没有包含其他术语的完全参数化的度分布(模型5),能很完美的捕获度分布(如果他不能,那么我们会非常麻烦)。图1c中包含聚类和测地,对于测地长度,从原数据中获得的长度要比伯努利模型中的要长。完美的捕获度分布,会告诉我们一些相对局部的(共享合作伙伴分布)和全局网络结构(测量分布)的一些情况。既然没有一个同种类的模型能够捕获所有的网络结构,我们求助于迭代添加术语来改进模型的拟合。我们回到了伯努利模型作为起点。由种族和年纪构成的混合矩阵的伙伴关系显示年级内和种族内的关系有更强的趋向性。在网络形成中混合这些元素无疑是一个强大的元素。并且推测在任何模型下能准确的获得网络形成过程。因此,首先涉及两个统计量的六个模型;

这六个模型是独立的模型,MEL使用逻辑回归。每个模型的AIC的影响在表1中,注意到年纪同性质的差异(六个Hgrade,a(y)统计量)有很大的影响,包括这术语的在随后的模型中。

第一轮中增加每一个术语或者术语集,在表3中产生模型拟合,标准的马尔可夫术三角形语和个人星状参数,再一次导致模型不收敛。那些收敛的,都表示AIC有了改善。聚类术语V(y)的AIC最小(AIC=11242.0)

翻译

单句篇(十六) 译事三难:信、达、雅。求其信,已大难矣!故信矣,不达,虽译,犹不译也,则达上焉。...易曰:“修辞立诚。”子曰:“辞达而已!”又曰:“言而无文,行之不远。”三者乃文章正轨,亦......

翻译、

[材] 应用表面科学氮掺杂的影响在二氧化钛锐钛矿金红石相转变1 介绍作为一个环境修复剂光催化降解有机污染物,二氧化钛(TiO2) 潜在的应用一直是一个热门的研究课题。作为一个......

翻译

陶庵梦忆序陶庵国破家亡,无可归宿之处。披头散发进入山中,形状可怕地变成了野人。亲戚朋友一看到我,就象看到了毒药猛兽,愕然地望着,不敢与我接触。我写了《自挽诗》,屡次想自杀,但......

翻译

A critical年龄是人们是否患感冒的重要因素。A recent.最近的一项民意测验显示美国一半的青少年认为他们与父母的交流不好而造成这种隔阂的首要原因是有不理想的倾听行为。A......

翻译

中美紧张关系波及亚洲峰会Ben Blanchard 和 Olivia Rondonuwu报道2011年11月18号 星期五 印尼 1.(路透社)- 美国和中国之间的紧张关系的蔓延到了在周五召开的亚太领导人会议上,......

《翻译.docx》
将本文的Word文档下载,方便收藏和打印
推荐度:
翻译
点击下载文档
相关专题 翻译科学 翻译科学
[其他范文]相关推荐
[其他范文]热门文章
下载全文