第12章 网络分析
12.1 节点属性
- 最早是七桥问题
- 网络里节点(node)与连接(link)对应图论里的交点(vertex)与边(edge)
- (N,L)表示一个包含节点与连接的系统
- 节点的度指的是节点对内对外的连接数
- 网络的度指的是所有节点的平均度,无方向的除2
- 均值 <xn>=xn1+xn2+...+xnNN=1N∑Ni=1xni
- 方差 σx=√1N∑Ni=1(xi−<x>)2
- 度的概率分布 px=1N∑iδx,xi ∑ipx=1
- 连接矩阵 Aij Aij=1 表示点有链接 无方向的上下矩阵对称
- 非加权网络中Aij 等于 1 或 0
- 无方向网络Aij=Aji
- 连接矩阵通常是稀疏的
- 全连接网络 Lmax=N(N−1)2 平均度 <k>=N−1
- 密度,存在的边与可能存在边的比值
- 介数中心性,它代表了某节点与其他节点之间的互动程度,具有较高介数中心性的节点控制网络信息流
- 平均路径长度,表示网络的平均节点两两最短距离
- 半径,表示网络的最大的节点两两最短距离
- 组分,几个子网络
- 二分图,顶点可分成互斥独立集U和V
- 聚集系数,邻居互相连接的比例 Ci=2eiki(ki−1) Ci=1 表示全连接,0表示全不连接,你朋友互相认识的概率
12.2 网络集群
- 假设1:集群存在与节点的连接关系中
- 假设2:集群内部联通度高
- 假设3:随机网络里没有集群
- 假设4:最大模块假设 M=∑ncc=1[lcL−(kc2L)2]
- 集群是否存在无法验证,所以只有假设
- 集群存在共享节点
- 算法很多, Louvain 与 the Infomap 比较快(o(NlogN)),cfinder 比较慢(o(eN))
- 集群也存在生成与进化问题
- 模块化指数(modularity index)群组内边的比例 Q=12m(Aij−kikj2m)δ(ci,cj)
- m 是总边数,δ(ci,cj) 是Kroenecker delta function,当两个节点属于一个模块时为1,否则为0
- 寻找集群本质是最大化模块化指数,目前并无最优算法
- Newman & Girvan 2004 利用边介数来寻找社群
- Clauset et al. 2004 分层算法,对大网络稀疏网络设计
- Pons & Latapy 2005 基于随机行走的凝聚算法
- Reichardt & Bornholdt 2006 基于磁子低能态算法
- Newman 2006 基于模块矩阵与特征向量的算法
- 同质性(homophily 或 assortment),考虑节点性质的均一性
- 同质化系数(assortment coefficient)r=∑ij(Aij−kikj/2,)xixj∑ij(kiδij−kikj/2,)xixj,其中kiδij 是节点i排除与节点j相连后的度,类似皮尔逊相关系数,越大均质化程度越高
12.3 随机网络模型
- 任意两点链接概率固定,符合二项分布的概率,度取决于概率与节点数
- 稀疏网络近似符合泊松分布,参数只有平均度
- 100点之下还是用二项分布
- 度是泊松分布
- 随机网络里出现高度节点的概率很低,与现实不符
- 平均度为1,也就是概率为1N时,随机网络可出现大节点。小于1时网络高度节点的增长赶不上节点数增长。到了1时出现临界点,大的节点大概是 N23 。当平均度达到 lnN(p>lnN/N) 时,所有节点连接在一起。
- 真实世界里平均度大于1小于lnN,也就是存在大节点,但并不完全贯通,处于亚临界与全联通之间,为超临界状态
- 随机网络里节点数固定,单总距离数 N(d)≈1+<k>+<k>2+...+<k>d=<k>d+1−1<k>−1
- 最大距离 N(dmax)≈N≈<k>dmax 距离 dmax≈lnNln<k>
- 网络连接越密集,平均距离越短
- 互联网平均距离 <d>≈0.35+0.89lnN
- 小世界特性,随机网络里平均距离比较短
- 聚集系数,邻居互相连接的比例 Ci=2<Li>ki(ki−1)=p=<k>N
- Watts-Strogatz 小世界模型,低平均距离与高聚集系数,处于完全聚集长距离的正则网络与不聚集短距离的随机网络之间
12.4 无尺度网络
- 度的概率分布事符合幂律的 logpk=−γlogCk+b ,其中γ是度指数
- 因为 ∑∞k=1pk=1,所以 C=1∑∞k=1k−γ=1ζ(γ)
- 后面那个是 Riemann-zeta 函数,因此概率 pk=k−γζ(γ)
- 最大的度 kmax=kminN1γ−1 节点数越多,最大节点数越大,比随机网络大很多
- 无尺度主要是说n阶矩的分布 <kn>=Ckn−γ+1max−kn−γ+1minn−γ+1 ,多数无尺度网络的 γ 在2-3之间,因此除了一阶矩以外,所有的高阶矩都会非常大,随机网络则有尺度
- 超小特性,平均距离要比随机网络小很多,γ=2 平均距离是常数,2-3之间为lnlnN,3为lnNlnlnN,大于3为lnN(小世界网络)。在无尺度网络里大节点会缩小距离。
12.5 无尺度的生成 - Barabási-Albert 模型
- 网络的生长存在选择性依附,新节点会依附在度更高的节点上
- 生长概率 ∏(Ki)=ki∑jkj
- 度动力学 dkidt=m∏(ki)=mki∑N−1j=1kj
- m个连接 ∑N−1j=1kj=2mt−m
- 整理后得到 ki(t)=m(tti)β,β 为0.5
12.6 网络的进化 - Bianconi-Barabási 模型
- 选择依附会导致后来的成为节点概率低,无法解释现实世界里后来居上的现象
- 生长概率∏(Ki)=ηiki∑jηikj η 代表适应度(fitness)
- 后来者适应度如果高,其度也很超过先来的
- 互联网适应度与概率指数分布,期刊适应度峰分布
- 物理机制可对应 波色-爱因斯坦凝聚态,适应度对应能量,新节点对应能级上新粒子,节点度对应能级上的粒子数。波色-爱因斯坦凝聚态可以无限吸引新粒子,因此不再无尺度,出现强者恒强
- 还要考虑节点删除与老化
12.7 度相关现象
- 大节点似乎不连接大节点,小节点总是连接小节点
- 两个节点连接概率 pk,k′=kk′2L
- 神经网络是随机连接,符合概率
- 匹配性网络(assortative network),大节点互相连接,小节点只连接小节点,光环效应
- 非匹配性网络(disassortative network),大节点连接小节点但互相不连接
- 度相关矩阵 eij且∑i,jeij=1
- 度的概率 qk=kpk<k>,因此 ∑jeij=qi
- 单一节点度相关性 knn(ki)=1ki∑Nj=1Aijkj
- 网络总相关性 knn(k)=∑k′k′P(k′|k)
- 神经网络里 knn(k)=<k2>k
- 近似公式 knn(k)=akμ
- 神经网络 μ=0,匹配性网络科学家合作网络 μ>0,非匹配性网络代谢网络 μ<0
- 度相关系数 r=∑jkjk(ejk−qjqk)σ2,其中σ2=∑kk2qk−[∑kkqk]2
- 度相关系数r与相关指数μ假设不同但基本相关
- 朋友悖论:朋友总比你受欢迎
- 真实网络存在度相关,改变度相关会改变网络性质,对网络功能的进一步描述
- 模型生成的配置模型与隐参数模型可根据度来生成模型
- 静态生成模型是非匹配或随机网络
- 当γ>3,动态生成模型可能是弱匹配网络
12.8 网络稳健性
- 去掉节点后网络功能性的影响,复原能力与冗余机制是稳健性保障
- 渗透理论(percolation),少量节点去除后不影响整体,但超过关键点后会碎裂成小集群,林火理论
- Malloy-Reed 法则:<k2>k>2 判断是否存在大组分
- 随机错误 fc=1−1<k2><k>−1
- 随机网络 fERc=1−1<k> 无尺度网络二阶矩很大,所以容错高
- 提高稳健性 fc>fERc
- 遭受攻击时 f2−γ1−γc=2+2−γ1−γkmin(f3−γ1−γc−1)
- 如果优先攻击高度节点,那么稳健性会很低,随机进攻影响不大
- 攻击会造成级联反应,最稳健的网络一个中心节点,其余节点度相同,非无尺度网络
- 拉萨路效应(Lazarus effect):一个突变细菌继续敲除基因后会死而复生,继续繁殖,相当于林火模型里放任小火堆