第12章 网络分析

12.1 节点属性

  • 最早是七桥问题
  • 网络里节点(node)与连接(link)对应图论里的交点(vertex)与边(edge)
  • (N,L)表示一个包含节点与连接的系统
  • 节点的度指的是节点对内对外的连接数
  • 网络的度指的是所有节点的平均度,无方向的除2
  • 均值 <xn>=xn1+xn2+...+xnNN=1NNi=1xni
  • 方差 σx=1NNi=1(xi<x>)2
  • 度的概率分布 px=1Niδx,xi ipx=1
  • 连接矩阵 Aij Aij=1 表示点有链接 无方向的上下矩阵对称
  • 非加权网络中Aij 等于 1 或 0
  • 无方向网络Aij=Aji
  • 连接矩阵通常是稀疏的
  • 全连接网络 Lmax=N(N1)2 平均度 <k>=N1
  • 密度,存在的边与可能存在边的比值
  • 介数中心性,它代表了某节点与其他节点之间的互动程度,具有较高介数中心性的节点控制网络信息流
  • 平均路径长度,表示网络的平均节点两两最短距离
  • 半径,表示网络的最大的节点两两最短距离
  • 组分,几个子网络
  • 二分图,顶点可分成互斥独立集U和V
  • 聚集系数,邻居互相连接的比例 Ci=2eiki(ki1) Ci=1 表示全连接,0表示全不连接,你朋友互相认识的概率

12.2 网络集群

  • 假设1:集群存在与节点的连接关系中
  • 假设2:集群内部联通度高
  • 假设3:随机网络里没有集群
  • 假设4:最大模块假设 M=ncc=1[lcL(kc2L)2]
  • 集群是否存在无法验证,所以只有假设
  • 集群存在共享节点
  • 算法很多, Louvain 与 the Infomap 比较快(o(NlogN)),cfinder 比较慢(o(eN))
  • 集群也存在生成与进化问题
  • 模块化指数(modularity index)群组内边的比例 Q=12m(Aijkikj2m)δ(ci,cj)
  • m 是总边数,δ(ci,cj) 是Kroenecker delta function,当两个节点属于一个模块时为1,否则为0
  • 寻找集群本质是最大化模块化指数,目前并无最优算法
  • Newman & Girvan 2004 利用边介数来寻找社群
  • Clauset et al. 2004 分层算法,对大网络稀疏网络设计
  • Pons & Latapy 2005 基于随机行走的凝聚算法
  • Reichardt & Bornholdt 2006 基于磁子低能态算法
  • Newman 2006 基于模块矩阵与特征向量的算法
  • 同质性(homophily 或 assortment),考虑节点性质的均一性
  • 同质化系数(assortment coefficient)r=ij(Aijkikj/2,)xixjij(kiδijkikj/2,)xixj,其中kiδij 是节点i排除与节点j相连后的度,类似皮尔逊相关系数,越大均质化程度越高

12.3 随机网络模型

  • 任意两点链接概率固定,符合二项分布的概率,度取决于概率与节点数
  • 稀疏网络近似符合泊松分布,参数只有平均度
  • 100点之下还是用二项分布
  • 度是泊松分布
  • 随机网络里出现高度节点的概率很低,与现实不符
  • 平均度为1,也就是概率为1N时,随机网络可出现大节点。小于1时网络高度节点的增长赶不上节点数增长。到了1时出现临界点,大的节点大概是 N23 。当平均度达到 lnN(p>lnN/N) 时,所有节点连接在一起。
  • 真实世界里平均度大于1小于lnN,也就是存在大节点,但并不完全贯通,处于亚临界与全联通之间,为超临界状态
  • 随机网络里节点数固定,单总距离数 N(d)1+<k>+<k>2+...+<k>d=<k>d+11<k>1
  • 最大距离 N(dmax)N≈<k>dmax 距离 dmaxlnNln<k>
  • 网络连接越密集,平均距离越短
  • 互联网平均距离 <d>≈0.35+0.89lnN
  • 小世界特性,随机网络里平均距离比较短
  • 聚集系数,邻居互相连接的比例 Ci=2<Li>ki(ki1)=p=<k>N
  • Watts-Strogatz 小世界模型,低平均距离与高聚集系数,处于完全聚集长距离的正则网络与不聚集短距离的随机网络之间

12.4 无尺度网络

  • 度的概率分布事符合幂律的 logpk=γlogCk+b ,其中γ是度指数
  • 因为 k=1pk=1,所以 C=1k=1kγ=1ζ(γ)
  • 后面那个是 Riemann-zeta 函数,因此概率 pk=kγζ(γ)
  • 最大的度 kmax=kminN1γ1 节点数越多,最大节点数越大,比随机网络大很多
  • 无尺度主要是说n阶矩的分布 <kn>=Cknγ+1maxknγ+1minnγ+1 ,多数无尺度网络的 γ 在2-3之间,因此除了一阶矩以外,所有的高阶矩都会非常大,随机网络则有尺度
  • 超小特性,平均距离要比随机网络小很多,γ=2 平均距离是常数,2-3之间为lnlnN,3为lnNlnlnN,大于3为lnN(小世界网络)。在无尺度网络里大节点会缩小距离。

12.5 无尺度的生成 - Barabási-Albert 模型

  • 网络的生长存在选择性依附,新节点会依附在度更高的节点上
  • 生长概率 (Ki)=kijkj
  • 度动力学 dkidt=m(ki)=mkiN1j=1kj
  • m个连接 N1j=1kj=2mtm
  • 整理后得到 ki(t)=m(tti)ββ 为0.5

12.6 网络的进化 - Bianconi-Barabási 模型

  • 选择依附会导致后来的成为节点概率低,无法解释现实世界里后来居上的现象
  • 生长概率(Ki)=ηikijηikj η 代表适应度(fitness)
  • 后来者适应度如果高,其度也很超过先来的
  • 互联网适应度与概率指数分布,期刊适应度峰分布
  • 物理机制可对应 波色-爱因斯坦凝聚态,适应度对应能量,新节点对应能级上新粒子,节点度对应能级上的粒子数。波色-爱因斯坦凝聚态可以无限吸引新粒子,因此不再无尺度,出现强者恒强
  • 还要考虑节点删除与老化

12.7 度相关现象

  • 大节点似乎不连接大节点,小节点总是连接小节点
  • 两个节点连接概率 pk,k=kk2L
  • 神经网络是随机连接,符合概率
  • 匹配性网络(assortative network),大节点互相连接,小节点只连接小节点,光环效应
  • 非匹配性网络(disassortative network),大节点连接小节点但互相不连接
  • 度相关矩阵 eiji,jeij=1
  • 度的概率 qk=kpk<k>,因此 jeij=qi
  • 单一节点度相关性 knn(ki)=1kiNj=1Aijkj
  • 网络总相关性 knn(k)=kkP(k|k)
  • 神经网络里 knn(k)=<k2>k
  • 近似公式 knn(k)=akμ
  • 神经网络 μ=0,匹配性网络科学家合作网络 μ>0,非匹配性网络代谢网络 μ<0
  • 度相关系数 r=jkjk(ejkqjqk)σ2,其中σ2=kk2qk[kkqk]2
  • 度相关系数r与相关指数μ假设不同但基本相关
  • 朋友悖论:朋友总比你受欢迎
  • 真实网络存在度相关,改变度相关会改变网络性质,对网络功能的进一步描述
  • 模型生成的配置模型与隐参数模型可根据度来生成模型
  • 静态生成模型是非匹配或随机网络
  • γ>3,动态生成模型可能是弱匹配网络

12.8 网络稳健性

  • 去掉节点后网络功能性的影响,复原能力与冗余机制是稳健性保障
  • 渗透理论(percolation),少量节点去除后不影响整体,但超过关键点后会碎裂成小集群,林火理论
  • Malloy-Reed 法则:<k2>k>2 判断是否存在大组分
  • 随机错误 fc=11<k2><k>1
  • 随机网络 fERc=11<k> 无尺度网络二阶矩很大,所以容错高
  • 提高稳健性 fc>fERc
  • 遭受攻击时 f2γ1γc=2+2γ1γkmin(f3γ1γc1)
  • 如果优先攻击高度节点,那么稳健性会很低,随机进攻影响不大
  • 攻击会造成级联反应,最稳健的网络一个中心节点,其余节点度相同,非无尺度网络
  • 拉萨路效应(Lazarus effect):一个突变细菌继续敲除基因后会死而复生,继续繁殖,相当于林火模型里放任小火堆

12.9 网络回归

  • 网络间的回归分析
  • Mantel Test 可用来检测矩阵相关性
  • Quadratic Assignment Procedure 是Mantel检测的回归版
  • The Multiple Regression Quadratic Assignment Procedure 是QAP的多元回归版

12.10 网络扩散行为

  • 节点间连接存在系统意义,有利于物质能量信息的传输
  • 不合群传播通过试错,后面越来越慢
  • 社群传播通过模仿,S型学习曲线,存在高速增长

12.11 网络可视化

  • force-directed algorithm 最优化布局:节点间距离最大,有连接的节点距离最小
  • 常见的有 Fruchterman-Reingold (1991) 算法、Kamada & Kawai (1989) 算法、Davidson & Harel (1996) 算法及“GEM” (Frick et al. 1995) 算法