1.2.1 社交网络分析研究方向

信息传播

社交网络分析(SNA)的研究呈现出多角度、多层次的特点。1967年Stanley Milgram在其发表的The Small World Problem(小世界问题)中提出了六度分隔理论。在这篇文章中,他通过连锁信实验的结果,提出了著名的六度分隔理论,即任何两个互不相识的美国人之间,平均只需要通过六个人就能建立起联系。这一理论揭示了人际网络中人们关系的紧密性,并对后来的社交网络研究产生了深远影响。

关于信息传播的研究主要分为流行度分析、信息传播建模和信息溯源三个方面。针对流行度分析,Szabo和Huberman等[ 12]提出了SH模型,通过回归分析预测信息的流行度。他们为流行度分析建立理论基础,利用数学模型和数据分析方法,探索信息流行度的形成和演化机制。胡长军等的《在线社交网络信息传播研究综述》[ 1]系统地总结了流行度预测和流行度演化分析的方法,包括基于回归分析、用户行为和时间序列的方法。

较常用的信息传播模型主要有独立级联模型(in-dependent cascade model,IC)和线性阈值模型(linear threshold model,LT)以及传染病模型中的SI模型、SIS模型、SIR模型、SIRS模型、SEIR模型等。Myers和Leskovec[ 13]研究了多条信息在社交网络中的竞争与合作机制。他们基于博弈论和传染病模型,分析复杂信息交互对传播效果的影响,建立了更加精细的传播模型。2001年,Domingos和Richardson提出了基于马尔可夫随机场(Markov random field)的社交网络影响力模型,这一模型主要用于分析社交网络中用户行为之间的相互依赖关系,特别是在信息传播和影响力扩散过程中。方滨兴等的《在线社交网络分析》中介绍了单信息传播建模方法和多信息传播建模方法,特别是基于复杂网络理论和动态变化特性的模型,通过改进传统传播模型,考虑时间延迟、异步传播等因素,更准确地描述信息传播过程。

信息溯源方面的研究起步较早,理论基础较为扎实,研究方法多样化、精细化。很多学者不仅关注溯源算法的准确性和效率,还注重溯源技术在公共健康、信息传播控制等领域的应用。例如,Lokhov等[ 14]提出了一种基于动力学消息传递算法的溯源方法,利用网络中节点间的连接关系和观测到的感染状态,反向推算出最可能的感染源。该方法在复杂网络环境下表现出较高的准确性和效率。他们在研究中应用了三种算法——动态信息传递算法、SIR模型假设法以及统计推理法。动态信息传递算法通过在网络中迭代传递信息来更新每个节点作为潜在源头的概率。在每次迭代中,每个节点根据其邻居节点的状态和连接关系,计算并更新其被感染的概率,从而逐步逼近真实的感染源。SIR模型假设法通过假设信息传播遵循SIR(易感者-感染者-恢复者)模型,即节点处于易感(S)、感染(I)或恢复(R)三种状态之一,并通过一定的概率在这些状态间转换。最后结合动力学信息传递和统计推理的方法,对网络中每个节点作为源头的可能性进行评估和排序,最终确定最可能的感染源。Prakash等的研究探讨了在不完全时间戳条件下的信息溯源问题,提出了基于部分观测数据的溯源算法。Zang等[ 15]研究了在社交网络中发现多个信息传播源节点的问题,提出了基于反向传播与节点分区的多源溯源方法。国内学者在信息溯源领域主要关注复杂社交网络结构下的高效、准确溯源方法。研究方法包括基于节点属性的方法、基于传播模型的推理法以及结合大数据和机器学习的创新方法。胡长军等[ 1]综述了信息溯源的基本方法、挑战和最新进展,介绍了基于中心度测量、统计推理等的多种溯源技术。方滨兴等探讨了社交网络分析中的信息溯源问题,特别是在不完全观测条件下的溯源方法。

情感分析

社交网络分析最早由英国著名人类学家Radcliffe-Brown(拉德克利夫-布朗)提出,他主张对社会结构进行分析,并呼吁学者开展社会网络的系统研究与分析。而情感分析(sentiment analysis)的引入,是作为一种对自然语言处理(NLP)的技术发展起来的,旨在对人类言论等行为所表达的情感导向进行分析。社交网络分析的情感分析,严格意义上来说属于观点挖掘的范畴,根据用户在社交网络中的一系列行为(如评论、点赞等),以心理学、行为学等理论为基础,采用自然语言分析处理技术等方法,分析社交网络用户对实体(如产品、事件、观点、个人等)表达的观点与情感倾向等[ 16]

随着互联网技术的快速发展,在线社交网络如Facebook、Twitter、微博等迅速崛起,成为人们日常生活中不可或缺的一部分,这些平台为用户提供了分享生活、表达观点和情感的空间,产生了大量的用户生成内容(UGC),包括文本、图片和视频等。社交网络数据具有规模庞大、动态性和多样性等特点,为情感分析提供了丰富的数据源,同时这些数据包含了用户的真实情感表达,对于理解公众情感、预测社会事件等也具有重要意义。这使得企业、政府和学术界对理解公众情感的需求日益增长,情感分析成为自然语言处理(NLP)领域的一个研究热点。而情感分析旨在从文本数据中提取情感信息,如情感倾向、情感强度等,以支持决策制定、市场研究和舆情监控等应用。这些具有特殊性的情感处理需求与情感分析的特定效果的结合,使情感分析应用格外重要。

社交网络分析和情感分析的结合是计算机科学、社会学和心理学等多学科交叉融合的结果,不同领域的学者从各自学科的角度对这一问题进行研究,也推动了情感分析在社交网络分析方面的应用和发展。

社区发现

社区发现(community detection)是指在社交网络中识别和提取具有高度内部连接的节点子集或群体的过程。社区通常代表社交网络中结构紧密、联系密切的子群体,如朋友群、兴趣小组或专业网络。发现这些社区对于理解网络的结构和功能具有重要意义。社交网络分析中关于社区发现方面的研究已经取得了丰硕的成果,并发表了大量相关文献。这些研究不仅提出了多种社区发现算法,还探索了社区发现在社会网络分析、信息传播和推荐系统等多个领域的应用。在社区发现算法的相关成果中,较为常见的有基于模块度的优化算法、谱聚类算法、标签传播算法以及动态社区发现算法等。

在基于模块度的优化算法中,较为常见的有Newman快速贪心算法,Girvan等[ 17]首次系统地研究了复杂网络中的社区结构,并提出了该算法。他们首先定义了网络中的社区结构(即网络可以被划分为若干个内部连接紧密而外部连接稀疏的子图)和边介数(即网络中所有最短路径中经过某条边的比例)。基于边介数设计了一种迭代算法来发现网络中的社区结构。算法的基本步骤是不断移除网络中边介数最高的边,每次移除后重新计算剩余网络的边介数,直到网络被完全划分成孤立的节点或达到某个预设的停止条件。通过对多个真实网络的分析,展示了Girvan-Newman算法的有效性。

谱聚类算法(spectral clustering)是一种基于图论的聚类方法,它通过数据的相似度矩阵(或称为亲和度矩阵)的特征值和特征向量来进行聚类。在社交网络分析的研究中通过构建社交网络中的用户关系图,谱聚类算法可以发现社交网络中的社区结构。Luxburg等[ 18]详细介绍了谱聚类的理论基础、算法步骤及其在不同场景下的应用。他们从图割(graph cut)的视角出发,解释了谱聚类算法的本质和优点,探讨了谱聚类算法的一致性问题,即随着样本量的增加,谱聚类算法是否能够稳定地收敛到真实的聚类结构。通过理论证明,分析了谱聚类算法在特定条件下的一致性问题。这些条件包括数据的生成模型、相似度矩阵的选择,以及聚类数量的确定等。同时探讨了谱聚类算法在不同条件下的收敛速度,以及收敛到真实聚类的充分必要条件。这些分析为谱聚类算法的应用提供了重要的理论依据,最终从理论上证明了谱聚类算法在某些条件下的收敛性和一致性,为谱聚类算法的应用提供了坚实的理论基础。Ng等[ 19]提出了一个具体的谱聚类算法,并分析了其性能。该算法基于数据的相似度矩阵的特征向量,通过K-means等简单聚类方法完成最终的聚类过程。

标签传播算法(label propagation algorithm,LPA)是一种基于图的半监督学习方法,主要用于数据聚类或任务分类。Zhu等[ 20]首次提出了标签传播算法,该算法通过构建数据项之间的相似度图,将已标记节点的标签信息通过图结构传播到未标记节点。算法的基本思想是基于图的局部一致性假设,即相邻节点倾向于具有相同的标签,并将其应用于半监督学习问题中。2007年,Wang等[ 21]提出了一种新的标签传播策略,即利用节点的线性邻域关系来指导标签的传播。他们引入了线性邻域的概念,即每个节点不仅与其直接邻居相连,还与其邻居的邻居(二阶邻居)等以线性方式相关。这种线性邻域关系通过考虑更广泛的上下文信息来改进标签的传播。此外,为了提高算法的效率,他们还提出了一种基于稀疏矩阵的优化方法,利用稀疏矩阵运算来加速标签的更新过程。2010年,Liu等[ 22]研究了在大规模图上构建有效标签传播算法的方法,通过构造稀疏图结构来降低计算复杂度,同时保持较高的分类性能。

动态社区发现算法主要关注如何在动态网络中有效地识别和跟踪社区的演化。随着社交网络的兴起和在线交互数据的爆炸性增长,动态社区发现成为了复杂网络分析中的一个重要研究领域。Greene等[ 23]对动态社交网络中的社区演化进行了研究,通过关注动态社交网络中社区随时间的变化过程,指出动态社交网络中的社区结构是随时间不断变化的。他们介绍了多种社区发现算法,例如模块度优化算法,同时提出了一种适用于动态网络的社区发现算法,该算法能够处理网络拓扑结构的快速变化,并跟踪社区的演化过程。此外还定义了量化社区演化过程的指标,如社区存活时间、社区大小变化率等,用于评估社区演化的稳定性和动态性。通过这些指标,可以对不同社区的演化模式进行比较和分析。

舆情传播

舆情传播是指在社交网络和媒体平台上,公众意见、情感和态度的形成和扩散过程。随着互联网和社交媒体的普及,舆情传播的速度和影响力显著增强,成为社会舆论和公共政策的重要组成部分。舆情传播已成为社交网络分析的一个热门研究领域,吸引了众多学者的关注。国内在社交网络分析及其在舆情传播中的应用方面也取得了显著进展。国内学者通过改进经典的信息传播模型(如独立级联模型、线性阈值模型),提出了多种适用于社交网络的信息传播模型,以更好地描述舆情传播的过程。在舆情监测与预警方面,基于社交网络大数据,研究舆情事件的监测、预警机制,以及舆情演化的趋势预测。例如,国内多个研究团队开发了舆情监测系统[ 24 25],通过实时监测社交网络中的关键词、情感倾向等指标,为政府和企业提供舆情预警服务。

国外在社交网络分析与舆情传播方面的研究起步较早,研究成果丰富多样。国外的研究者不仅关注舆情传播的基本机制,还深入探讨了舆情传播与社会现象、公众情绪、政治态度等之间的关系。同时,国外的研究还注重跨学科合作,将计算机科学、社会学、心理学等多个领域的知识和方法结合起来,形成了一套较为完善的研究体系。国外学者从复杂网络、传染病模型、博弈论等多个角度提出的信息传播理论,为解释舆情在社交网络中的传播机制提供了重要的理论框架。其中,Myers和Leskovec[ 13]提出的竞争传播模型考虑了信息间的竞争与合作关系,能够预测多种信息在社交网络中共同传播的情况。他们基于进化博弈论的思想构建了一个信息传播模型,用于模拟多种信息在社交网络中的传播过程。该模型考虑了信息间的竞争与合作机制,通过量化信息间的相互作用来预测不同信息的传播情况。试验后发现,这种基于进化博弈论的信息传播模型能够较好地预测多种信息在社交网络中的共同传播情况,且与传统的独立级联模型相比,该模型在预测精确度上有显著提高,能够更好地捕捉信息间的相互作用。这种模型为舆情传播研究提供了一种新的视角和方法,有助于更深入地理解舆情在社交网络中的传播规律和机制。同时,这种理论框架也为舆情监测、预警和管理提供了有效的工具和方法,对于监测舆情传播效果、维护社会稳定具有重要意义。Vosoughi等[ 26]收集大量来自不同在线社交网络(如Facebook、Twitter等)的真实新闻和虚假新闻传播数据,通过分析和对比,发现虚假新闻在某些情况下传播得更快、更广。他们探讨了真实新闻和虚假新闻在社交网络中的传播差异,对理解舆情传播中的信息真实性问题具有重要意义。

国内研究不仅关注舆情传播的宏观过程,还深入微观层面,分析个体行为、社交关系、信息传播路径等因素对舆情传播的影响。研究成果广泛应用于政府决策、企业公关、社会舆论监控等领域,为相关部门提供了重要的参考依据。

推荐系统

推荐系统(recommend system)是一种通过分析用户行为和偏好,为用户提供个性化产品、服务或信息建议的技术。推荐系统广泛应用于电商平台、社交媒体、流媒体服务、新闻网站等,旨在提高用户体验和满意度,同时增加平台的用户黏性和商业收益。社交网络分析在系统推荐方面也有许多研究,其中一些研究较为深入,这里我们将在三个研究方向对这些研究进行探究。

第一个方向是基于图结构的推荐算法,它将社交网络视为图结构,利用图算法来挖掘用户之间的潜在联系,进而改进推荐效果。例如Baltrunas[ 27]强调在实际应用中,用户的兴趣和偏好是随时间变化的。因此,传统的静态推荐方法往往无法准确捕捉用户的动态需求,他提出了构建时间感知推荐系统的必要性,旨在通过考虑时间因素来提高推荐的准确性和个性化程度。他还探讨了如何利用隐式反馈数据来构建推荐模型,特别是如何从这些非直接反映用户喜好的行为中提取有用的信息,与显式反馈(如用户评分)相比,隐式反馈(如浏览历史、点击行为等)更为丰富且易于获取。他介绍了一种基于时间感知的协同过滤推荐算法,该算法在建模过程中考虑了时间因素对用户兴趣和偏好变化的影响,利用时间戳对用户的隐式反馈数据进行排序和分组,通过分析不同时间段用户行为的差异来捕捉用户的动态兴趣变化。最后通过实验表明该算法在准确性和个性化程度方面均有显著提升。

第二个研究方向是社交影响与推荐,通过研究用户在社交网络中的相互影响行为,探究如何利用这种影响来增强推荐的可信度和接受度。例如Ozsoy等[ 28]探讨了基于信任的推荐系统,强调了在社会化网络中,用户之间的信任关系对于推荐效果有着显著影响。用户的信任网络提供了关于用户偏好和可靠信息源的重要线索。他们还分析了传统推荐系统(如基于内容的推荐、协同过滤等)的局限性,特别是它们在处理稀疏性和冷启动问题上的不足,以及忽视用户间信任关系的缺点。通过介绍不同类型的信任度量方法,包括显式信任和隐式信任,讨论了如何构建信任网络,并基于这些信任网络来改进推荐算法。例如,通过整合信任网络信息和用户评分数据来生成更加准确的推荐。最终通过实验和案例分析证明了考虑用户间信任关系对于提高推荐系统性能的重要性。基于信任的推荐系统能够生成更加符合用户实际需求和偏好的推荐结果,从而提高用户的满意度和忠诚度。

最后一个研究方向是深度学习在社交网络推荐中的应用,其利用深度学习模型(如卷积神经网络、循环神经网络、图神经网络等)来处理社交网络中的复杂数据,实现更加精准的推荐。