网易首页 > 网易号 > 正文 申请入驻

社交媒体信息传播的普适规律:临界性与复杂性

0
分享至

导语

关于社交媒体上出现“信息雪崩”统计定律,至少目前为止还没有一个在各个系统都表现得足够鲁棒的实证研究。而对于信息传播来说,完全不同的过程很可能背后存在着合理的驱动机制。最近在 Nature Communications 上发表的一篇文献,分析了来自Titter、Telegram、微博等社交平台的近亿个时间序列,超过将近10年的时间窗口,展示了社交媒体上的信息传播过程的普适性和临界性。其中普适性体现在,无论具体系统的细节如何,我们都可以在不同的系统上观察到宏观尺度的统一模式;临界性则来自于信息雪崩持续时间和规模的幂律分布,相应的超规模关系(hyperscaling relations)。文章在数据上的统计检验指出,社交媒体上信息传播过程是简单传播规则和复杂传播规则的结合,并且还指出这个过程的复杂性和传播信息中包含的语义内容有关。

研究领域:社交媒体,信息传播,雪崩,临界性,渗流模型,相变

陶如意| 作者

梁金| 审校

邓一雪| 编辑

论文题目: Universality, criticality and complexity of information propagation in social media 论文链接: https://www.nature.com/articles/s41467-022-28964-8

1. 社交平台中的雪崩现象

社交媒体大幅改变了人们产生、接受和消化信息的习惯。越来越多的证据表明,线上的沟通和交流正在前所未有地改变当前的社会。例如,公众关于新冠疫情的讨论伴随着所谓的“信息大流行”,影响着大家对于疫苗接种的态度。同时,大家在华尔街 Reddit 频道线上的交流也导致很多人去购买GameStop股票,以反对对冲基金和专业投资者进行的卖空操作,最终导致这家公司在仅仅几天内就增长了超过22亿美元的市值。这也令科学家们对这种信息传播现象背后的机制产生了浓厚的兴趣。

社交媒体上信息传播的分析,至少在定性上和某些自然现象是十分相似的,如神经元放电、地震等等。这些过程的特征是爆发活动模式(bursty activity patterns) 。这些活动通常由时间上的点状事件组成,活动的爆发 (或者称为雪崩) 被定义为相邻事件的时间序列,爆发被长时间的低活跃状态 (活动数量少的一段时间) 隔开。

雪崩活动可以在宏观尺度上用爆发的规模S和持续时间T的分布 P(S) 和 P(T) 来描述。对于现实世界的很多系统,P(S) 和 P(T) 通常都是幂律衰减的。这个特征被认为是系统处于临界状态或临界状态附近的证据。另外,在临界点时,在给定持续时间之后,雪崩平均尺寸和时间之间一定会满足超规模关系。对于不同的系统,这些参数都会有不同的取值。

在社交平台中,雪崩通常指的是公众对于某个话题短时间内的大量讨论。现有对社交媒体中雪崩现象的研究还停留在小规模的数据集,尽管这些不同的工作都发现雪崩的规模分布以及持续时间分布都满足幂律衰减,但得到的指数参数非常不同。另外,在实证研究都没有发现规模大小和持续时间之间存在着幂律关系。这些不同可以认为是由于对不同工作中对雪崩不同的定义,以及不同时间分辨率的选择对雪崩分布的影响所致。

本文收集了来自Twitter、Telegram、微博、Parler、StackOverflow 和 Delicious 横跨10年的数据,囊括了超过2亿条时间序列,每条序列中所有的事件都包含相同的主题标示,总共包括9亿多个事件 (events) 。在此基础上,作者团队明确了如何在不同数据下刻画雪崩现象,并得到了跨平台的普适规律。

2. 问题定义以及现有的传播模型

对雪崩更精确的定义如下。给定时间序列{t1, t2,...},雪崩定义在从tb开始的一系列事件{tb,tb+1,...,tb+s-1},其中 tb-tb-1 >Δ ,tb+s-tb+s-1 >Δ,并且对于所有的i=1,...,S,都有 tb+i - tb+i-1 ≦Δ。其中Δ是一个时间分辨率超参数。根据Δ取值的不同,同样的时间序列会被分解成不同的雪崩。S是雪崩规模的大小,即在给定时间序列内的事件数量,T是雪崩持续时间。

和疾病传播类似,当前被广泛接受的说法是,信息是一个简单传播(simple contagion) 过程,即一次接触就使节点激活这种机制就足以描述整个过程。不过也有相当数量的研究支持复杂传播(complex contagion) 范式。如最早由Centola和Macy提出的,认为在一个复杂传播过程中,个体参与信息传播需要来自和多个熟人的接触 [1]。复杂传播也由一些模型进行了证明,如线性阈值模型和随机场伊辛模型 (Random Field Ising Model, 下简称 RFIM) [2]。

3. 信息传播特点的研究

3.1 普适性

本文定义了‍最优分辨率Δ*作为描述时间序列的一维渗流模型的相变点,数据集中的每个时间序列被视为一维渗流模型的一个实例。研究中测量了每个时间序列中最大雪崩的大小,并定义了渗流强度及相应的磁化率 (susceptibility) 。最优分辨率Δ*通过最大化磁化率得到,最终可以对每一个时间序列都计算一个最优分辨率。‍‍‍

对于不同分辨率,使用对应的最优分辨率归一化后可展现出近乎相同的定量相变行为 (如图1所示) 。这表明信息在社交媒体上的传播可以看成是一个普适过程。

图1. 分别展示了渗流强度(a),相应的磁化率(b) 和时间分辨率的关系。不同的颜色代表不同的社交媒体。子图都使用最优分辨率对横坐标进行了归一化。

进一步,使用最优分辨率计算雪崩的规模S和持续时间T,并刻画它们的分布 (如图2a,2b) ,发现不同的数据集都表现出了一致的行为,并且也成功验证了时间T和规模S之间的关系 (如图2c) ,再次验证这种普适过程的存在。

图2. (a) 雪崩规模的分布。(b) 雪崩持续时间的分布。(c) 雪崩持续时间和规模的关系。(d) 不同平台的拟合参数和模型模拟参数对比

3.2 临界性

图2的幂律分布结果表明,信息传播过程背后存在着临界现象,这种临界性可以通过对临界指数的拟合来进行刻画。本文通过数值模拟的方式,使用平均随机场伊辛模型(mean-filed RFIM) 和分支过程(Branching Process, 下简称BP) [3] 分别对传播过程进行了模拟。其中,平均随机场伊辛模型是多对多的复杂传播过程,分支过程是一对多的简单传播过程。拟合结果在全数据集上的结果如图2a-2c所示,对每个平台分别进行拟合的结果如图2d所示。结果显示,不同平台的临界指数表现出了一致性,并且使用RFIM方法拟合的传播结果与实际数据更加吻合。

3.3 复杂性

从现象上看,数据的表现和RFIM的拟合结果更加相符,一定程度上可以说明在整个数据上的宏观行为更偏向复杂传播过程。另外,本文为进一步验证结论,提出了一个最大似然方法验证拟合结果的有效性 (该方法启发于工作[4]) 。这个方法支持三种不同的测试。

1. 评价一段时间序列最佳的拟合参数——具体来说是BP的分支率(branching ratio)和RFIM的无序参量(disorder parameter)——和模型的临界值的比较;

2. 可以用p-value评价每个拟合方法的有效性;

3. 通过对比不同方法的似然概率,来评价一个序列用BP还是用RFIM建模更好。

图3展示了两个模型拟合的有效性检验。

图3. (a) 是RFIM的结果,(b) 是BP的结果,竖直的虚线代表模型的临界值所在。(c) 是对数似然的占比概率,蓝绿色表示BP比RFIM更好的时间序列,红色则表示相应时间序列用RFIM更好。(d) 根据 (c) 的分类方式,将时间序列明显区分成两种不同的行为(这里仅取靠近临界点附近的时间序列作为对应分类的代表),并计算对应序列的雪崩规模分布。实心点代表使用的模型是RFIM,空心点是BP。虚线对应的分别是两种模型的最佳幂指数拟合。

通过分析,作者发现最佳拟合参数的范围很广 (图3a, 3b) ,包含了模型的临界状态和很大一部分的亚临界状态,即大多数事件都属于引发大雪崩的少数时间序列。因此对于BP和RFIM来说,系统的大尺度行为主要都是由少数的时间序列决定,它们的参数空间都非常狭窄且在临界点附近 (图3a, b的子图) 。

此外,这种测试还表明,大部分的时间序列都可以由这两个模型中的至少一个很好地描述。并且从图3c中可以看出,每条时间序列都可以被分成两个几乎同等大小的类别。一个由BP描述更好,另一个则由RFIM描述更佳。其中RFIM的优势略明显。社交平台上的信息传播,是复杂传播和简单传播的混合模式,结合图2我们可以进一步得出鲁棒的结论,复杂传播略占优势,因为在整体层面的表现和RFIM兼容性更好。

实际上,BP类别的时间序列在整体上出现了一个明显的“交叉” (图3d) ,交叉前代表小雪崩满足BP传播,交叉之后的大雪崩则再次向RFIM靠拢。

3.4 不同传播模式的语义信息

文章还对这两种不同的传播模式的信息语义内容进行了定性的分析。

图4. 展示了不同分类下,Twitter 数据占比前30个的标签内容。蓝绿色是更符合RFIM模型的序列标签,红色是更符合BP模型的序列标签。标签大小表示占比排序。

从图4中可以看出,BP中的典型标签都是通俗类的话题,大部分都是和音乐、电影和电视节目相关。而用RFIM筛选出来的话题则都是和政治、社会新闻等有争议的主题相关。这体现了标签的语义信息和对应时间序列的普适性分类存在一种相关性。本文推断,这两种“信息雪崩”传播的关键差异在于产生雪崩背后的动力学不同,这种分类之后的分析结果为这个推断提供了令人惊讶但非常可靠的理论依据。

4. 结语:超越时序特征

作者团队呼吁重新思考这种仅考虑时序特征的信息传播过程算法的合理性。这些算法目前仅仅考虑了时序特征,而忽视标签的语义信息,甚至是背后传播的网络结构,而这两者对于信息传播来说是非常重要的。

文章最后作者推测,本文结论的普适性很可能超出了文中所展示的这些数据集。如果真的是这样,那么背后一定存在一种机制得以解释这种普适性。理解这个背后的机制,以及如何开发出这种可以对在线社交媒体的信息传播进行预测的机制,仍旧是一个挑战。

参考文献

[1] Centola, D. & Macy, M. Complex contagions and the weakness of long ties. Am. J. Sociol. 113, 702–734 (2007).

[2] Dodds, P. S. & Watts, D. J. A generalized model of social and biological contagion. J. Theor. Biol. 232, 587–604 (2005).

[3] Watson, H. W. & Galton, F. On the probability of the extinction of families. J.R. Anthropol. Inst. G.B. Irel. 4, 138–144 (1875)

[4] Clauset, A., Shalizi, C. R. & Newman, M. E. Power-law distributions in empirical data. SIAM Rev. 51, 661–703 (2009).

复杂科学最新论文

集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅:





特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大儿子争吵时脱口而出“你不是我亲爹”!男子结婚22年后发现两儿子非亲生,妻子承认和丈夫的堂哥有不正当关系

大儿子争吵时脱口而出“你不是我亲爹”!男子结婚22年后发现两儿子非亲生,妻子承认和丈夫的堂哥有不正当关系

都市快报橙柿互动
2026-05-28 09:09:36
以后晚上用电不一定便宜了!全国多地取消执行40多年的固定分时电价:市场说了算

以后晚上用电不一定便宜了!全国多地取消执行40多年的固定分时电价:市场说了算

中国能源网
2026-05-27 10:53:04
深圳隔音墙熊熊大火,是否使用阻燃材料?全封闭隔音屏障是否存在安全隐患?

深圳隔音墙熊熊大火,是否使用阻燃材料?全封闭隔音屏障是否存在安全隐患?

可达鸭面面观
2026-05-28 10:47:40
徐湖平被查后续细节曝光:文物流向各地,行业乱象触目惊心!

徐湖平被查后续细节曝光:文物流向各地,行业乱象触目惊心!

麦杰逊
2026-05-27 18:09:29
震惊!河南一足疗店推出“反方向的钟”,200多给技师洗脚70分钟

震惊!河南一足疗店推出“反方向的钟”,200多给技师洗脚70分钟

火山詩话
2026-05-28 05:53:10
阿里裸辞两年。一家五口,除了公公上班。其他人均是“赋闲”状态

阿里裸辞两年。一家五口,除了公公上班。其他人均是“赋闲”状态

蚂蚁大喇叭
2026-05-27 11:52:56
8枪秒杀七人,一人反杀120名黑社会成员,行凶者是职业杀手所为!

8枪秒杀七人,一人反杀120名黑社会成员,行凶者是职业杀手所为!

易玄
2026-05-26 11:23:01
48年董存瑞牺牲后,妻子的结局令人惋惜,外甥去年牺牲在抗疫一线

48年董存瑞牺牲后,妻子的结局令人惋惜,外甥去年牺牲在抗疫一线

历史龙元阁
2026-05-27 12:20:13
杨梅泡药还没完,黄瓜又出事了!个个笔直带花,评论区人心惶惶

杨梅泡药还没完,黄瓜又出事了!个个笔直带花,评论区人心惶惶

谭谈社会
2026-05-27 12:20:18
阿森纳欧冠看你了!英超3天后或包揽本赛季欧战3冠 36年神迹将至

阿森纳欧冠看你了!英超3天后或包揽本赛季欧战3冠 36年神迹将至

我爱英超
2026-05-28 06:32:47
马斯克转发的这张梗图,藏着工程界最朴素的真理

马斯克转发的这张梗图,藏着工程界最朴素的真理

新浪财经
2026-05-27 13:40:30
全新一代问界M9正式上市!余承东:我不是很谦虚 它是地球上性能最强SUV

全新一代问界M9正式上市!余承东:我不是很谦虚 它是地球上性能最强SUV

快科技
2026-05-27 17:10:27
杨某(女,38岁)、陈某(女,37岁)两好友隐瞒已婚,与两兄弟恋爱,在广东落网

杨某(女,38岁)、陈某(女,37岁)两好友隐瞒已婚,与两兄弟恋爱,在广东落网

南方都市报
2026-05-28 12:27:20
入侵前兆!荷兰军舰海空一体强闯中国领土,PLA罕见使用电磁压制

入侵前兆!荷兰军舰海空一体强闯中国领土,PLA罕见使用电磁压制

阿龙聊军事
2026-05-28 09:16:50
1-0!水晶宫创造历史,英超有望包揽欧战冠军,考验阿森纳

1-0!水晶宫创造历史,英超有望包揽欧战冠军,考验阿森纳

我的护球最独特
2026-05-28 05:00:18
谈成了?与中国会面后,巴拿马当场作承诺,但只给面子不给里子!

谈成了?与中国会面后,巴拿马当场作承诺,但只给面子不给里子!

青青子衿
2026-05-28 01:40:03
比亚迪版“帕拉梅拉”,续航达2000km,拥有50万的档次仅售15万多

比亚迪版“帕拉梅拉”,续航达2000km,拥有50万的档次仅售15万多

隔壁说车老王
2026-05-28 07:56:52
别阻止娃玩手机!马斯克:刷视频是如何让大脑变笨,得让孩子知晓

别阻止娃玩手机!马斯克:刷视频是如何让大脑变笨,得让孩子知晓

西红柿妈妈
2026-05-27 09:00:18
高志凯:目前人民币全球交易结算占比只有2.5%-3% 建议提高至30%

高志凯:目前人民币全球交易结算占比只有2.5%-3% 建议提高至30%

凤凰网财经
2026-05-27 19:54:21
解放军还是手软了,荷兰军舰闯西沙时的一个动作,本该被当场击沉

解放军还是手软了,荷兰军舰闯西沙时的一个动作,本该被当场击沉

阿龙聊军事
2026-05-28 10:14:28
2026-05-28 13:39:00
集智俱乐部 incentive-icons
集智俱乐部
科普人工智能相关知识技能
5848文章数 4675关注度
往期回顾 全部

科技要闻

台积电3纳米下半年涨价15% 明年或再涨10%

头条要闻

民进党发言人称受不了国台办 陈斌华回应时战术性喝水

头条要闻

民进党发言人称受不了国台办 陈斌华回应时战术性喝水

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

曝大嫂冒充七七同学,林俊杰删掉合照

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

健康
亲子
教育
房产
艺术

打外泌体会比干细胞更安全吗

亲子要闻

守护好孩子们的“数字童年”

教育要闻

五年级,不少人却无从下手,学会方法直接心算

房产要闻

突发重磅!三亚新机场公司正式成立!

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力

无障碍浏览 进入关怀版