融合多通道信息的社交网络人格预测模型

孙丽璐a,董 森a,陈孟维a,朱 玲b,朱小飞b,张袁籽妍a,冯 榆a

(重庆理工大学 a.经济金融学院,b.计算机科学与工程学院,重庆 400054)

摘 要:构建了融合多通道信息的社交网络人格预测模型(MCIPP),在深度学习框架内用客观行为数据自动预测用户人格特质,并分析用户在线行为与其线下人格特质是否具有一致性。具体而言,利用双向长短期记忆网络(BiLSTM)和注意力机制(Attention)捕捉文本的上下文语义特征,通过图卷积网络((GCN)构造句法依存树,得到基于句法的结构表示,将Attention融入主题模型(Topic Model)从而提取深层语义信息,最后共同输入Softmax层得到用户微博的人格倾向。结果表明:MCIPP模型预测效果较好,准确率最高可达0.806 4.个体线上线下对应维度存在显著正相关,因此可采用该模型对用户网络数据进行心理建模,使理论驱动的心理科学研究能够客观解读个体心理和行为。

关键词:大五人格;社交网络;人格预测;深度学习;多通道信息

在线社交网络(online social network,OSN)已成为用户自我表达以及信息共享的社会互动媒介[1],是关于个体特征的潜在信息的丰富来源,如微博用户通过显著的身份标签进行自我呈现和互动,对其表征内容实现传播、共享和反馈。人格(personality)是个体对体验到的情景刺激所表现出的认知、情绪与行为倾向,属于心理科学领域的基本研究范畴,其目的是探索社会环境下的持续行为反应[2-3],具有跨情景性和稳定性的特质。因此,对用户在自然情景下的数字足迹进行数据挖掘和特征分析,可以作为人格预测的重要依据[4-5]。人格特质的测量工具多为结构化量表,测试结果具有主观性和社会赞许性等特点,对人格评定造成误差效应[6]。而算法可以在一组数字痕迹中识别出共现行为的集群,使用算法对在线行为数据进行一致的、自动的编码,从而推导通过OSN建立心理特征识别模型的可行性[7]。在无侵扰式的情境下产生的数据,代表用户的真实意愿,具有自发性和天然性特点,特别能提高配合度低、社会防御强的个体心理测量的生态效度等,消除对用户参与和自我报告的依赖[8]。有研究使用算法证明了用户在OSN上的客观行为特征可以自动预测其人格特质[9-11]。然而,线上行为评估结果与线下的自我陈述式测量结果是否存在相关性,目前缺少相应研究支持。同时,如何利用网络数据自动识别用户人格特质,以检测用户行为中个体人格倾向的潜在机制,在此基础上进行心理问诊和智能化决策,已成为人格预测亟待解决的问题[12]

基于现有研究,更多聚焦于应用深度学习算法研究用户情感倾向或态度立场,较少有学者探索用户网络行为与其人格特质之间的内在联系。因此,本研究借鉴生态心理学中人类行为自然观察的研究范式[13],以NEO-FFI大五人格量表为研究工具,将人格自我报告与在线行为进行匹配,为人格预测任务提供客观依据。而鉴于用户人格特质的复杂性和内隐性,需要依赖双向长短期记忆网络(BiLSTM)和注意力机制(Attention)搭建语义信息通道,获取基于顺序结构的语义表示,完成对人格预测任务核心线索的采集工作。在此基础上引入图神经网络(GCN)与主题模型(Topic Model),构建深层语义结构通道和句法结构通道,从文本中提取到更多粒度的语言表征,通过多通道信息的动态融合形成更加完善的人格线索,从而有效提升对用户人格倾向预测的准确度。

本文提出了一种融合多通道信息的社交网络人格预测模型(social network personality prediction model based on multi-channel information,MCIPP).首先通过将预训练好的微博词向量嵌入,得到文本中词语的表示,以BiLSTM捕获文本的语义信息,通过Attention捕获长距离语义信息;利用门控机制将BiLSTM和Transformer的表示信息动态融合,得到其互补特征;然后给每个句子构造句法依存树,并应用到GCN中,得到基于句法的结构信息;同时,将文本作为整体语料输入神经主题模型找到每个文本潜在的语义主题,从而挖掘文本中的深层次语义信息;最后将BiLSTM-Attention和GCN的表示合成为最终的语句表示,与主题模型得出的深层次语义信息共同进入Softmax层得到微博数据的人格类别。本研究在深度学习框架内基于客观行为数据和大五人格理论预测用户人格特质,有助于解读个体在线行为特征所蕴含的人格内涵,帮助拓宽社交媒体行为与人格特质之间关系的理解,为心理学理论与大数据算法的协同工作提供实践参考。

1 数据来源

1.1 心理数据来源

选取某高校在读大学生为被试群体,采用McCrae和Costa[14]编制的大五人格量表NEO-FFI中文翻译版作为研究工具,通过发放纸质版问卷、问卷星平台及自制网址(https:∥wj.cqut.site)在线填写三种途径获取心理指标。根据问卷有效性规则过滤问卷,剔除填写不完整、答案有规律的问卷,最终获得有效问卷1 445份。

NEO-FFI是自陈式测验,相比于形容词测试TDA,自陈式的语句题目更加具体和情境化,在被翻译成其他语言时,能更好地表达原意,是测量人格五因素模型最广泛的工具之一[14]。NEO-FFI是NEO-PI的简化版,其信效度与完整版一致,且与其他的人格测量工具有较好的聚合效度[15]。量表采取5点评分法,包含从“完全不同意”到“完全同意”的5个选项。主要测量神经质(Neuroticism,N)、外倾性(Extraversion,E)、开放性(Openness,O)、宜人性(Agreeableness,A)和尽责性(Conscientiousness,C)五个人格维度。

1.2 社交网络数据获取及筛选

本文利用新浪微博平台作为数据来源,根据筛选规则,筛选出151名活跃微博用户,爬取这些用户的全部信息作为分析样本(其中包含文本信息10 848条)。本文使用的OSN数据已获得被试授权,并已进行匿名处理。根据研究目的,僵尸用户、营销或机构用户、非活跃用户不利于进行心理指标分析,为确保实验的准确性,将按如下规则对OSN数据进行筛选:

1) 注册时长小于一个月或总微博数量小于10条的用户剔除;

2) 将用户中转发的内容去掉,非原创的内容并不能体现出用户的人格;

3) 将微博内容为空或没有原创文本、表情图案的用户过滤掉;

4) 过滤掉平均每天发微博数量超过20条的用户。

2 假设检验

在心理学研究中,需对给定数据集进行统计分析以检验其信效度是否达标[16]。在数据集信效度达标的基础上,对线下人格与微博行为指标进行相关性分析,以探究用户在线行为的人格表征。参考人格各维度指标权重,通过指标数值评估用户线上人格倾向,最后利用皮尔逊相关性分析验证线上线下人格的相关性,初步探究利用OSN数据预测用户人格特质的可行性和准确率。

2.1 信度分析

信度表示量表的可靠性或稳定性,是指根据测验工具所得到结果的一致性和稳定性。信度可界定为真实分数方差与观察分数方差的比例,因此量表的信度愈大,则其测量标准误差愈小。信度判定常通过Cronbach’s(克伦巴赫)α系数对量表的内在一致性进行鉴别。

信度检验过程中,K为量表所包括的总题数;为量表各题项的方差和;S2为量表题项加总后的总方差:

(1)

在对线上和线下测评方式进行信度检验之前,需将线上数据进行处理。通过爬虫系统获取用户在微博上表现出的行为特征、语言特征、情感特征以及静态属性,采用文心中文心理分析系统(http:∥ccpl.psych.cn/textmind/)导出各用户微博数据指标的特征值。根据人格5个维度对应的指标,判断被试社交网络呈现出的人格类别,各维度的高分设为3,低分设为1,并将其设计成问卷形式,利用可靠性分析、因子分析证明该线上人格问卷信度良好,信度结果如表1所示,线上及线下的信度系数均在0.7以上(该系数0.6以上即可接受),即从信度结果上可以接受此类新型线上人格问卷。

表1 线上和线下信度分析结果
Table 1 Online and offline confidence analysis results

信效度线上线下总体信度0.7120.815总体效度0.8950.729

2.2 效度分析

效度即有效性,测量结果与要考察的内容越吻合,则效度越高;反之,则效度越低。本文将线上数据中静态属性、行为特征及文本信息设计为微博指标进行模拟问卷分析,结果显示KMO-Bartlett球形度检验值为0.895(KMO值大于0.8,说明达到统计学显著),即该量表适宜进行因子分析。通过主成分分析法进行探索性因子分析,提取出特征值大于1的5个因子,与原量表制度保持一致,因子载荷累计贡献率达81.992%,远高于50%,说明量表的结构效度较好。

本研究在结合相关资料的基础上,通过皮尔逊相关系数评估用户个性特征与微博用户行为特征之间的关系[17],按照此相关关系以及用户微博的人格表征[18],将爬取的数据指标根据人格5个维度分类,见表2,表明个体线上自我呈现与其线下人格表达相关联。如点赞数、评论数等表示用户的社会联结,指标值越高,该人格维度分数越高;情感词数、副词数等表示用户的情感极性,指标值与该人格维度得分呈正相关[19]

表2 各人格维度指标
Table 2 Each personality dimension index

维度指标神经质N副词数,否定词,情感词数,过去式词数,标点符号外向性E第一人称词数,转发数,@数,动词,现在式词数,发布微博频率开放性O信息完整度,是否会员,冠词,词数量,连词数,第三人称词数,介词宜人性A表情数,粉丝数,正面情感词,点赞数,评论数尽责性C将来式词数,数字比率,量词,数词,长单词比率,逗号使用频率,句号使用频率

2.3 相关性分析

OSN数据中非文本信息(如转发数、粉丝数、点赞数等)直接读取,文本信息(如情绪词汇词频、人称词、数词等)采用文心中文心理分析系统分析。根据人格5个维度对应的指标,判断被试OSN中呈现出的人格类型。将被试线上线下5个维度分数导入SPSS软件,采用皮尔逊相关系数衡量个体人格特征线上线下的相关性,实验结果如表3所示。可以看到,神经质人格方面,线上与线下结果相关非常显著(r=0.593**,p<0.01),外向性人格(r=0.428**,p<0.01)、开放性人格(r=0.555**,p<0.01)、宜人性人格(r=0.575**,p<0.01)和尽责型人格(r=0.579**,p<0.01)均表现为高度相关,使用自我报告的人格评估作为基础事实的预测努力,为后续研究提供了初步的证据;利用微博数据客观分析用户的人格特质,从而建立社交网络人格预测模型具有可行性。

表3 皮尔逊相关性分析
Table 3 Pearson correlation analysis

维度线下神经质线下外向性线下开放性线下宜人性线下尽责性线上神经质0.593∗∗0.074-0.264∗∗-0.359∗∗-0.402∗∗线上外向性-0.0880.428∗∗-0.0560.001-0.074线上开放性-0.1310.0650.555∗∗0.482∗∗0.385∗∗线上宜人性-0.327∗∗-0.0570.443∗∗0.575∗∗0.468∗∗线上尽责性-0.342∗∗-0.0160.398∗∗0.418∗∗0.579∗∗

注:**表示p<0.01

3 模型描述

语言特征与人格特质的相关性证实文本中存在人格线索,为更好地知觉用户微博所表征的人格特质,本文将BiLSTM与Attention结合以实现对文本中长距离依赖信息的捕捉并提取基于句子顺序结构的语义信息,同时在语义特征的基础上学习特征权重分布,从而更加精确地提取上下文语义表示[20]。但仅利用语义信息通道难以完整获取文本的人格线索,因此本文在BiLSTM和Attention的基础上引入GCN以获取句子的依存信息,利用主题模型从更高的意义单元理解文本,实现文本特征在主题潜在空间上的良好表达。通过上述多通道信息的动态融合,得到文本多方位的人格表征,提高人格预测任务的准确率。

为更好的根据用户所发的微博内容来预测用户人格类型,将给定的一个具有n个词的微博输入文本记为X=[w1,…,wi,…,wn],如图1所示。本文提出的人格预测模型网络架构主要由5部分组成:a) 文本向量化表示,旨在对用户的微博文本信息进行建模;b) 自注意力模块,其目的在于建模文本中词之间长距离的语义信息;c) 神经主题模型表示,旨在通过主题模型去学习每个文本的话题表示来增强文本表示;d) 文本结构化表示,旨在从结构的角度去建模文本增强其表示;e) 基于图的注意力机制,在于融合上下文的表示和句法结构的表示。

图1 融合多通道信息的社交网络人格预测模型
Fig.1 Social network personality prediction model based on multi-channel information

3.1 文本向量化

模型首先通过引入一个外部的预训练好的词向量矩阵,把每个单词嵌入到一个d维向量空间,得到文本的向量表示[e1,…,ei,…,en]∈Rn×d.其次为解决梯度消失和梯度爆炸问题,使模型更有效的获取每个词的上下文表示,引入BiLSTM学习词的嵌入表示,其计算如下:

(2)

(3)

其中,分别是前向和后向神经网络表示,最后得到文本编码的表示,即H=(h1,…,hi+1,…,hn)∈Rn×2d.

3.2 自注意力表示学习

注意力机制(Attention)源自认知心理学中的人脑注意力机制[21],通过模拟人注意力集中与离散分配的活动,减轻不相关单词对文本表示的影响。Attention更容易获取文本内部的依赖关系,在自然语言处理领域已被广泛应用[22],而简单的长短期记忆网络(LSTM)只能学习到局部词与词之间的信息,因此结合两者优势搭建人格预测模型的语义信息通道,既可以学习到句子局部的顺序语义信息,也可以学习到长距离的单词依赖,从而提高语义特征提取能力。将BiLSTM得到的表示输入到自注意力层,得到基于注意力的上下文表示HS:

(4)

其中,dk表示向量的维度。HT表示H的转置,softmax是一个激活函数[23],AvgPooling就是将所有词的隐藏表示取均值,HSRd.

3.3 主题模型表示

主题模型(Topic Model)是一种无监督机器学习的统计模型,通过结合文本背景信息探索文本语义结构,在心理学领域有诸多研究与应用[24]。为找到每个文本潜在的语义主题,利用融入Attention的主题模型构建深层语义结构通道,对每个文本进行建模[25]。首先,将所有用户微博作为一个整体语料{x1,x2,x3,…,xn},把每个语句的单词集合记为X,其次将其处理为单词包(BoW)术语向量xbow.xbow是词汇表上的V维向量(V是词汇表大小)。根据BoW假设,该向量xbow被输入神经主题模型。

具体而言,类似于数据重建过程。首先由BoW编码器把输入的xbow编码为连续潜在变量z(代表X的主题)。然后Bow解码器以z为条件,尝试重建X并输出Bow向量笔者希望重构的与输入xbow尽量相似,这样得到的z向量,即一个对话的主题表示会更精确。

BoW编码器负责估计先验变量μσ,这两个变量将用于诱导中间主题表示z.笔者采用以下公式:

μ=fμ(fe(xbow)),logσ=fσ(fe(xbow)) .

(5)

其中,f*(·)是一个神经感知器,具有RELU激活功能。

从隐空间采样得到高斯变量t后,将t归一化后的θ作为每个文本的主题分布。假设给定语料库中包含K个主题。每个主题k在词汇表上用主题词分布φk表示,每个微博文本都有一个主题,用θ表示,这是一个k-dim分布向量。

3.4 文本结构化语义表示

图卷积网络(GCN)是一个半监督图卷积网络,其定义了卷积网络上的操作符,迭代地聚合节点邻居的嵌入,并在前一次迭代中使用聚合嵌入和自身嵌入来生成节点的新表示[26]。以GCN为主体构建的句法结构通道能够处理具有丰富关系结构的任务,通过Spacy工具对句子进行句法解析,得到文本结构信息。句法依存树是对输入的文本进行分析以得到其句法结构的处理过程[27]。依存树以多叉树形式表示句子中的依存关系,有边即表示有关系,通过依存表示增强语句间的信息流动,利用边可将相邻节点的信息融入当前节点中,能有效捕获不同距离的邻居节点信息,从而有助于提高模型分类的准确性。之后将BiLSTM的表示输入到Transformer层,从而获取基于句法的远距离表示依赖,下一步将这两部分表示通过一个门控机制进行动态融合,得到更好的互补信息。最后,通过两层标准的图神经网络,得到该文本的结构化表示信息。一层Transformer计算公式如下所示:

Q′=Concat([h1,…]WO) ,FFN(x)=Relu(xW1+b1)W2+b2.

(6)

其中,表示一层Transformer的输出,多层Transformer的Encoder结构就是将上述5个步骤重复。Q,K,V为输入,本文中Q=K=V这个操作可以视为自对齐。dk是向量维度,QRn×dk,KRn×dk,VRn×dk,Q′∈Rn×dk,i∈[1,H],H是多头,是第i个头的向量表示。

Htrans=Transformer(H) .

(7)

其中,Transformer表示公式(6),H为第一小节得到的BiLSTM的表示。

已有研究表明使用门控机制融合两个不同的文本向量的特征表示[28],运行效果良好,因此笔者同样使用门控机制融合Transformer学习到的远距离依赖表示和BiLSTM学习到的上下文表示,得到一个具有互补增强的新特征表示Hg如下:

g=σ(HW+HtransW+b) ,Hg=gH+(1-g)Htrans.

(8)

这里σ表示激活函数,如sigmoid.Wb表示可训练参数,HtransRn×d表示通过Transformer学习到的文本表示,H为第一小节文本向量化中BiLSTM得到的文本表示。

笔者为每个输入的文本构造一个基于句法结构的图[29],图中有节点和边,其中节点表示每个单词向量,边表示两个节点是否存在依存关系。节点的表示将通过GCN在句法图中进行更新,即一个节点聚合来自其相邻节点的信息以更新其表示,具体计算方式如下:

(9)

其中,Aij为邻接矩阵,为第j个节点在l-1层的表示,w(l),b(l)为可学习参数,为第i个节点的度数,Relu为激活函数。

3.5 基于图的上下文注意力机制

Attention已成为许多基于序列任务中的标准技术,利用注意机制可从节点的本地邻居集合最重要的特征,以便使模型在决策时关注输入中最相关的部分[26]。另外,GCN虽然能很好地学习到句子的结构信息,但缺乏句子顺序语义信息的填充,因此笔者用注意力机制将图结构学习到的表示与基于顺序的上下文语义信息进行融合,即通过图结构信息来增强整个句子的语义表示,其上下文注意力权重计算如下:

(10)

其中,αt是第t个单词在整个上下文的注意力分数,z为基于图结构的上下文文本表示。

3.6 模型最终表示和模型训练

将自注意力层得到的表示和基于图增强的上下文表示拼接起来作为整个句子最终的表示,句子的r的隐藏表示计算如下:

r=Hszt.

(11)

然后将r输入全连接层和softmax层以产生概率分布pRdp,如下所示:

p=softmax(Wpr+bp) .

(12)

其中,dp等于分类标签的数量,Wp=Rdp×4ddpRdp是可训练权重和偏差。

对于模型训练,使用标准梯度下降算法、交叉熵损失和L2正则化:

(13)

其中,yD是带标签的句子集合,F是分类数,Y是真实标签矩阵,Pdf是文档d属于第f类的预测概率,λL2正则化的系数。

4 实验

4.1 实验环境

实验的硬件和软件的配置保证实验的顺利进行,本文实验的环境如表4所示。

表4 实验环境配置
Table 4 Experimental environment configuration

实验环境具体参数操作系统Ubuntu 18.04CPUIntel Core CPU I7-9700 K开发语言Python3.6.10开发平台Pytorch1.7.1GPUGeForce RTX 2080Ti

4.2 实验数据

本实验采集到151名活跃微博用户的微博信息,共计10 848条微博。基于微博数据,采用心理科学方法得到五大人格类型的评价指标,并对研究对象的人格倾向进行人工标注。如表5所示,将活跃用户集合按照1∶4的比例划分为训练集和测试集,训练集用于训练预测人格的算法,测试集用于评估该预测的准确性。其中训练集包含120个用户,测试集有31个用户,再统计其人格类别,表5中即为属于该类人格的用户数量。

表5 用户数据分布
Table 5 User data distribution

数据类型神经质外倾性开放性宜人性尽责性训练集2737335466测试集49131314

模型原理为先判断用户所发的每条微博所表现出的人格倾向,再进行投票选择,即该用户所有微博中倾向某类人格所占的比例最高的类型就是本模型预测的该用户的人格倾向。从微博角度统计的用户数据结果如表6所示。表内类别中“0”表示不属于某种人格类型的微博数量,“1”表示属于某种人格类型的微博数量。

表6 微博数据分布
Table 6 Weibo data distribution

数据类型类别神经质外倾性开放性宜人性尽责性训练集06 5006 0826 4915 1384 68012 0772 4952 0863 4393 897测试集01 9291 5841 0851 2001 36313426871 1861 071908

4.3 参数设置

MCIPP模型参数设置为批量大小batch size为32,主题模型的输出维度为50,epoch为100(训练100轮)。使用Adam优化器加快网络的收敛速度,初始学习率设置为0.001.词向量维度为300,Transformer的层数设置为2,多头数量为1,dropout为0.5.

4.4 实验整体表现

MCIPP模型整体性能表现结果如表7所示。在线上线下五大人格维度具有显著相关性的基础上,笔者提出的MCIPP模型在五大人格预测准确率方面都取得了最佳性能,证明本模型能够有效提升人格预测效果。具体而言,在全人格类型预测上,BiLSTM+Attention模型的准确率均低于70%,即仅依靠语义信息通道只能建模句子单一的顺序语义信息,还需补充更多粒度的文本信息通道。而MCIPP模型在五大人格预测中准确率皆在70%以上,均比BiLSTM+Attention模型高出了10%个点左右,其中在宜人性的预测中准确率高出22.58%.MCIPP模型预测准确率较高的主要原因是语义信息、深层语义结构以及句法结构等多通道的协同作业能有效提取到更丰富的语句特征,可以更加精确地获取言语的人格线索。实验结果证明,心理学可与深度学习算法协同工作,心理学理论帮助理解和解释深度学习算法的实践意义,人格预测模型验证客观行为中的基本结构和内涵,为人格理论提供新的见解[30]。基于本研究内容,希望突出大数据算法在心理学研究中的应用潜力,并启发未来的工作。

表7 模型准确率比较
Table 7 Comparison of model accuracy %

模型人格维度神经质外倾性开放性宜人性尽责性BiLSTM-Attention67.7467.7464.5151.6164.51MCIPP80.6477.4174.1974.1970.96

4.5 学习曲线

为探究本文所提出方法的收敛速度,笔者对五类人格数据集进行进阶实验。值得注意的是,笔者设置了早停,即当模型在验证集上停止改善,模型便提前停止训练。图2显示了该模型方法的学习曲线。从图2可以观察到:MCIPP模型在很短的时间内就达到了最佳性能,如神经质、宜人性、开放性、尽责性在epoch小于100的情况下,就能达到最佳性能。外倾性在epoch小于140的情况下,达到相对平稳的效果。实验结果表明,MCIPP模型对社交网络用户人格特征进行预测是可行的,且预测准确率最高可达0.806 4.

图2 五类人格数据集的学习曲线
Fig.2 Learning curve of five personality data sets

5 结束语

本文提出了一种融合多通道信息的社交网络人格预测模型,在验证个体线上自我呈现和线下人格倾向具有相关性后,MCIPP模型从三条通道获取文本信息,即采用BiLSTM和Attention捕捉基于顺序结构的上下文语义特征,通过构造句法依存树GCN得到句法结构信息,将注意力机制融入主题模型从而提取深层次语义信息。实验证明了在本研究所采用的用户数据集上,利用算法可以实现对用户人格特质的高准确率预测,即人格理论与深度学习算法的协同工作具有可行性。然而,本文方法在不同人格类别预测准确率上存在差异,还需探索更细粒度的数据,并考虑被试的社会文化背景和年龄特征,检验模型普适性;同时进一步探索深度学习算法在心理学领域的适用性和精确性,以增强模型理论意义和实践价值,更好地服务于用户画像、人职优化匹配、心理疾病早期预警等应用领域。

参考文献:

[1] ALIREZA S,SHAFIGHEH H,MASOUD R A.Personality classification based on profiles of social networks’ users and the five-factor model of personality[J].Human Centric Computing &Information Sciences,2018,8(1):24.

[2] KAUSHAL V,PATWARDHAN M.Emerging trends in personality identification using online social networks-a literature survey[J].ACM Transactions on Knowledge Discovery from Data,2018,12(2):1-30.

[3] DEYOUNG C G.Personality neuroscience and the biology of traits[J].Social and Personality Psychology Compass,2010,4(12):1165-1180.

[4] ZHANG Q,GAO T Z,LIU X Y,et al.Public environment emotion prediction model using LSTM network[J].Sustainability,2020,12(4): 1-16.

[5] INDU V,THAMPI S M.A psychologically-inspired fuzzy-based approach for user personality prediction in rumor propagation across social networks[J].Journal of Intelligent and Fuzzy Systems,2021(7):1-15.

[6] 潘逸沁,骆方.社会称许性反应的测量与控制[J].心理科学进展,2017,25(10):1664-1674.

PAN Y Q,LUO F.Measurement and control of socially desirable responding[J].Advances in Psychological Science,2017,25(10):1664-1674.

[7] COOPER A B,BLAKE A B,PAULETTI R E,et al.Personality assessment through the situational and behavioral features of instagram photos[J].European Journal of Psychological Assessment,2020,36(6):959-972.

[8] LIU M,XUE J,ZHAO N,et al.Using social media to explore the consequences of domestic violence on mental health[J].Journal of Interpersonal Violence,2018:088626051875775.

[9] JONES A B,BROWN N A,SERFASS D G ,et al.Personality and density distributions of behavior,emotions,and situations[J].Journal of Research in Personality,2016:225-236.

[10] 潘哲,郭永玉,徐步霄,等.人格研究中的"能动"与"共生"及其关系[J].心理科学进展,2017,25(1):99-110.

PAN Z,GUO Y Y,XU B X,et al.Agency,Communion and their relationship in personality research[J].Advances in Psychological Science,2017,25(1):99-110.

[11] QIU L,CHEN J,RAMSAY J E,et al.Personality predicts words in favorite songs[J].Journal of Research in Personality,2019,78:25-35.

[12] LEE P,JOO S H,LEE S.Examining stability of personality profile solutions between Likert-type and multidimensional forced choice measure[J].Personality and Individual Differences,2019,142:13-20.

[13] SAMUEL M,STRONG.One Boy’s Day:a specimen record of behavior.Roger G.Barker,Herbert F.Wright[J].American Journal of Sociology,1952,58(3):92-93.

[14] MCCRAE R R,COSTA P T.A contemplated revision of the NEO five-factor inventory[J].Personality &Individual Differences,2004,36(3):587-596.

[15] KURTZ J E,SHERKER J L.Relationship quality,trait similarity,and self-other agreement on personality ratings in college roommates[J].Journal of Personality,2010,71(1):21-48.

[16] SCHOEDEL R,AU Q,VLKEL S T,et al.Digital footprints of sensation seeking[J].Zeitschrift für Psychologie,2019,226(4):232-245.

[17] ZHU Y.The prediction model of personality in social networks by using data mining deep learning algorithm and random walk model[J].International Journal of Electrical Engineering Education,2020:002072092093683.

[18] LIU X,ZHU T.Deep learning for constructing microblog behavior representation to identify social media user's personality[J].PeerJ Computer Science,2016,2:e81.

[19] BUETTNER R.Predicting user behavior in electronic markets based on personality-mining in large online social networks[J].Electronic Markets,2017,27(3):247-265.

[20] XU Z T,HUANG B S,PAN W K,et al.A novel context-aware similar case matching and recommendation method[J].Journal of Taiyuan University of Technology,2022,53(1):80-88.

[21] ITTI L,KOCH C,NIEBUR E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11): 1254-1259.

[22] SHAO T H,GUO Y P,CHEN H H,et al.Transformer-based neural network for answer selection in question answering[J].IEEE Access,2019,7:26146-26156.

[23] JODELET Q,LIU X,MURATA T.Balanced softmax cross-entropy for incremental learning with and without memory[J].Computer Vision and Image Understanding,2022,225:103582.

[24] LEE T Y,SMITH A,SEPPI K ,et al.The human touch:how non-expert users perceive,interpret,and fix topic models[J].International Journal of Human-Computer Studies,2017,105:28-42.

[25] WANG Y,LI J,KING I,et al.Microblog hashtag generation via encoding conversation contexts[J].CORR,2019(1):1624-1633.

[26] TAN Q Y,LIU N H,HU X.Deep representation learning for social network analysis[J].CoRR,2019,abs/1904.08547.

[27] YANG S C,LI Y,ZHAO Q F.Stance detection method of Chinese micro-blog based on GCN and Bi-LSTM[J].Journal of Chongqing University of Technology( Natural Science),2020,34(6):167-173.

[28] TANG J,LU Z,SU J,et al.Progressive self-supervised attentionlearning for aspect-level sentiment analysis[J].arXiv,1906.01213,2019.

[29] ZHANG C,LI Q,SONG D.Aspect-based sentiment classification with aspect-specific graph convolutional networks[J].arXiv,1909.03477,2019.

[30] CHEN E E,WOJCIK S P.A practical guide to big data research in psychology[J].Psychological Methods,2016,21(4):458.

Social Network Personality Prediction Model Based on Multi-channel Information Fusion

SUN Lilua, DONG Sena, CHEN Mengweia, ZHU Lingb, ZHU Xiaofeib, ZHANG Yuanziyana, FENG Yua

(a.SchoolofEconomyandFinance;b.SchoolofComputerScienceandEngineering,ChongqingUniversityofTechnology,Chongqing400054,China)

AbstractA social network personality prediction model with multi-channel information (MCIPP) is constructed. In the framework of in-depth learning, objective behavior data are used to automatically predict users’ personality traits, and whether users’ online behavior is consistent with their offline personality traits is analyzed.Specifically, the bi-directional long-term and short-term memory network (BiLSTM) and Attention mechanism (Attention) are used to capture the context semantic features of the text, and a syntactic dependency tree is constructed through a graph convolution network (GCN) to obtain a syntactic-based structural representation. Attention is integrated into a Topic Model to extract deep semantic information, and finally, the deep semantic information is input into a Softmax layer to obtain the personality tendency of a user Weibo.The results show that the MCIPP model has a good prediction effect with the highest accuracy of 0.806 4. There is a significant positive correlation between online and offline corresponding dimensions of individuals. Therefore, this model can be used to conduct psychological modeling on user network data, so that theory-driven psychological scientific research can objectively interpret individual psychology and behavior.

KeywordsBig Five personality; social network; personality prediction; deep learning; Multi-channel information

中图分类号:TP303

文献标识码:A

DOI:10.16355/j.cnki.issn1007-9432tyut.2023.03.014

文章编号:1007-9432(2023)03-0509-09

引文格式:孙丽璐,董森,陈孟维,等.融合多通道信息的社交网络人格预测模型[J].太原理工大学学报,2023,54(3):509-517.

SUN Lilu,DONG Sen,CHEN Mengwei,et al.Social network personality prediction model based on multi-channel information fusion[J].Journal of Taiyuan University of Technology,2023,54(3):509-517.

收稿日期:2022-05-27;

修回日期:2022-08-22

基金项目:重庆市技术创新与应用发展专项重点项目(cstc2020jscx-dxwtBX0014)

通信作者:孙丽璐(1980-),博士,教授,主要从事人格心理学、人力资源管理、数字经济的研究,(E-mail)linda66@163.com

(编辑:贾丽红)

Baidu
map