怎么用spss里的ochiia将共现矩阵转为spss相关系数矩阵矩阵

您现在的位置:&&>>&&>>&&>>&正文
阅览室共词与社会网络探析
定制原创材料,由写作老师24小时内创作完成,仅供客户你一人参考学习,无后顾之忧。发表论文
根据客户的需要,将论文发表在指定类别的期刊,只收50%定金,确定发表通过后再付余款。加入会员
申请成为本站会员,可以享受经理回访等更17项优惠服务,更可以固定你喜欢的写作老师。
研究热点分析
1关键词词频本文仅对搜集到的1173篇数字图书馆领域的文献进行统计,共得到3352个关键词。统计的过程中,需要对关键词进行处理:合并library、libraries等类型的同义词;“digitiallibrary”是一个高频词,涉及文献510篇,但是本文是以数字图书馆为研究内容,并且以“digitiallibrary”作为检索词,再选取这个词做分析意义不是很大,故不对该关键词进行分析;另外,诸如印度、台湾、中国等表示地域类型的关键词也不做具体分析。经过处理后,本文选择词频不少于10次的48个关键词作为因子分析和聚类分析的基础,统计情况如表1所示。由表1可知,对数字图书馆的研究主要集中在信息检索、网络、学术图书馆、虚拟图书馆、数据库、用户研究、元数据、档案、语义等方面;同时注重数字存储、信息技术、馆藏管理、本体等方面的研究;有些研究涉及到了、组合化学、技术等领域。2.2因子分析本文为了初步确定提取因子的个数,采用了因子分析法进行试验。将48×48的关键词共词矩阵导入SPSS20.0中,并转化为Spearman相关矩阵,在该相关矩阵的基础上采用主成分、相关性矩阵、最大方差法进行因子分析,结果如表2所示。
由表2可见,48个关键词中有9个公共因子提取,他们能够解释总信息的91.269%,根据数据挖掘理论,所提取的因子应包括总信息的60%以上,因此表2提取4个及4个以上的公共因子都是合理的。但是由于因子分析对数据的要求较高,检验结果显示不是正定矩阵,KMO值无法计算出来,推测原因可能是由于样本较小或个别高频关键词的相关性较小导致的,但是仍然会显示表2的分析结果。所以本文仅借鉴因子分析提取的公共因子个数,并不采用因子分析的具体降维结果,从而为聚类分析的分类结果提供参考。
3聚类分析本文采用聚类分析法对数字图书馆领域的研究主题进行归类。聚类分析是研究“物以类聚”的一种方法,基本思想是:首先,将n个样品看成n类,即一类只包括一个样品,然后将性质接近的两类合并为一个新类,这样得到n-1类,再从n-1类中找到性质最接近的两类加以合并,变成n-2类,如此类推,直到所有的样品聚为一类。最后把整个分类系统画成一张谱系图,用它来表示所有关键词之间的亲疏关系。
3.1关键词预处理。关键词是文献核心内容的集中概括,能够较好地反映某一研究领域的主题分布与特点。对关键词进行聚类分析,为了便于统计,这里将原始关键词共词矩阵转化为相异矩阵。用Ochiia系数将共词矩阵转换成相似矩阵,具体算法为A、B两词的Ochiia系数=(A、B两词共同出现的次数)÷(A词出现的频次×B词出现的频次),从而得到相似矩阵。但是相似矩阵中的0值过多,统计时容易造成误差,为了方便进一步处理,用1与全部相关矩阵上的数据相减,得到关键词相异矩阵,部分数据如表3所示。
3.2聚类分析结果。在SPSS20.0软件中,导入关键词相异矩阵,采用系统聚类(HierarchicalClus-ter),选择离差平方和法(WardsMethod)与离散数据类型(Count)中的斐方(Phi-squareMeasure)方法,进行聚类分析。离差平方和采用方差分析的思想,使得类内关键词间离差平方和尽量小,类之间的离差平方和尽量大,从而达到分类的效果。离散数据类型可以设置分类数据之间的距离,Phi方度量消除了Chi方度量中维数的影响。结合因子分析的结果和实际情况,本文提取5个公共因子,描述了总信息的71.283%。最终分类结果如图1所示。由图1可见,本文将48个关键词分为5大类别,即国际数字图书馆领域研究热点主要集中在5大主题:数字图书馆虚拟技术研究、资源组织研究、资源建设研究、资源及版权研究和信息服务研究。
a.数字图书馆虚拟技术研究。主要包括虚拟图书馆、组合化学、虚拟筛选、对接、定量构效关系、人机交互。虚拟化就是把物理资源转变为逻辑上可以管理的资源,以打破物理结构之间的壁垒,资源的管理都按逻辑方式进行,完全实现资源的自动化分配,虚拟化技术在数字图书馆中的主要作用是进行服务器整合,也即将操作系统及应用从多个未得到充分利用的硬件平台重新部署到单台服务器上,进而节约空间成本、管理成本以及电源和散热成本。
b.数字图书馆资源组织研究。主要包括语义、本体、元数据、XML、研究、索引、多媒体。信息资源组织即信息资源的有序化的活动:利用一定科学规则和方法,通过对信息外在特征和内容特征的描述和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。数字图书馆是下一代因特网上具有高度组织的超大规模资源库群,它内涵了信息资源的生命全过程,包括生产、加工、存储、检索、传递、保护、利用、归档、剔除等,数字图书馆资源组织的关键是将信息资源在知识单元而非文献单元的层次上组织起来,从而提供有利于产生新知识的资源、工具及合作环境。
c.数字图书馆资源建设研究。主要包括档案存储、数据、信息系统、数据挖掘、推荐、开源系统等关键词。数字图书馆资源建设是数字图书馆重要的基础建设,研究主要包括构建数据库、数字资源整合与开发、数字资源共享等内容。建设数字图书馆要按照整体性、特色化、用户至上、科学性、系统性的原则,采取科学有效的方法和手段对各种信息资源进行筛选和整理、进行深层次的开发和整合。数字图书馆要进行合理科学的资源建设,才能更好的为用户提供服务。
d.数字图书馆电子资源及版权研究。主要包括电子期刊、电子图书、电子出版、版权。电子资源是数字图书馆资源组成的重要部分,海量的电子资源的使用也涉及到了版权问题。互联网时代版权问题的最大挑战,进一步加强版权保护的技术性措施,采用防拷贝技术、访问控制、内容保护、流媒体格式、数字水印以及DRM技术,保护数字化信息资源版权。
e.数字图书馆信息服务研究。主要包括网络、信息服务、用户研究、教育、信息检索等关键词。数字图书馆结合了先进的信息技术、网络技术,使得服务内容不断扩展,主要包括信息检索服务、参考咨询服务、个性化推送服务、信息定制服务等等。在信息服务研究中,个性化信息服务成为研究的重点,个性化信息服务是指能够满足用户个体需求的一种服务,即根据用户提出的明确要求提供服务,或通过对用户个性、使用习惯的分析而主动地向用户提供其可能需要的服务。
作者团体分析
根据统计,数字图书馆领域研究文献涉及作者3398位(不考虑同名异人的情况)。根据普莱斯对洛特卡定律的一个重要推论:杰出科学家中最低产作者所发表的论文数量,等于最高产科学家发表论文数的平方根的0.749倍。在本次研究中最高产科学家发表论文数为10,则杰出科学家中最低产的那位科学家所发表的论文数应为2.37篇,取整数为3篇。也即发文3篇及3篇以上的作者为数字图书馆领域的核心作者,经过统计共得到114位核心作者。根据聚类分析的结果,将数字图书馆领域的核心作者与5大研究主题进行共现,删除与5个主题都没关系的作者,得到共现矩阵。用UCINET对该共现矩阵进行可视化,如图2所示。
由图2可见,5大主题涉及的作者团体非常清晰。数字图书馆信息服务研究这个研究主题的作者相对来说比较多,团体比较大,联系比较紧密,主要作者包括Adams,A、Jin,Y、Thomas,R、Ray,K等作者。数字图书馆资源建设研究主题的作者团体仅次于信息服务,主要包括Hey,J、Gow,J、Porcel,C、Chowdhury,GG等作者。数字图书馆虚拟技术研究和电子资源及版权研究这两个主题的作者团体相对来说较小,但是也还有一些核心作者在研究,证明了这两个研究主题在数字图书馆领域的重要性。不难发现,该网络图的连通性较好,有些作者同时研究两个或两个以上的主题,这些作者成为网络图中的关键节点,有利于各个研究主题之间的学术交流。比如Jamali,HR、Lee,JY等作者同时研究资源建设和信息服务,Bainbridge,D、Witten,IH等同时在研究资源组织和信息服务,Spink,S、Chwn,CC等作者同时研究三个领域。
根据社会网络的基础理论,中心性分析相关概念解释如下:各个研究主题的度数中心度也即该主题包含的作者数除以总的作者数;研究主题的接近中心度即该主题所包含的作者到其他作者和研究主题的最短距离的一个函数;研究主题的中间中心度即当主题的每对作者在研究主题中相遇时,该研究主题才获得中间中心度。利用UCINET分析图2中5大研究主题的度数中心度、接近中心度和中间中心度,结果如表4所示。由表4可见,数字图书馆信息服务研究的度数中心度、接近中心度和中间中心度都是最高的,资源建设研究仅次于信息服务研究。数字图书馆电子资源及版权研究度数中心度、接近中心度和中间中心度都是最低的,相对其他主题,该主题处于数字图书馆研究的边缘位置。随着技术的发展,数字图书馆的研究已逐渐向技术和服务方面渗透。
本文对数字图书馆领域相关文献的关键词进行了因子分析和聚类分析,其中因子分析的要求条件较高,一些弱相关的高频关键词会影响因子分析的检验结果,在对高频关键词分类的过程中会遇到有些关键词同时属于两个或者更多的类,导致无法明确分类结果。因此本文仅用因子分析初步确定了提取的公共因子个数,然后借助聚类分析进行具体分类,聚类分析可以清晰地看到各个关键词之间的亲疏关系,其分类结果更明确。结合因子分析和聚类分析的结果,本文归纳出2000年以来国际数字图书馆领域的5大研究主题:数字图书馆虚拟技术研究、数字图书馆资源组织研究、数字图书馆资源建设研究、数字图书馆电子资源及版权研究和数字图书馆信息服务。
同时本文对研究主题和作者共现矩阵进行可视化,指出了信息服务研究和资源建设研究涉及的文献最多,它们成为近些年数字图书馆研究的热点问题。数字图书馆资源建设是数字图书馆的重要任务,它广泛的应用数据挖掘、推荐、数据库等技术,为用户服务提供资源保障。数字图书馆信息服务研究是资源建设的目的,信息服务、信息检索、信息技术、用户研究等成为信息服务研究的重点,其中个性化信息服务也对资源建设提出了更高的要求。同时指出各个研究主题内的作者团体:a.以Wei,J、Langer,T、Frecer,V等为代表的虚拟技术研究相关的作者团体;b.以Lim,EP、Bertino,E、Teng,YL等为代表的资源组织研究相关的作者团体;c.以Hey,J、Gow,J、Porcel,C、Chowdhury,GG等为代表的资源建设研究相关的作者团体;d.以Watkinson,A、Nicholas,D、Huntington,P等为代表的电子资源及版权研究相关的作者团体;e.以Adams,A、Jin,Y、Thomas,R、Ray,K等为代表的信息服务研究相关的作者团体。各个团体之间相互合作,资源建设、资源组织、信息服务相关文献较多,作者团体较大,彼此之间的合作也多;电子资源与版权研究、虚拟技术相关文献较少,作者团体较小,与其它主题合作的也少。总之,数字图书馆作者研究团体已经形成,相对来说,热点问题的作者研究团体较大。各个作者团体的科研产出和科研合作绩效评价情况还有待进一步研究。
作者:皇甫青红 华薇娜 刘艳华 殷之明 单位:南京大学信息管理学院 集美大学图书馆阅览室共词与社会网络探析责任编辑:陈老师&&&&阅读:人次
本文永久链接:
上一篇论文: 下一篇论文: 没有了
按栏目筛选
                        
社会网络论文热门范文
社会网络论文相关文章怎样利用SPSS软件对共现矩阵进行分析 方法_百度知道
怎样利用SPSS软件对共现矩阵进行分析 方法
我有更好的答案
析我替别做类数据统计析蛮
其他类似问题
18人觉得有用
为您推荐:
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁怎么用SPSS求出一个投入产出比矩阵的相关系数?_百度知道
怎么用SPSS求出一个投入产出比矩阵的相关系数?
横纵坐标都些....求相关系数
农林牧渔业煤炭采洗选业石油气采业金属矿采选业非金属矿及其矿采选业食品制造及烟草加工业纺织业纺织服装鞋帽皮革羽绒及其制品业木材加工及家具制造业造纸印刷及文教体育用品制造业石油加工、炼焦及核燃料加工业化工业非金属矿物制品业金属冶炼及压延加工业金属制品业通用、专用设备制造业交通运输设备制造业电气机械及器材制造业通信设备、计算机及其电设备制造业仪器仪表及文化办公用机械制造业工艺品及其制造业废品废料电力、热力产供应业燃气产供应业水产供应业建筑业公路建筑业交通运输及仓储业邮政业信息传输、计算机服务软件业批发零售业住宿餐饮业金融业房产业租赁商务服务业研究与试验发展业综合技术服务业水利、环境公共设施管理业居民服务其服务业教育卫、社保障社福利业文化、体育娱乐业公共管理社组织
我有更好的答案
哇塞描述真性没打算真要做吧我经帮别做类数据析
哇塞,你的描述真有个性,没打算真要做吧?我经常帮别人做这类的数据分析的
哇塞,你的回答真个性,没打算真要帮我解决吧?
其他类似问题
为您推荐:
投入产出比的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁非常好的SPSS软件聚类分析功能介绍(修改稿)_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
非常好的SPSS软件聚类分析功能介绍(修改稿)
上传于||暂无简介
阅读已结束,如果下载本文需要使用1下载券
想免费下载本文?
下载文档到电脑,查找使用更方便
还剩4页未读,继续阅读
你可能喜欢关于共现分析实际操作的通信
已有 5281 次阅读
|个人分类:|系统分类:|关键词:共现分析,实际操作,矩阵处理,电子邮件
对共现分析感兴趣的人越来越多,这是我在94年开始做这方面研究的时候没有预料到的,这确实是值得庆幸的一件事情,但是随之而来的会有很多实际问题,尤其是对于初学者,这个问题不妥善解决,恐怕会影响到该方法的普及,所以,我觉得有义务给大家多做些解释说明,让这个方法能够得以平稳健康的发展。
以下是我与一位湖南农业大学的研究生之间就共现聚类分析的实际操作问题的往来信件,考虑到可能有很多的同学都会遇到这样的问题,在征得该同学同意的前提下,删去其中感谢的话语(不要因此认为该同学不礼貌哟),保留实际的问题信息,发表在这里。
崔教授,您好!
&&&&& 目前学生遇到了一些问题,不知道能否得到您的指点:
1)就是利用Bibexcel 技术进行共词分析,那个图谱画不出,只能得到共现矩阵;
2)我研读了您的一些论文,想利用SPSS做聚类分析的,可是我现在只有关键词的共现频率矩阵;还需要进行什么处理才能做聚类分析呢?
3)&战略坐标&中的向心度和密度具体怎么算呢?
这是他的数据(已经整理过行和列的):
1.我的回信:
XXX同学,您好!
&&&1)对于你附件中的矩阵,是通过bibexcel得到的吗?是共现矩阵吗?对角线上的数字代表什么呢?为什么对角线上的数字有的是0,有的不是0呢?&
& 2)如果用SPSS分析,输入的矩阵不应该是相关矩阵,而应该是词-篇矩阵,就是比共现矩阵更为原始的,示例如下:
Biodiversity&
Biogeography&
Climate change&
Competition&
Conservation
Density dependence&
上述矩阵的1代表该词在该论文中出现,0代表没有出现,你目前得到的矩阵应该是通过这个矩阵进一步计算后得到的。这样的矩阵在SAS中可以输入处理,其他一些小型的专门面向聚类的软件也可以处理,如gcluto,但是首先要把对角线上的数据是什么意思能明白,否则没有可信性。
& 3)战略坐标的算法我们就是用excel,通过标记同一类的对象,反复计算每一个类别的类内各个对象(词)之间的距离的平均值(某一类的密度),然后计算每个类内的各个对象(词)与本类之外所有词的距离的平均值的平均值(某一类的向心度),看着复杂,实际在excel操作上只是拖动鼠标就可以了。坐标的原点我们用的是所有各类的密度和向心度的平均值。
不知道我说清楚没有,看来需要开设个实用培训班了。呵呵,我申请了一个研究生暑期访学项目,不知道能否批准。
2. 日来信:
尊敬的崔教授:
&&&&& 这两天我一直在琢磨那个矩阵以及如何更进一步的分析,我给您发的那个矩阵就是由Bibexcel 软件得出的,您说的对角线上的数字有的是0 ,我的理解是那两个词之间没有共现关系,而其他数字表明那两个词一起共现的次数,不知道我这样理解有没有错误?
&&&& 关于战略坐标法,我似乎有点懂了,可能等我把聚类树做出来,会更容易理解些,谢谢您!
&&&& 2.日我的回信
对角线上的数字,对应的行和列都是一个词,&就是说,&对角线上的数字应该是同一个词自己和自己的关系,应该是多少?
&&&& 列应该是需要向下移一格的,也就是不考虑同一个词自己和自己的关系。我给您传一篇论文吧【注:为《国际力学论文关键词的共词分析》】,我的想法就是该篇论文的表1 ,表2考虑的。
崔教授,您好:
&&&& 首先向您说声抱歉,我仔细检查了下,发现确实如您所说的那样,我又用软件重新做了一次,发现漏复制了一行,现把正确的矩阵给您发过去。
3.我的回信
&&&&&& 这个问题涉及到共现分析的一些基础知识,而且一直在争议,参看邱均平老师的论文【关于共被引分析方法的再认识和再思考】,对于你的数据,我的做法是,把你给我的矩阵填满,对角线输入的是该单词与其他单词共现的总次数,然后输入到SPSS,&注意采用的是counts-chi square,得到结果【附件】,你看看是否是你想要的。
下面是填充过的表格,对角线是共现总次数。
崔教授,您好!
&&&& 仔细看了您给的聚类图,感觉很好,只是如您所说的,学生还有几个疑问:
&&& 1)您能指点一下为什么矩阵中对角线您是取的总和值,这样做是不是有相关的研究?邱均平教授研究论文中是最大值加1,我之前一直愚钝的觉得是个0,现在仔细想想觉得自己对这方面的知识太欠缺了。
&& 2)如您给出的矩阵,如果我想继续做一个战略坐标,请问还应该如何操作?是不是要求他们的一些系数矩阵?
&& 3)在您的回信里,您特别强调了是用counts-chi square 方法聚类分析,请问用这个方法有什么特别的地方吗?
4.日 我的回信&
XXX同学,您好!
&&& 不用客气,通过你的问题我也学习了很多,对共现聚类分析有更深入的认识。
&& (1)由于是共现矩阵,里面的数字是两个词的共现次数,所以数目越大表示两个词关系越密切,所以,从这个角度说共现矩阵是个相似矩阵,而不是距离矩阵,对角线上的数据代表着和一个词和自己的相关程度,对于相似矩阵,应该是越大越好,转换为相似系数的矩阵后应该是1;如果是距离矩阵,则应该是越小越好,应该是0。至于为什么取总和,是我们多年来的经验,和邱均平老师所提出的不同,如果取了总和,再转换为相似系数矩阵的时候就可以保证对角线上的数据为1,效果会更好。从经验和原理上是这样的,但是没有经过严格的数学论证,由于没有数学上的能力,也不想加入这个讨论中。
&& (2)战略坐标的算法,再形成了矩阵并有了聚类结果之后, 可以在excel上操作,要点是把同一类的词标记出来,然后排序,把同一类的几行放在一起,先计算类内各词之间的共现次数平均值,这就是该类的密度。然后计算向心度,啰嗦一点儿说,就是把同类的列删除,然后计算同一类各行的总和,就是每一词与类外词的距离,然后求平均值,应该是该类的向心度了。你自己实践几次就明白了,我说不明白。
&&& (3)其实,在我心里,对于矩阵中的数据,既可以是计数(counts)数据,也可以是计量数据(在SPSS中interval),之所以强调,有点儿担心你把计数资料用其他的系数,其实担心多余了,打开SPSS看到这些是通过菜单和选项对应起来了。所以,更正一下是,你可以用counts计算,卡方和另一个都可以试着来,哪个好用哪个。也可以用interval计算,但是开平方的欧氏距离效果不好。另外,聚类中各类别间相似度的计算方法(最大距离、最小距离、组内平均距离和组间平均距离等)都可以尝试,总结个人经验,我认为最大距离效果最好。作为一种非监督的学习方法,聚类分析更多的是依赖于个人经验。
本文引用地址:&此文来自科学网崔雷博客,转载请注明出处。
上一篇:下一篇:
当前推荐数:3
评论 ( 个评论)
作者的精选博文
作者的其他最新博文
热门博文导读
Powered by
Copyright &

我要回帖

更多关于 spss求相关系数矩阵 的文章

 

随机推荐