宝玛科技网
您的当前位置:首页基于词频统计与语义关联的京津冀协同发展研究热点与前沿监测研究

基于词频统计与语义关联的京津冀协同发展研究热点与前沿监测研究

来源:宝玛科技网
第31卷第1期2018 年 1 月

Hebei Library Journal of Science and Technology

Jan. ,2018

基于词频统计与语

联的

\"

陈辰1 王路2 郝晓雪1

(1.河北金融学院图书馆河北保定071051;

2.河北金融学院国际

务外包学院河北保定071051)

摘要:结合词频统计与高频关键词的语义关联分析,为“京津冀协同发展”的研究热 点及前沿主题的细化研究提供切入点。结合实验数据,提出关键词语义关联的三种路 径:基于叙词表概念关系的关联、基于关键词语法结构的关联和基于逻辑概念分类的关 联,并基于这三种路径探索了京津冀协同发展研究的热点及前沿趋势。

关键词:研究热点'吾义关联;词频分析 中国分类号:G250;G353. 1

文献标识码:A

DOI:10. 137/j. cnki. hbkjty. 2018. 0017

1 引言

目前国内外有关研究热点与前沿监测研究主 要 主要

、方法和实证应用几个 于

关系和基于

,在方法上

,其

又分为直接容的

结合语义关联方法进行研究热点和前沿的细化与 全

,是对传统词频统计方法的一种优化,使

,是通

计可以表达

进行

心内容科或研主题的关于有的关键

1

略了有一定集的低频词汇。本

其更加准确、全面、细致地反映研究热点与前沿。的关键词或主题词的频次高

高,

词 〔,的方加以探[2]。

本文以“京津冀协同发展”研究主题为实例,选 择CNKI期刊全文数

为数据源,共检索出

2 532篇。将题录信息导人EXCEL中进行统计,共 得到关键词11 727个,经初步统计,将没有实际研 意义的高频词

,得到前50位高频关键词如下

直接引

, 只

的热点主题。 高频词汇,, 热点、

上述 题。

中基于引用关系的科技前沿预测 引用、共被引和 的方法分为词 有 长补短,

关于 法,探测 测 方丽 、同被引和 上进行比较分析[4]。

领域的热点主题预测,频次越高

个方面,基于内容分析和共现分析法,这些:领域的研究重点。

主题的预测会产生一定的

点,将上述方法进行有效的结合,互

热点和

预测

合意义、代表

计的 , 以期

上, 进行高 关 词的 义

B-am等人利用共词 与共被引聚类

,能获得比单纯共被 ,但是综合使用才能取得较好

全面的景象[1]。王立学认为3 2数据分析样本

聚类算法和突发检测算法进行学科

3种方法在前沿预测的效果

前沿与知识基础的比较研究3。

本文在传统词频统计预测研究热点的基础上,

★基金项目:本文系河北省教育厅“大数据环境下的科技热点与科技前沿监测方法与实证研究”(ZC2016018)研究成果。

91

表。表1的高频关键词为基础数据分析来源,通过实验总结关键词的关联路径。

表1

序号1

2京津冀协同发展主题高频关键词toP50序号1819202122232425262728293031323334

关键词发展规划功能定位互利共赢全面深化改革战略定位联动生态环境区域协同环渤海经济区地区经济产业分工绿色崛起优化开发区域合作经济增长生态文明人口经济

词频53474441414040403837353434343230

序号353637383940414243444547484950

关键词北方经济中心生态环境保护基础设施机制障碍发展问题燕郊经济协作河北省经济发展空间互联互通产业协同发展战略部署区域规划环境治理国家重大战略产业转型升级

词频29282625252323222020201919191919

关键词国家战略京津冀一体化京津冀区域京津冀协同发展京津冀协同发展

区域发展发展战略城市群长江经济带一体化发展顶层设计新型城镇化经济发展区域经济历史机遇交通一体化

词频309309199191147136118107918772727165555353

345671011121314151617

3关键词语义关联方法探析

关键词语义关联方法,即高频关键词与其他关

的关联又分为两种情况:①词形规范:对字面形式 (词序、简繁体等$含有标点符号、字母符号和数字 等方面的关键词进行规范,达成两个词间的等同映 射关联。如含有标点符号(引号)的“京津冀一体 化”、“京津冀”一体化与京津冀一体化的等同关联。 ②词义规范:对同义词、准同义词间的关联,具体包 括单关联和组配关联,前者是一对一关联,后者是 通过关键词间的组配达成一对多的关联。示例1 (单关联)%地区经济”和“区域经济”、“地缘经济” 含义相同,可合并为一词。示例2(组配关联):“承 接产业转移”可由“产业承接”与“产业转移”进行组 配,组配关联需要注意组配的语义对等。

(2)

等级关系关联。等级关系关联又称为上、

下位关联,通过分析在语义上具有包含与被包含关 系的关键词,建立属种关系、整体和部分关系、实例 关系关联。上位关联可以反映该关键词的上位类, 说明较为宏观的研究主题,下位关联可以反映该关 键词的下位类,更全面、细致深人地反映研究主题。

(3)

相关关系关联。相关关系关联是指将语义

上具有重合或者交叉关系的关键词建立联系。一

键词(包括高频词与低频词)建立某种连接时所依 据的归并、拆分和组配方法。关键词语义关联在分 析挖掘关键词隐含的各种语义信息及其层次关系 的基础上,参照一定的语义环境确定高频关键词和 其他关键词间关系。通过总结,本文将关键词语义 关联方法分为三类:

3. 1 基于叙词表概念关系的语义关联

《IS025961—

1文献和信息一检索用叙词

表》[4],指出概念间的关系有等同关系、等级关系 (上、下位$相关关系和定制关系等。关键词间的 关联可参考上述语义关系,进行等同、等级和相关 关系的归并处理,实现同一概念不同关键词表达形 式之间的对等关联,以及包含与被包含关系及相关 关系的关联,以全面构建研究主题的概念语义关系。

(1)等同关系的关联。等同关系关联是指将概 念语义完全相同的,即在不同的应用场合基本可以 互相取代的两个关键词进行归并处理。等同关系

92

般有相同的父类关系的关键词具有相关关系,但并 不是所有具有同一父类的子类就具有相关关系。 关键词相关关联可以扩大相关主题的范围,为该主 题的进一步深人研究提供思路与切人点。示例% “京津冀协同发展战略”与“一带一路战略”和“长江 经济带”属于相关关系关联类型,它们具有相同的 上位类——“国家战略(“京津冀”和“长三角”与

“珠三角”也属于相关关联,相同的上位类为“区域

经济”。

3.2 基于关键词语法结构的关联

朱德熙[6]将词语的语法结构分为联合、偏正、主 谓、述宾和述补等五类,另外还有重叠、附加、前缀 和后缀四类。抓住了词语词素间的结构关系,就抓 住了语义关系[6 ]。据于此,本部分通过分析关键词 的语法结构,来理清词语间的语义层次关系,进而 根据语义关系进行关键词间的关联。

(1)

联合关系短语。联合关系又称并列关并列关系短语中的两个词语是同类短语,词性相 同,可以互换位置,中间可用“和”、“与”等连词相 连。如“机制”、“互利共赢”、“互联互通”“、联 防联控”“节能减排”等都属于并列关系词语。

(2)

偏正关系短语。偏正关系短语,是由修语和中心语组成,结构成分是修饰和被修饰的关 系。偏正结构的关键词,可对其中心词进行关联主 题分析,扩大分析范围。如“世界级城市群”的中心 词为“城市群”,“环京津贫困带”的中心词为“贫困 带

#)主谓关系短语。主谓关系的短语,由主题 和陈述主题的谓语两部分构成。此类关键词关联 可以根据主题上位类目进行聚类,分析出主题陈述 的宏观研究方向,即研究热点的大致分类情况。

(4)

述宾关系短语。述宾关系又称动宾关是由动词和受动词支配的实施对象两部分组成。

如“生态环境保护”(保护生态环境$“大气污染防 治”(防治大气污染$ “大气污染治理”、“资源综合 利用”、“生态补偿”等。此类词语的关联主题重点

上。

(5) 述补关系短语。述补短语是由述语和对语的补充说明成分组成,中间一般可以加“得”字连 接。如“优化开发”、“跨越式发展”、“和谐发展”、 “低碳发展”和“协调发展”等。此类词语的关联主 题重点应在述语上。

3.3 基于逻辑概念分类的关联

关键词可以借鉴逻辑概念分类方法进行分类,

以明确关键词的内涵和外延,从而进行概念层次的 关联。苏天辅/]将概念分为专指概念和普通概念、 集合概念和非集合概念等。

(1)

专指概念和普通概念。从概念的外延上划

分,可以分为专指概念和普通概念。专指概念是外 延只有一个对象的、反映某一特定事物的概念,如 “长江经济带”、“京津冀区域”、“河北省”和“保定 市”等属于此类概念。普通概念是外延有两个或两 个以上的、反映一类事物的概念,包括许多对象的 组合,如“基础设施”、“世界城市”等。

(2)

集合概念和非集合概念。集合概念是反映

具有某种联系的许多同类对象所构成整体的概念, 非集合概念是不反映集合体的概念。如“城市群”、 “贫困带”、“核心区”、“首都圈”等为集合概念。

(3)

单一概念和复合概念。除了上述分类标

准,根据概念的结构还可分为单一概念和复合概 念, 。单一概念在结构上不可再分,复合概念是指在

结构上可以分解为两个以上的分概念。复合概念 由多个词组成,有的可进行直接拆分,有的不能根 据字面含义直接进行拆分,需要对原有的组成术语

进行修改才能进行拆分组配。所以在进行复合关

键 词关联时,要注意复合概念的拆分语义。示例%

“城市功能定位”可拆分为“城市功能”和“功能定 位”,或“功能区定位(“市场经济”拆分为“市 场经济”和“经济”;“区域经济合作”拆分为“区 域经济”和“经济合作”。而“金融生态环境”不能拆 分为“金融”和“生态环境”,这明显具有语义上的错 误,因为“生态环境”在京津冀协同发展研究中更多 的是指自然生态环境,而不是金融生态环境中根据 仿生学原理构建的金融体系环境。

4, 基于词频统计与语义关联的“京津冀_体

化”研究热点与前沿实例分析

于上述关 词 义关联

津冀协同发展研究关键词,进行研究热点及前沿问

题的探索分析。

4

1 京津冀一体化研究

“京津冀一体化”是京津冀协同发展要实现的 整体目标,那么其包含的具体路径和问题可以从其 下位类中反映。反映“京津冀一体化”下位关联情 况的词汇详见表2%

93

系饰系述表2 “京津冀一体化”下位关联情况表

下位类

出现频次

下位类

出现频次

下位类

出现频次

下位类

出现频次

京津冀一体化“路径”

交通一体化城市一体化文化一体化路网一体化机电一体化

543111

经济一体化旅游一体化商品市场一■体化开发一体化环境一体化

15

2产业一体化金融一体化人才一体化医疗一体化产销一体化

%物流一体化建设一体化贸易一体化技工贸一体化

3211

2111

111

京津冀一体化“问题”

一体化改革一体化项目

%一体化水平一体化系统

51

一体化规划一体化问题

31

一体化研究一体化程度

21

1

通过分析京津冀一体化的下位关联类目及出 现频次,可以看出“交通一体化”是实现京津冀一体 化的主要路径之一,其次还有经济一体化、产业一 体化和物流一体化等;说明京津冀一体化是近两年 的研究热点,而作为下位类的交通一体化、经济一 体化和产业一体化可能会是未来几年继续研究的 前沿问题。

在问题研究方面,“一体化改革”受关注度较 高,说明目前京津冀协同发展面临很多障碍,全面 深化改革的措施、项目等是研究的热点及未来研究 前沿。此外,“全面深化改革”为述补关系短语,出

现频次为II其意为“改革得全面深化”,中心含义 为“改革”,与之相关的关联为“一体化改革”“国企 改革”“改革创新”“机制改革”等,共计126个频 次,说明这是当前改革方面的研究热点及未来趋势。

12 京津冀协同发展机制问题研究

具有联合并列关系的关键词词语可进行多层 关联,首先分别将两个词语进行拆分关联,找出各 自的主题重点,然后根据需要再进行并列短语的整 体关联。关于“机制”多层关联关系详见表3, 关键词后括号内数字为出现频次。

表3 “机制”多层关联关系

关联层次

关联类目及频次

内容:市场经济(4)经济改革(3)财税(3)管理改革(2)财政(2)政治

第一层(拆分$

改革(1)投资(1)(1)医疗保障(1)文化改革(1)投融资改革 (1)调度管理(1)金融(1)

问题:障碍(3)改革(2)改革创新(2)优势(2)束缚(2)

机制内容:市场机制(8)区域协调机制(8)生态补偿机制(%)区域合作机制(6)协同机制(3)利益

第一层(拆分$

机制第二层(整体$ +机制

协调机制(5)动力机制(3)推进机制(2)扶持机制(2)倒逼机制(2)共享机制(2)人才流动机制(2) 机制问题:机制建设(2)

机制问题%机制障碍(25)机制改革(4)机制建设(2)机制创新(2)

通过上述关联关系分析,在“”方面,对于 市场经济方面的研究最多,尤其是为京津冀协 同发展创造良好的“财税、财政”是研究的热点 主题,也有可能成为未来的研究前沿主题。其次还 有“、金融、文化、医疗”等方面的改革也是 关注的热点。在“机制”方面,遵循市场机制,构建 区域协调机制、生态补偿机制、利益协调机制、补偿 机制是研究的热点问题。京津冀协同发展研究中, “机制障碍”研究最多,说明京津冀协同发展中

要进行机制方面的创新,进行全面深人的改 革,是未来研究关注的焦点问题。4.3 京津冀协同发展战略问题

具有偏正关系结构的短语,可对其中心词进行 关联主题分析,扩大研究分析范围,细化研究主题。 如“国家战略”可以基于叙词表概念体系进行多层 关联分析,如它的等同关联类目为国家重大战略、 三大国家战略;等级关联类目有发展战略、战略定 位和战略部署等;相关关联类目为京津冀协同发展

94

战略、“一带一路”战略和长江经济带战略。

通过关联分析,可以构建较为完整的“国家战 略”知识概念体系,为进一步进行国家战略主题的 深人研究提供新的切人点。通过分析可知,作为国 家重大的战略,相关学者进行战略分析、战略定位 及部署方面的研究,另外结合其他两个国家战略进 行相关问题的研究,是目前国家战略层面的研究 热点。

4. 4 京津冀城市群相关概念研究

集合概念是一种构成整体的概念,它由具有某 种联系的许多同类对象所构成。“城市群”是目前 出现频次较高的集合概念,通过细化“城市群”概念 的元素对象,可以看出研究的关注热点,通过统计 分析,它的同类集合对象及其频次情况如下,北京

表4

主题上位类

经济

(7)、天津(7)、河北省内城市主要为廊坊(20)、保定 (10)、石家庄(8)、张家口(7)、秦皇岛(6)、唐山(3)、 承德(4)、沧州#)。

在京津冀“城市群”研究中,河北廊坊的频次最 高,说明受学者关注的程度最高,其次为河北保定、 石家庄等。有关天津的研究,除了“天津”自身出现 的频次外,“北方经济中心”也是天津的等同类目, 频次为27次,所以天津作为北方经济中心的功能定 位研究也是热点。

4.5 京津冀协同发展的经济、产业与区域问题研究

具有主谓关系的词语,可以根据主题上位类目 进行聚类,分析出主题陈述的宏观研究方向,确定 当前的研究热点及未来的研究趋势。表4为具有主 谓关系短语的关联示例。

主谓关系短语关联情况示例

主谓关系短语及频次

经济发展#5)经济增长#4)经济协作#3)经济发展空间#0)经济发展水平(17)经济发展方 式(11)经济合作#)经济运行#)经济发展战略#)经济发展差距#)经济改革#)区域发展(118)区域协同#0)区域合作#4)区域规划(19)区域协作(12)区域治理#

区域

联动#)区域分工#)区域协同发展#)

产业分工#7)产业协同发展#0) 产业转型升级(19)

产业

产业承接(12)

产业转移(10)

产业协同 )

区域

(10)产业梯度转移#)产业结构调整#)产业协作#)产业协调发展#)

通过主谓关系的关键词关联,具有相同主题的 类目可以聚类为宏观研究类,如上示例中大的类目 为“经济”、“区域”和“产业”,说明京津冀协同发展 研究的热点问题大致集中在“经济发展”、“区域治 理”和“产业协同”等几个宏观角度。在具有相同结 构的类目中,可以根据词频高低,进一步判断该宏 观类目下的热点研究分主题,如“产业”研究中,“产 业分工”出现频次最高,可以看作是未来的研究

键词语义关联这方面综合研究,以期取得较好的研

参考文献

[1] Braam R,Web H,Van R. Mapping of science by com­

bined co —citation and word analysis & * dynamical as- pects[J]. Journal of the American Society for Informa­tion Science, 1991, 42( 4% : 252 — 2.

']王立学,冷伏海.简论研究前沿及其文献计量识别方法

[J].情报理论与实践,2010,(3) *5 — 58.

5总结与展望

本文基于京津冀协同发展研究主题论文的关

']方丽,崔雷.利用双聚类和突发检测算法探测学科前沿

及知识基础的比较分析[J].情报杂志,2015,(2): 79 — 88.

']宫雪,崔雷.利用不同类型引文探测研究前沿及比较研

究[J].中华医学图书情报杂志,2010)4) : —10)1.[5] ISO 259 — 1 : 2011 (E) , Information and documenta­

tion----Thesauri and interoperability with other vocab­ularies----Part 1: Thesauri for information retrieval[S]. Geneva: International Standardization Organiza- tion(ISO),2011.

[]朱德熙.语法讲义[M].北京:商务印书馆,1982:32.[7]王汉卫.华语测试的阅读研究[M].北京:北京大学出版

键词,进行研究热点与前沿的实证分析,提出在基 于词频统计的基础上,进一步利用基于叙词表概念 关系、基于关键词语法结构和基于逻辑概念分类三 种方法进行关键词的语义关联,为相应热点主题的 深人、细化研究提供切人点,探测与高频词具有语 义关联的低频词汇,预测未来该研究领域的研究趋 势。关键词的一些细化关联类目可能会是该领域 研究前沿领域,未来进一步加强研究前沿预测和关

95

社,2012:98.

[8]苏天辅.形式逻辑学[M].成都:四川人民出版社

1981*3.

王璐(1988 — -女,硕士,河北金融学院国际金融服务外包学 院助教,研究方向:信息计量\"

郝晓雪,988 — -女,硕士,河北金融学院图书馆馆员,研究 方向:信息计量\"

作者简介:陈辰(1986 — -女,硕士,河北金融学院图书馆馆 员,研究方向:知识组织\"

(收稿日期%017-06-09责任编辑:张静茹)

The Research Hotspot and Frontier Monitoring Study on the

Coordinated Development of Beijing Tianjin and Hebei Province

Based on Word Frequency Statistics and Semantic relevance

Chen Chen Wang Lu

HaoXiao-xue

Abstract: The semantic relevance analysis combing word frequency statistics and high fre­

quency keywords, provide an

entry point for

the

detailed research on the

research

frontier topic of “the Coordinated Development of Beijing, Tianjin and Hebei Province Based on the experimental data, three paths of keywords semantic relevance are presented: relevance based on the conceptual relation of descriptors, relevance based on keywords5 gram­matical structure and relevance based on logical concept classification. On the basis of these three paths, the

paper explores

the research hotspot

and

front trend of athe

velopment of Beijing, Tianjin and Hebei Province”.

Coordin

Key words: Research Hotspot; Semantic Relevance; Word Frequency Analysis

(上

接第72页)

Review on the Study of Sinological Index Series from

the Perspectives of Word Frequency Statistics and Subject Analysis

MaXue-liang Liu Ling-ling

Abstract : Sinological Index Series complied by Harvard-Yenching Institute Index Compila­

tion Office is the first attempt of western modern index technique applied in classical literature in our country. Taking CNKI as data source, using the methods of word frequency statistics and subject analysis, employing word frequency analysis software and Excel, word frequency statistics of Harvard-Yenching Institute Index Compilation Office and relevant sample docu­ments of Sinological Index Seriss is conducted to analyze the research hotspots and keypoints in this field. Study finds that

researches in this field are time-consuming and have

ap­

parent focuses, however, researches on aspects of character analysis of Index Compilation Of­fice, case study of index, the referential value of index series to the ancient books5 protection and development are not profound or sufficient enough,some research aspects are even blank.

Key words: Index Compilation Office; Index Series; Digitization of Ancient Books; Ancient

Books Corpus

96

因篇幅问题不能全部显示,请点此查看更多更全内容