宝玛科技网
您的当前位置:首页网站新闻自动采集系统设计

网站新闻自动采集系统设计

来源:宝玛科技网
龙源期刊网 http://www.qikan.com.cn

网站新闻自动采集系统设计

作者:徐 力

来源:《电脑知识与技术》2009年第33期

摘要:现在许多传统媒体都建立了自己的新闻网站,除及时发布自己媒体的新闻外,还需要采集其它一些专业新闻网站的新闻作为补充,文章通过ASPHTTP组件实现了网站新闻的远程批量自动采集,提高了网络编辑的发布效率,并为相关应用提供了一种快捷可行的思路和设计方案。 关键词:新闻网站;内容发布;远程采集;ASP编程;ASPHTTP组件 中图分类号:TP393 文献标识码:A文章编号:1009-3044(2009)33-9525-02 Site News Automatic Acquisition System XU Li

(Xiamen Media Group, Xiamen 360012, China)

Abstract: Now a lot of traditional media have established their own news site; in addition to release their own news without delay, they also need to collect news from other classified news sites as a supplement, articles with ASPHTTP components achieve the site's automated news collection, improve the release efficiency of the web editor, and provide a fast and feasible approach and design for related applications.

Key words:news site; content distribution; remote acquisition; ASP programming; ASPHTTP components 1 采集系统设计

厦门广电集团网站作为地方性综合网站,建立了站内新闻频道,除每天及时通过内部稿件系统收集整理、再编辑、发布电视新闻栏目中播出过的地方新闻外,还每天在线发布“国际”、“国内”、“体育”、“娱乐”、“财经”、“科技”和“”等七大类约100条左右的其它新闻文字稿,新闻来源主要是通过上网收集其它国内权威新闻网站的内容,如新华网、中国新闻网等。这类网站的新闻真实性有保证,具有一定的权威性,同时导向相对规范[1]。建站初期,每天安排兩名编辑通过上网浏览的方式,选择合适的新闻,通过拷贝、粘贴到“厦视”网站的后台发布平台进行发布。根据测算,通过手工方式每天发布100条左右的新闻,大约需要2-3个小时左右,实践证明,这种手工方式太费时费力,决定设计一套简便易行的网站新闻自动采集系统[2]。

通过对国内一些大型新闻网站的观察,发觉这类新闻网站大多会根据新闻类别和发布日期建立各类新闻的新闻目录页面,例如从http://www.chinanews.com.cn/china.shtml 页面可以获取

龙源期刊网 http://www.qikan.com.cn

“中国新闻网”当天发布的最新60条国内新闻的目录及其链接网址,从

http://www.chinanews.com.cn/scroll-news/gn/2009/1013/news.shtml 页面可以获取“中新网”2009年10月13日发布的全部国内新闻目录及其链接网址,从http://www.chinanews.com.cn/scroll-news/ty/2009/1013/news.shtml 这个页面可以获得“新浪网――体育频道”2009年10月13日发布的全部体育新闻目录及其链接网址。不同类型的网站可以根据需要寻找不同的网站新闻源作为自己网站新闻的采集源[3]。

厦门广电集团网站采用ASP编程[4],ASP本身不具备远程采集功能,但ASP各种功能组件繁多,其中一款名为ASPHTTP[5]的组件能够使你能够使用http协议GET/POST/HEAD文档,可以通过其远程读取其它网站页面的能力[6],在该组件基础上进行再次开发,实现网站新闻的远程批量采集。ASPHTTP组件可在:http://www.serverobjects.com/comp/asphttp3.zip下载[7]。以下简要说明设计思路。

首先,观察获得的中国新闻网七类新闻的目录页地址,并将这些页面采集到本地计算机中[8]。

第二步,对采集到的目录页进行代码分析,将新闻列表中包含的新闻标题和它们的具体链接地址整理出来,生成供编辑选择的新闻列表表单,由网站编辑根据需要挑选新闻。对挑选出来的新闻条目,程序自动逐条采集网页文本到服务器,再次通过代码分析出采集下来的每条新闻的标题、来源、正文等文字内容,并自动记录到数据库形成一条条的新闻记录[9]。 该文具体实现代码包括三段ASP代码,三段代码的作用分别是: 代码1的作用是提交需要采集的新闻目录页地址。

代码2的作用有两个,一是远程读取新闻目录页面,并采集到本地计算机;二是对采集下来的页面进行分析,得到新闻列表中的新闻标题及其每条新闻的远程网址,等待编辑人员的选择。 代码3的作用是在获得多条新闻的网址后,逐一将这些新闻页面采集到本地计算机,再一一分析,得出每条新闻的标题、正文等字段,最后记录到服务器数据库中。 具体代码请见(http://www.xmg.com.cn/code.rar)。 2 结束语

通过采用这种思路和方式编写的网站新闻采集系统,在实际应用中,厦门广电集团网站每天外采新闻的发布工作,可以减少到由一名编辑在15分钟内完成,大大提供了工作效率。以上方法和代码中可能还有许多缺陷,还请读者指正。期待有更多更好的设计思路可以用来解决网站新闻自动采集的问题,仅以该文抛砖引玉。

龙源期刊网 http://www.qikan.com.cn

参考文献:

[1] 吴定明,赵东岩.一种互联网新闻网页的采集分析方法[J].计算机工程与应用,2007(36):169-172.

[2] 马志强,赵汐,贾鹏.基于网页的站内信息采集技术的研究与实现[J].内蒙古大学学报:自然科学版,2009(2):203-207.

[3] 王煜.面向主题的网页采集系统的设计与研究[J].计算机与数字工程,2008(4):78-80,93. [4] Baidu百科.ASP百度百科[EB/OL].[2009-10-13].http://baike.baidu.com/view/117978.htm. [5] netidea.AspHTTP的组件的获取使用[EB/OL].[2006-11-08].http://hi.baidu.com/netidea/blog/item/4f7cc2c82b1782177e3e6f2c.html. [6] 张秀虎.浅析新闻采集程序的技术核心[J].中国教育信息化,2007(4):55-58. [7] 郭少友.元搜索引擎的原理与设计[J].情报科学,2005(2):245-248.

[8] 杨海霞,张永奎.网络新闻数据可视化采集系统的设计及应用[J].山西科技,2006(5):34-35. [9] 陈健瑜.网页动态页面采集关键技术研究[J].硅谷,2009(12):68.

因篇幅问题不能全部显示,请点此查看更多更全内容