自动采集系统
2006-08-28 18:49:17
1, 采集过程实现多进程(非多线程,是系统底层进程,由应用程序产生的独立cpu和内存占用的,而不是由浏览器产生的多线程) 2, 采集实现自动化:即只需要提供一个网址,采集程序可以分析得出此网址下所有文章页面,并可以自动分析提取文章标题/内容/日期/作者等元素内容,减少人工干预的程序 3, 采集程序实现采集后分析入库:将采集到的内容经过人工或程序分析后插入到当前的cms系统数据库中 4, 研究当前网上采集程序的实现方式,取长补短. 自动采集系统: 1、提高采集性能 2、采集后内容的管理 3、研究其他cms的自带采集模块功能以及独立采集软件的采集方式 4、研究无文章模板配置的采集实现 5、研究采集服务器断程序的多进程实现 本文出自 51CTO.COM技术博客 |


iamchinaren
博客统计信息
热门文章
最新评论
友情链接