注册 | 登录 忘记密码? 51cto首页 | 博客 | 论坛 | 招聘
热点文章 思科路由器NAT配置详解
 帮助

自动采集系统


2006-08-28 18:49:17
 标签:   [推送到技术圈]


1, 采集过程实现多进程(非多线程,是系统底层进程,由应用程序产生的独立cpu和内存占用的,而不是由浏览器产生的多线程)
2, 采集实现自动化:即只需要提供一个网址,采集程序可以分析得出此网址下所有文章页面,并可以自动分析提取文章标题/内容/日期/作者等元素内容,减少人工干预的程序
3, 采集程序实现采集后分析入库:将采集到的内容经过人工或程序分析后插入到当前的cms系统数据库中
4, 研究当前网上采集程序的实现方式,取长补短.

自动采集系统:
1、提高采集性能
2、采集后内容的管理
3、研究其他cms的自带采集模块功能以及独立采集软件的采集方式
4、研究无文章模板配置的采集实现
5、研究采集服务器断程序的多进程实现


上一篇 666  下一篇 IT主管 缘何难成CIO?(1)



    文章评论
 
 

发表评论

昵   称:
验证码:  点击图片可刷新验证码  博客过2级,无需填写验证码
内   容: