信息采集使用手册
摘要
信息采集是一个抓取网络数据,实现信息共享的功能模块.它提供手动抓取,预约抓取和定时循环抓取三种模式,它可以抓取单个新闻列表下的信息,也可以同时抓取多个列表下的新闻信息.
步骤及详细
现在需要将一个网页的数据(新闻)采集到webplus系统一个指定的栏目下,步骤如下:
给指定栏目制定一个采集计划.
在栏目管理中选择该栏目,点击设置采集计划.(如:图一)
设置采集的基本属性.
包括执行方式,信息是否自动发布,被采集的栏目类型和页面的编码格式.(如:图二)
事先约定好该采集计划的执行方式,手动,定时单次还是定时循环执行.
如果仅仅为了采集网页当前的数据,我们可以采用手动和定时单次的方式采集一次即可;如果被采集网页的数据会更新,而我们又要保证信息的同步,即采用定时循环采集的方式.
判断采集过来的信息是否需要发布
如果采集过来的信息不需要修改,可以直接对外网公开,选择自动发布即可.如果采集过来的信息,需要修改,审核等,选择不要自动发布,等采集完成以后,由信息管理人员来进行其他操作.
设置被采集的栏目类型
如果被采集的网页中只是单纯的一个新闻列表,即是将该页面的新闻采集到指定栏目下,那么选择单栏目即可.如果被采集的页面有多个新闻列表,并且各自提供单独链接进入自己的新闻列表页面,而我们又需要采集所有的新闻信息,那么选择多栏目.另外,如果采集的页面是RSS信息聚合页面,那么设置为相应的RSS单栏目或RSS多栏目.
设置被采集页面的编码
由于webplus系统采用的是UTF-8的编码格式,而被采集可能是其他的编码格式,那么为了避免采集过来的信息乱码,这里需要设置为被采集页面的编码格式.
设置采集计划的采集规则
单栏目采集计划的设置 (如:图三)
设置"列表页起始URL"
即是被采集页面的访问路径.(必须)
设置"文章页URL获取规则"
如果新闻列表是以一个iframe形式嵌入在被采集网页中,那么需要设置规则来获取列表iframe的链接地址,从而来访问新闻列表.否则不需要制定该规则.(具体规则方式请参见下面的"采集规则表达式制定")
如果被采集网页的新闻列表存在分页的情况,那么根据新闻列表分页的方式(链接和表单提交)制定分页的规则,并且需要设置分页开始页码,间隔页码和采集页数.如果新闻列表不存在分页,即不需要制定该规则.
如果被采集的页面有多个新闻列表,并且多处新闻列表的url规则类似,而我们只需要采集指定的一处列表,即需要设置限制文章列表的获取规则,这是为了避免采集多余的数据.否则不需要设置该规则.
设置文章url的获取规则,为了从采集页面中能够访问具体的新闻页面,从而进行新闻采集.(必须)
设置"文章内容获取规则"
具体的新闻页面,如果文章内容是以iframe的形式嵌入在该新闻页面中,那么需要设置规则来获取文章iframe的链接地址,从而来访问新闻内容.否则不需要制定该规则.
如果新闻了内容存在分页的情况,那么根据文章内容分页的方式(链接和表单提交)来制定分页的规则,并且需要设置分页开始页码,间隔页码和采集页数.如果文章内容不存在分页,即不需要制定该规则.
如果新闻页面中,除了新闻内容外,还有其他的附加信息,那么在采集过程中为了更容易找到新闻内容,这里需要设置限制新闻内容的获取规则.一是为了避免产生垃圾信息,二是为了减轻了新闻具体信息获取规则的复杂度.如果新闻页面比较简单,一般该规则不需要设置.
新闻属性的设置规则,除了标题和内容外,其他都是非必须条件,另外新闻的发布时间不设置的话,会采用当前的时间作为发布时间.
多栏目采集计划的设置 (如:图五)
多栏目采集计划除了需要在"列表页起始URL"下设置列表页URL规则和"文章页URL获取规则"下设置栏目名称的获取规则,其他与单栏目采集计划设置一致.
RSS单栏目采集计划的设置 (如:图四)
RSS单栏目的采集计划不需要设置"文章页URL获取规则",其他与单栏目采集计划一致.
RSS多栏目采集计划的设置 (如:图六)
RSS多栏目的采集计划需要在"列表页起始URL"下设置列表页URL获取规则,其他与RSS单栏目采集计划一致.
采集规则表达式制定
表达式设置和调整,以及对表达式列表进行测试
点击采集页面中某一处"获取规则设置",进入规则表达式列表页面(如:图七).在该页面中除了可以对表达式进行增加,修改,删除和调整顺序外,还可以在表达式设置完成后,输入url,iframeurl和页面内容,对表达式规则列表进行测试.
- 正则表达式手册 > 信息采集使用手册
-
信息采集使用手册
下载该文档 文档格式:DOC 更新时间:2011-03-02 下载次数:0 点击次数:2文档基本属性 文档语言: Simplified Chinese 文档格式: doc 文档作者: jzhou 关键词: 主题: 备注: 点击这里显示更多文档属性 经理: 单位: sudytech 分类: 创建时间: 上次保存者: 修订次数: 编辑时间: 文档创建者: 修订: 加密标识: 幻灯片: 段落数: 字节数: 备注: 演示格式: 上次保存时间:
- 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
- DOC格式下载
- 您可能感兴趣的
- 正则表达式参考手册 php正则表达式手册 正则表达式匹配ip php正则表达式函数 正则表达式视频教程 正则表达式测试 判断ip的正则表达式 正则表达式过滤字符 js常用正则表达式
- 大家在找
-
- · 入党积极分子培训试题
- · 三千名考试试题
- · 2012年自考近代史纲要
- · 正则表达式匹配数字
- · 乡村旅游可持续发展
- · 古田屏南牌
- · 超临界萃取ppt
- · 天津公路工程职称论文
- · 五行养生音乐下载
- · dsg离合器片
- · 女性社会学概论
- · 中国敢死队电视剧
- · mt810手机qq下载
- · 倒库移库学车技巧视频
- · 2010年安徽高考作文
- · www.jinyuan163.con
- · qq情侣网名2011幸福
- · 免费钢结构设计软件
- · 南航空姐王晓佳
- · 河南变电技师题
- · 党员写雷锋日记读后感
- · 帕拉丁油耗价格
- · 35kv及以下电缆敷设
- · 刑警2010片尾曲
- · 初女膜补修视频
- · 栈和队列的共同点
- · 烟台精密铸造工艺员
- · 奶粉盒投资
- · 生物化学原理下载
- · 孩子道德品质
- 赞助商链接