御宅男CMS的采集器是内部的一个插件,首先大家了解它是采用QueryList来进行采集的,了解了这点就简单了。网上有很多过滤规则的写法,下面小十六也给大家讲几个规则,和如何进行采集的完整操作。
上图就是御宅男CMS采集的网站采集规则编辑:
切片:
这里一般获取到对应列表的li(当然有的网站列表的每一个内容不是li,那么你就按照你的目标采集站点的html来写,里面的点是代表代表是class,下一级直接用空格来隔开即可!)
URL:
获取每个li下面的a标签里面的href,这就是我们需要爬取的当前页的二级页面的地址,就是每篇内容。(我们要爬取多少页在上面也有设置,那么直接写了说明,这里就不说了)
标题、 网址包含和不含:
这个标题就是字面意思,每个的标题,属性是获取text,网址中包含和不含可以用来过滤你采集的网址,有的li里面可能有嵌入的广告,你可以过滤掉这部分内容,或者说你采集的大类,里面有其他分类的内容,你直接在这里填写相应的网址中间部分就行了。
内容规则
这里是御宅男采集的字段匹配,意思就是把你采集的内容给它相应的字段名,这里你给的字段名一定要跟数据库的一样!
title 是御宅男的标题字段
content 是御宅男的内容字段
thumb 是御宅男的缩略图字段
更多的可以打开御宅男的文章数据表
过滤规则
-img 是过滤img标签
a 是过滤a标签,但是保留链接的文字内容
-div 过滤掉div标签,如果这里你像保留内容可以把前面符号去掉
-.tt 过滤tt这个class样式的所有内容
说明:这里你要过滤多个,就直接在中间用空格链接就好了,跟图中一样!
更多关于QueryList采集问题可留言讨论,小十六会在以后的文章中给大家一一讲述!关注十六夜网络不迷路额!
原创文章,作者:lichen360,如若转载,请注明出处:https://hhpi.cn/40.html