统计
  • 文章总数:861 篇
  • 评论总数:1353 条
  • 分类总数:2 个
  • 最后更新:昨天 15:02
原创技术知识

YznCMS的采集规则怎么写?怎么过滤div、img和a标签?

本文阅读 3 分钟
首页 技术知识 正文

御宅男CMS的采集器是内部的一个插件,首先大家了解它是采用QueryList来进行采集的,了解了这点就简单了。网上有很多过滤规则的写法,下面小十六也给大家讲几个规则,和如何进行采集的完整操作。
2023-09-24T06:34:28.png
上图就是御宅男CMS采集的网站采集规则编辑:

切片:

这里一般获取到对应列表的li(当然有的网站列表的每一个内容不是li,那么你就按照你的目标采集站点的html来写,里面的点是代表代表是class,下一级直接用空格来隔开即可!)

URL:

获取每个li下面的a标签里面的href,这就是我们需要爬取的当前页的二级页面的地址,就是每篇内容。(我们要爬取多少页在上面也有设置,那么直接写了说明,这里就不说了)

标题、 网址包含和不含:

这个标题就是字面意思,每个的标题,属性是获取text,网址中包含和不含可以用来过滤你采集的网址,有的li里面可能有嵌入的广告,你可以过滤掉这部分内容,或者说你采集的大类,里面有其他分类的内容,你直接在这里填写相应的网址中间部分就行了。

内容规则

2023-09-24T06:48:46.png
这里是御宅男采集的字段匹配,意思就是把你采集的内容给它相应的字段名,这里你给的字段名一定要跟数据库的一样!

title 是御宅男的标题字段
content 是御宅男的内容字段
thumb 是御宅男的缩略图字段
更多的可以打开御宅男的文章数据表

过滤规则

-img 是过滤img标签
a 是过滤a标签,但是保留链接的文字内容
-div 过滤掉div标签,如果这里你像保留内容可以把前面符号去掉
-.tt 过滤tt这个class样式的所有内容
说明:这里你要过滤多个,就直接在中间用空格链接就好了,跟图中一样!

更多关于QueryList采集问题可留言讨论,小十六会在以后的文章中给大家一一讲述!关注十六夜网络不迷路额!

原创文章,作者:lichen360,如若转载,请注明出处:http://hhpi.cn/40.html
gidot typesetter 排版助手报错,一直弹错误弹窗怎么处理?
« 上一篇 09-23
typecho 注册时增加密码输入框,改变原有的随机密码不好记住的问题!
下一篇 » 09-24

发表评论

发表评论

作者信息

动态快讯

    请配置好页面缩略名选项

热门文章

标签TAG

没有任何标签

热评文章