御宅男CMS的采集器是内部的一个插件，首先大家了解它是采用QueryList来进行采集的，了解了这点就简单了。网上有很多过滤规则的写法，下面小十六也给大家讲几个规则，和如何进行采集的完整操作。
2023-09-24T06:34:28.png
上图就是御宅男CMS采集的网站采集规则编辑：

切片：

这里一般获取到对应列表的li（当然有的网站列表的每一个内容不是li，那么你就按照你的目标采集站点的html来写，里面的点是代表代表是class，下一级直接用空格来隔开即可！）

URL：

获取每个li下面的a标签里面的href，这就是我们需要爬取的当前页的二级页面的地址，就是每篇内容。（我们要爬取多少页在上面也有设置，那么直接写了说明，这里就不说了）

标题、网址包含和不含：

这个标题就是字面意思，每个的标题，属性是获取text，网址中包含和不含可以用来过滤你采集的网址，有的li里面可能有嵌入的广告，你可以过滤掉这部分内容，或者说你采集的大类，里面有其他分类的内容，你直接在这里填写相应的网址中间部分就行了。

内容规则

2023-09-24T06:48:46.png
这里是御宅男采集的字段匹配，意思就是把你采集的内容给它相应的字段名，这里你给的字段名一定要跟数据库的一样！

title 是御宅男的标题字段
content 是御宅男的内容字段
thumb 是御宅男的缩略图字段
更多的可以打开御宅男的文章数据表

过滤规则

-img 是过滤img标签
a 是过滤a标签，但是保留链接的文字内容
-div 过滤掉div标签，如果这里你像保留内容可以把前面符号去掉
-.tt 过滤tt这个class样式的所有内容
说明：这里你要过滤多个，就直接在中间用空格链接就好了，跟图中一样！

更多关于QueryList采集问题可留言讨论，小十六会在以后的文章中给大家一一讲述！关注十六夜网络不迷路额！

原创文章，作者：lichen360，如若转载，请注明出处：https://hhpi.cn/40.html

工作日记

站长的工作日记

YznCMS的采集规则怎么写？怎么过滤div、img和a标签？

切片：

URL：

标题、网址包含和不含：

内容规则

过滤规则

随机推荐

全新紫色UI独立站H5塔罗牌占卜系统源码某站价值300

小R照妖镜V5.1.6免授权破解版对接易支付

个人引导页面HTML源码，不得不说真的很漂亮！

FeelWeb自助建站系统源码

发表评论

作者信息

动态快讯

热门文章

标签TAG

热评文章

最近回复

Wordpress自动采集一键同步插件

最新独立付费进群系统源码

小狐狸ai3.1.2版本源码无授权版本

彩虹易支付快手支付插件支持微信支付宝已适配最新版本

工作日记

站长的工作日记

您还未登录

登录体验更多功能

切片：

URL：

标题、 网址包含和不含：

内容规则

过滤规则

随机推荐

全新紫色UI独立站H5塔罗牌占卜系统源码 某站价值300

小R照妖镜V5.1.6免授权破解版对接易支付

个人引导页面HTML源码，不得不说真的很漂亮！

FeelWeb自助建站系统源码

发表评论

作者信息

动态快讯

热门文章

标签TAG

热评文章

最近回复

Wordpress自动采集一键同步插件

最新独立付费进群系统源码

小狐狸ai3.1.2版本源码无授权版本

彩虹易支付快手支付插件 支持微信支付宝 已适配最新版本

标题、网址包含和不含：

全新紫色UI独立站H5塔罗牌占卜系统源码某站价值300

彩虹易支付快手支付插件支持微信支付宝已适配最新版本