御宅男CMS的采集器是内部的一个插件，首先大家了解它是采用QueryList来进行采集的，了解了这点就简单了。网上有很多过滤规则的写法，下面小十六也给大家讲几个规则，和如何进行采集的完整操作。
2023-09-24T06:34:28.png
上图就是御宅男CMS采集的网站采集规则编辑：

切片：

这里一般获取到对应列表的li（当然有的网站列表的每一个内容不是li，那么你就按照你的目标采集站点的html来写，里面的点是代表代表是class，下一级直接用空格来隔开即可！）

URL：

获取每个li下面的a标签里面的href，这就是我们需要爬取的当前页的二级页面的地址，就是每篇内容。（我们要爬取多少页在上面也有设置，那么直接写了说明，这里就不说了）

标题、网址包含和不含：

这个标题就是字面意思，每个的标题，属性是获取text，网址中包含和不含可以用来过滤你采集的网址，有的li里面可能有嵌入的广告，你可以过滤掉这部分内容，或者说你采集的大类，里面有其他分类的内容，你直接在这里填写相应的网址中间部分就行了。

内容规则

2023-09-24T06:48:46.png
这里是御宅男采集的字段匹配，意思就是把你采集的内容给它相应的字段名，这里你给的字段名一定要跟数据库的一样！

title 是御宅男的标题字段
content 是御宅男的内容字段
thumb 是御宅男的缩略图字段
更多的可以打开御宅男的文章数据表

过滤规则

-img 是过滤img标签
a 是过滤a标签，但是保留链接的文字内容
-div 过滤掉div标签，如果这里你像保留内容可以把前面符号去掉
-.tt 过滤tt这个class样式的所有内容
说明：这里你要过滤多个，就直接在中间用空格链接就好了，跟图中一样！

更多关于QueryList采集问题可留言讨论，小十六会在以后的文章中给大家一一讲述！关注十六夜网络不迷路额！

原创文章，作者：lichen360，如若转载，请注明出处：http://hhpi.cn/40.html

工作日记

站长的工作日记

YznCMS的采集规则怎么写？怎么过滤div、img和a标签？

切片：

URL：

标题、网址包含和不含：

内容规则

过滤规则

随机推荐

webstack-pro-V2.0405 导航源码！

【转载】24年又一次打击分类信息SEO网站，网站到底该不该用AI？

【首发】2025年HTML发布页原创源码

彩虹聚合易支付最新版系统源码,改了已知问题和新增模版

发表评论

作者信息

动态快讯

热门文章

标签TAG

热评文章

最近回复

新伯乐云商城发卡网源码卡密商城自动发卡可分站多

花粥云商城美化前端模板以及彩虹云商城兼容

鲸鱼发卡v11.71免授权源码

源v7 + Uos云端版

工作日记

站长的工作日记

您还未登录

登录体验更多功能

切片：

URL：

标题、 网址包含和不含：

内容规则

过滤规则

随机推荐

webstack-pro-V2.0405 导航源码！

【转载】24年又一次打击分类信息SEO网站，网站到底该不该用AI？

【首发】2025年HTML发布页原创源码

彩虹聚合易支付最新版系统源码,改了已知问题和新增模版

发表评论

作者信息

动态快讯

热门文章

标签TAG

热评文章

最近回复

新伯乐云商城发卡网源码卡密商城自动发卡可分站多

花粥云商城美化前端模板以及彩虹云商城兼容

鲸鱼发卡v11.71免授权源码

源v7 + Uos云端版

标题、网址包含和不含：