推荐一款WordPress博客网站的采集插件工具

这次,小编来推荐一款WordPress博客网站的采集插件工具,希望能帮助使用Wordpress开源程序做网站的小伙伴们。

关于如何安装WordPress博客网站的采集插件工具

下载插件长腿蜘蛛-CTspider

  1. 然后到WordPress插件页面点击上传,安装启用即可。
  2. 如果使用FTP上传,请使用二进制上传协议。

关于采集插件工具如何授权?

登录长腿蜘蛛-CTspider官网注册账号(PS:注册账号需要邮箱验证激活码,请认真填写邮箱账号)。

  1. 点击用户中心->添加授权域名(PS:目前每位用户可以授权3个域名)。
  2. 得到授权码后,点击CTspider插件->系统配置->授权码配置->填入授权码->保存配置->验证授权
WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

最近有很多网友问:为什么点击采集后显示没有任何数据只有两种可能

  1. 采集规则没有设置好。
  2. 如果确定采集规则没问题,请查看当前采集的网址是否是Ajax动态渲染加载(PS:目前长腿蜘蛛-CTspider 不支持动态渲染加载采集)

新建项目 / 基本配置

接下来我们详细说下如何采集一个项目

我们使用新浪科技为示例:

首先基本配置

  1. 任务名称:新浪科技(PS:自定义即可)
  2. 更新时间:默认60分钟(PS:当前任务60分钟自动执行一次)
  3. 字符集:默认选项就可以(PS:如果出现乱码情况,请针对当前web网页字符集选择即可)
  4. 随机IP:开启(PS:开启随机IP会在每次采集的时候自动更换IP,减少服务器IP被封的几率)
  5. 多线程采集:开启 (PS:开启后可提高采集速度)
  6. 多线程数量:默认10(PS:根据自己服务器配置酌情使用)
WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

列表设置

  • 列表URL: http://roll.tech.sina.com.cn/internet_all/index.shtml (PS:如需多个,可换行添加)
  • 列表区域选择器:.contList>ul>li (PS:【完全和CSS选择器用法一样】【可填,可不填】如果采集当前页面有多个相同列表DOM节点就要填写,确保采集精准度)用谷歌浏览器右键审查元素,可以看出当前列表数据都在.contList>ul>li下面
WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具
  • 列表缩略图:如果有图可以直接填写当前缩略图CSS选择器
  • 文章网址匹配:a (PS:由于上面区域选择器已经定位,我们可以直接填入a标签即可,如果区域选择器没有定位则设置:.contList li a 或者.contList a 具体根据你采集页面dom结构自己分析)
  • 添加来源网址到自定义字段:source_url(PS:【自定义】可开启或不开启,设置后会在每天文章添加一个自定义字段source_url并且会把当前采集到网址链接赋值给该字段用于前台调用显示)如: get_post_meta(‘source_url’) 可调用该字段的值。

点击列表测试可以查看当前项目列表配置情况

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

文章设置

标题匹配规则:h1

文章内容设置:#article_content

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

可以看到标题在h1标签下,也可使用.main-title来获取标题

正文内容看上去有好多 class和id 如果有id属性尽量采用id,毕竟id是唯一性,定位精准。

我们还可以增加规则来采集TAG标签

长腿蜘蛛-CTspider 提供了6总规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

点击采集测试

采集结果完美呈现(原文:标题:TAG)正确显示

但是我们发现结果中出现了a链接和一些多于的css属性和id属性还有span标签

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

我们可以利用长腿蜘蛛-CTspider强大的内容过滤模块进行数据清洗工作

内容过滤

  1. 首先删除数据中所有a链接但不删除a标签内容
  2. 删除数据中span标签并且也不删除内容
  3. 删除数据中无用的class属性和id属性

具体设置如下图:

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

最后在进行采集测试(得到纯净的数据)

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

 

原创文章,作者:SONIC SEO,如若转载,请注明出处:https://www.seo388.com/wpcaiji/

(1)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2019年11月25日 22:26
下一篇 2019年11月25日 22:41

相关推荐

  • 使用宝塔面板如何更换网站域名?

    使用宝塔面板如何更换网站域名?最近有朋友问到我这个问题,小编就写个小教程给小伙伴看吧。很简单的啦。 首先进入宝塔面板。 点击 “网站“。 然后点击网站的域名,如下图: 点击进去域名之后,能看到该网站所解析绑定的域名,然后 现在框里输入要替换的域名,如下图: 在这个框里输入要替换的域名,然后把之前的域名删除了,就可以替换网站域名了。 点击操作下面的垃圾桶小图标…

    2019年12月5日 免费建站教程
    02.6K
  • 怎样利用宝塔面板搭建服务器环境与网站?

    我们将在空白的宝塔面板内搭建服务器环境及相关配置 宝塔 首先设置服务器环境,是选择lamp环境还是lnmp环境看个人需求,点击页面中的一键安装就可; 宝塔面板 在左侧会显示待完成任务,系统会自行进行安装; 宝塔软件安装 待完成所有安装即可,然后我们安装一下其他扩展; 点击左软件管理,在右侧找到一下三项Redis、PHP守护、七牛云存储 1.5,进行安装,待完…

    2019年6月10日 免费建站教程
    01.3K
  • 不买空间域名都可以搭建自己的博客?

    这次,小编来给大家介绍,如何不买空间域名都可以搭建自己的博客?真的可以的哦,不信?你也来试试哈。 想搭建个人博客又不知道选用服务器,或是考虑费用问题?将博客托管,省时省心,还不用担心被攻击。 一款纯静态的博客-gridea 如果你使用过 Hexo 等工具基于 Github  做个人博客,那么恭喜你,你可以很轻松的上手使用Gridea如果你以前没有使用过,那么…

    2019年11月25日 免费建站教程
    01.3K
  • 浅析域名被墙了的解决办法

    这次,小编来给大家简单地介绍一下 “域名被墙了的解决办法”。希望对广大的站长和SEOer有所帮助。 关于域名被墙的三大状态,如下: 域名被墙 如果域名ping的通却打不开网站(排除服务器宕机),用代理可以打开一般说明域名被封了。假如域名下的网站非法信息多,敏感,又不整改,会直接被GFW墙掉,结果就是访问域名是打不开的。但是解析是正常的。此时域名在国内是无法使…

    2019年10月16日 免费建站教程
    02.3K
  • 域名被墙是啥?如何查看域名是否被墙了?

    SEOer或者站长们建站,那必须要买域名。购买域名的话,还是有注意事项需要注意的,否则可能会一不小心买到的“新域名”,很可能已经是被墙了的,或者是被哪个大空间大公司(腾讯,金山,360)屏蔽了的。所以咱们站长应该在购买域名前,先做好相应的准备,可以先查询域名是否被墙,域名的建站记录是否有违规的历史记录等等。 那么,什么是域名被墙?怎么查看域名是否被墙?在使用…

    2019年9月27日
    01.6K
  • 宝塔BT面板云备份实操:七牛云云存储使用攻略

    这次,小编给大家带来的是,“宝塔BT面板云备份实操:七牛云云存储使用攻略”。希望能帮助想用云备份网站的SEO站长小伙伴们。 宝塔免费板也可以免费下载七牛云云备份插件的哦,完全是免费的,大家不用担心,免费云储存量有10G,备份网站松松的够用。 现在最新的版本是:宝塔Linux面板7.03 。可通过计划任务,将您的网站或数据库打包备份到七牛云的对象存储空间中,下…

    2019年11月25日 免费建站教程
    01.2K
  • Discuz论坛网站数据库迁移搬家修改配置文件

    关于discuz开源程序做的网站搬家 discuz搬家的话,必然是需要网站页面与数据库两部分的迁移。然后则是需要把网站页面部分连接上新的数据库账号和密码。 而discuz具体数据库变更与迁移如下: 对discuz论坛做了数据库信息变更或者迁移后需要修改下面三个文件的配置信息。 config/config_ucenter.php config/config_g…

    2019年9月14日
    01.6K
  • 详细解释开源程序织梦dedecms文件目录

    这次,小编来给大家说说,关于开源程序织梦Dedecms做网站的文件目录。希望对使用织梦做网站的站长小伙伴有所帮助。 本文主要是为了今后对 Dedecms 做二次开发所写。安装后 dedecms 的目录,如下图所示: “a”:默认 HTML 文件存放目录“data”:系统缓存或其它可写入数据存放目录“dede”:默认后台管理目录“images”:系统默认模板图…

    2019年11月24日
    01.2K
  • 关于博客站WordPress自动推送的插件

    这次,小编来给大家推荐一个插件,希望对大家做wordpress网站的站长有所帮助。这是一款 ”关于博客站WordPress自动推送的插件“。 百度搜索推送管理WP插件-提升博客页面百度收录效率 百度搜索推送管理插件是基于百度站长平台对站长开放的链接提交接口开发的,支持站长通过主动推送,自动推送和sitemap推送三种方式,向百度搜索引擎推送链接,提升百度搜索…

    2019年12月15日
    01.2K
  • 织梦dede文章相关推荐,标签调用合辑

    使用本方法可以实现Dede文章相关推荐的调用方法,经过多种实操可行的相关推荐调用标题,多种相关推荐调用标签方案分享给站长朋友们,根据自己的需要添加到对应模板位置中。                     先说说相关性推荐,你可以简单理解成一篇文章的上下关联性…

    2019年3月30日
    11.4K
  • 宝塔面板phpMyAdmin打不开如何解决?

    这次,小编来给大家说说,关于 “宝塔面板phpMyAdmin打不开如何解决?” 第一种常见的情况是:服务器在购买后,888端口没有开放与放行,空间商那边的安全组,把888端口开放就好了,就解决宝塔面板phpMyAdmin打不开的问题了。 如果打开了888端口还是打不开phpMyAdmin的话,那就很可能是第二种情况,环境冲突。 第二种常见的情况是:服务器在购…

    2019年11月24日 免费建站教程
    04.4K
  • 服务器建站必备,宝塔Linux面板安装教程~

    安装要求: 内存:512M以上,推荐768M以上(纯面板约占系统60M内存) 硬盘:100M以上可用硬盘空间(纯面板约占20M磁盘空间) 系统:CentOS 7.1+ (Ubuntu16.04+.、Debian9.0+),确保是干净的操作系统,没有安装过其它环境带的Apache/Nginx/php/MySQL(已有环境不可安装)   宝塔linux6.0版本…

    2019年6月12日 免费建站教程
    01.3K