推荐一款WordPress博客网站的采集插件工具

这次,小编来推荐一款WordPress博客网站的采集插件工具,希望能帮助使用Wordpress开源程序做网站的小伙伴们。

关于如何安装WordPress博客网站的采集插件工具

下载插件长腿蜘蛛-CTspider

  1. 然后到WordPress插件页面点击上传,安装启用即可。
  2. 如果使用FTP上传,请使用二进制上传协议。

关于采集插件工具如何授权?

登录长腿蜘蛛-CTspider官网注册账号(PS:注册账号需要邮箱验证激活码,请认真填写邮箱账号)。

  1. 点击用户中心->添加授权域名(PS:目前每位用户可以授权3个域名)。
  2. 得到授权码后,点击CTspider插件->系统配置->授权码配置->填入授权码->保存配置->验证授权
WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

最近有很多网友问:为什么点击采集后显示没有任何数据只有两种可能

  1. 采集规则没有设置好。
  2. 如果确定采集规则没问题,请查看当前采集的网址是否是Ajax动态渲染加载(PS:目前长腿蜘蛛-CTspider 不支持动态渲染加载采集)

新建项目 / 基本配置

接下来我们详细说下如何采集一个项目

我们使用新浪科技为示例:

首先基本配置

  1. 任务名称:新浪科技(PS:自定义即可)
  2. 更新时间:默认60分钟(PS:当前任务60分钟自动执行一次)
  3. 字符集:默认选项就可以(PS:如果出现乱码情况,请针对当前web网页字符集选择即可)
  4. 随机IP:开启(PS:开启随机IP会在每次采集的时候自动更换IP,减少服务器IP被封的几率)
  5. 多线程采集:开启 (PS:开启后可提高采集速度)
  6. 多线程数量:默认10(PS:根据自己服务器配置酌情使用)
WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

列表设置

  • 列表URL: http://roll.tech.sina.com.cn/internet_all/index.shtml (PS:如需多个,可换行添加)
  • 列表区域选择器:.contList>ul>li (PS:【完全和CSS选择器用法一样】【可填,可不填】如果采集当前页面有多个相同列表DOM节点就要填写,确保采集精准度)用谷歌浏览器右键审查元素,可以看出当前列表数据都在.contList>ul>li下面
WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具
  • 列表缩略图:如果有图可以直接填写当前缩略图CSS选择器
  • 文章网址匹配:a (PS:由于上面区域选择器已经定位,我们可以直接填入a标签即可,如果区域选择器没有定位则设置:.contList li a 或者.contList a 具体根据你采集页面dom结构自己分析)
  • 添加来源网址到自定义字段:source_url(PS:【自定义】可开启或不开启,设置后会在每天文章添加一个自定义字段source_url并且会把当前采集到网址链接赋值给该字段用于前台调用显示)如: get_post_meta(‘source_url’) 可调用该字段的值。

点击列表测试可以查看当前项目列表配置情况

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

文章设置

标题匹配规则:h1

文章内容设置:#article_content

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

可以看到标题在h1标签下,也可使用.main-title来获取标题

正文内容看上去有好多 class和id 如果有id属性尽量采用id,毕竟id是唯一性,定位精准。

我们还可以增加规则来采集TAG标签

长腿蜘蛛-CTspider 提供了6总规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

点击采集测试

采集结果完美呈现(原文:标题:TAG)正确显示

但是我们发现结果中出现了a链接和一些多于的css属性和id属性还有span标签

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

我们可以利用长腿蜘蛛-CTspider强大的内容过滤模块进行数据清洗工作

内容过滤

  1. 首先删除数据中所有a链接但不删除a标签内容
  2. 删除数据中span标签并且也不删除内容
  3. 删除数据中无用的class属性和id属性

具体设置如下图:

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

最后在进行采集测试(得到纯净的数据)

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

 

原创文章,作者:SONIC SEO,如若转载,请注明出处:https://www.seo388.com/wpcaiji/

(1)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2019年11月25日 22:26
下一篇 2019年11月25日 22:41

相关推荐

  • 浅析网站公安备案流程

    实际上,当我们在ICP备案通过后就要进行网站公安备案了,许多新手对于公安备案还有很多不明白的地方。接下来,小编就来说说网站公安备案流程是什么吧。 网站公安备案流程是什么呢?如下: 1)打开全国公安机关网站 www.beian.gov.cn 注册一个帐号登录; 2)登录后会提示填写开办主体管理,如果没有提示登录后点击左边的菜单就行; 3)填写主体相关的信息,比…

    2019年10月29日
    01.3K
  • 织梦Dede开源系统工具,织梦网站如何进行安全设置

    (为了安全起见,建议先做好全站数据和文件的备份,以下教程是总结经验,本人也是这样设置,并且没有任何问题) 1、修改默认后台名。 打开网站根目录,找到[dede],这个文件夹就是后台的路径,可以随意修改,比如修改为[adminbuy],此时后台登陆的路径为:http://www.*****.com/adminbuy/ 2、删除member文件夹(一共就两个模板…

    2019年7月15日 免费建站教程
    11.6K
  • 2020年解决升级WordPress 时提示“另一更新正在进行”

    2020年5月7日,小编搭建了好多个网站呢。其中有号一些提醒 “有新的WordPress版本可供升级。 您可以自动升级到WordPress 5.4.1–zh_CN”。又到了wordpress需要更新的时候了。现在有些方法已经不好使了。希望这次小编能帮助到需要升级wordpress版本的小伙伴们。有时候可能是wordpress服务器的问题哦。但是咱们不升级wo…

    2020年5月7日
    01.5K
  • 关于织梦DEDE友情链接调用的方法与技巧

    这次小编来分享几个织梦友情链接标签技巧。 DEDE织梦的友情链接标签正确的调用格式如下: 织梦dedecms友情链接调用方法: {dede:flink type=’textall’ row=’24’} [field:link /] {/dede:flink} 表示显示前24条从后台添加友情链接全部用文字显示 t…

    2019年9月5日
    01.3K
  • 织梦dede后台登陆后一片空白的解决办法汇总

    织梦dede后台登陆后一片空白的解决办法汇总   dede后台登陆后一片空白的第 1 种解决办法: 找到:include/common.inc.php文件,打开,查找程序代码://error_reporting(E_ALL);error_reporting(E_ALL || ~E_NOTICE);替换为:error_reporting(E_ALL)…

    2019年9月2日
    01.4K
  • 阿里云服务器设置:安装宝塔BT面板

    随着价格的大幅度优惠,现在云服务器已经成为站长建站的首选。不过还有一部分不懂技术的小白苦恼于不懂linux命令,害怕买了云服务器之后不会配置,其实大可不必担心,今天就给大家分享一下阿里云服务器设置教程之【安装宝塔面板一步到位管理服务器】,让管理服务器像管理虚拟主机一样简单。 一、首先我们打开ecs服务器购买页面: 对了,不知道大家是否知道?初次购买阿里云产品…

    2019年6月16日 免费建站教程
    01.6K
  • WordPress如何配置Https,可以使用阿里云免费SSL证书

    WordPress如何配置Https,可以使用阿里云免费SSL证书。 先登录自己的阿里云账号,然后进入购买免费证书地址:https://common-buy.aliyun.com/?spm=5176.2020520154.cas.3.66daIevhIevh8M&commodityCode=cas#/buy 免费的就够用了,付费的Https 协议证书…

    2019年3月21日 免费建站教程
    11.5K
  • 忘记了Linux 3-6版本宝塔面板密码怎么办?

    进入ssh 输入以下命令重置密码(把命令最后面的   “testpasswd”  替换成你要改的新密码) 注:若是debian/ubuntu用户,请使用有root权限的账户去执行这条命令 cd /www/server/panel && python tools.py panel testpasswd 复制代码 紫框即你要修改的密码红框即面板账…

    2019年8月4日
    01.3K
  • 仿站工具:一键就能下载网页模板

    这次,小编来给大家推荐一下 ”仿站工具“,”仿站工具“:一键就能下载网页模板。好使,方便,实用。 看到人家好看的网站主题模板想要怎么办?自己又不懂代码又不想花钱请人来写怎么办?接下来分享一个自用的“扒站神器”(单页面扒站工具)输入目标网站网址点击两下就可以把想要的模板网页下载下来。 平时自己收藏使用的免费分享给大家。 仿站(扒站)工具介绍 仿站小工具是通过网…

    2019年12月15日 免费建站教程
    02.9K
  • 织梦dede网站自动生成xml文件地图详细教程

    本文教大家使用织梦生成xml地图,快速生成sitemap提升页面收录和抓取排名。经忧哥亲试有效,分享给大家。 1,首先了解一下织梦自带的网站地图生成功能 通过改造把这两项功能改成百度XML地图 及  谷歌网站地图。 2,开始代码进行改造 在 /templets/plus 目录下找到两个文件sitemap.htm 和 rssmap.htm,前者我们当中是百度的…

    2019年3月13日
    02.4K
  • 腾讯云服务器使用教程,配置Apache服务器环境

    腾讯自家的云服务器,作者手把手教你免费领取!无忧老师亲自为你全程录制,让每个人都有自己的网站。 很人新手同学不懂得如何搭建网站,更不懂得如何购买服务器。本节课程无忧老师将把服务器配置的整个流程全程记录讲解。教你如何安装LINUX环境。 下面是作者亲自录制的原创高清视频: moonseo01.oss-cn-hangzhou.aliyuncs.com/serve…

    2019年3月13日
    01.3K
  • 宝塔BT面板云备份实操:七牛云云存储使用攻略

    这次,小编给大家带来的是,“宝塔BT面板云备份实操:七牛云云存储使用攻略”。希望能帮助想用云备份网站的SEO站长小伙伴们。 宝塔免费板也可以免费下载七牛云云备份插件的哦,完全是免费的,大家不用担心,免费云储存量有10G,备份网站松松的够用。 现在最新的版本是:宝塔Linux面板7.03 。可通过计划任务,将您的网站或数据库打包备份到七牛云的对象存储空间中,下…

    2019年11月25日 免费建站教程
    01.5K