推荐一款WordPress博客网站的采集插件工具

这次,小编来推荐一款WordPress博客网站的采集插件工具,希望能帮助使用Wordpress开源程序做网站的小伙伴们。

关于如何安装WordPress博客网站的采集插件工具

下载插件长腿蜘蛛-CTspider

  1. 然后到WordPress插件页面点击上传,安装启用即可。
  2. 如果使用FTP上传,请使用二进制上传协议。

关于采集插件工具如何授权?

登录长腿蜘蛛-CTspider官网注册账号(PS:注册账号需要邮箱验证激活码,请认真填写邮箱账号)。

  1. 点击用户中心->添加授权域名(PS:目前每位用户可以授权3个域名)。
  2. 得到授权码后,点击CTspider插件->系统配置->授权码配置->填入授权码->保存配置->验证授权
WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

最近有很多网友问:为什么点击采集后显示没有任何数据只有两种可能

  1. 采集规则没有设置好。
  2. 如果确定采集规则没问题,请查看当前采集的网址是否是Ajax动态渲染加载(PS:目前长腿蜘蛛-CTspider 不支持动态渲染加载采集)

新建项目 / 基本配置

接下来我们详细说下如何采集一个项目

我们使用新浪科技为示例:

首先基本配置

  1. 任务名称:新浪科技(PS:自定义即可)
  2. 更新时间:默认60分钟(PS:当前任务60分钟自动执行一次)
  3. 字符集:默认选项就可以(PS:如果出现乱码情况,请针对当前web网页字符集选择即可)
  4. 随机IP:开启(PS:开启随机IP会在每次采集的时候自动更换IP,减少服务器IP被封的几率)
  5. 多线程采集:开启 (PS:开启后可提高采集速度)
  6. 多线程数量:默认10(PS:根据自己服务器配置酌情使用)
WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

列表设置

  • 列表URL: http://roll.tech.sina.com.cn/internet_all/index.shtml (PS:如需多个,可换行添加)
  • 列表区域选择器:.contList>ul>li (PS:【完全和CSS选择器用法一样】【可填,可不填】如果采集当前页面有多个相同列表DOM节点就要填写,确保采集精准度)用谷歌浏览器右键审查元素,可以看出当前列表数据都在.contList>ul>li下面
WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具
  • 列表缩略图:如果有图可以直接填写当前缩略图CSS选择器
  • 文章网址匹配:a (PS:由于上面区域选择器已经定位,我们可以直接填入a标签即可,如果区域选择器没有定位则设置:.contList li a 或者.contList a 具体根据你采集页面dom结构自己分析)
  • 添加来源网址到自定义字段:source_url(PS:【自定义】可开启或不开启,设置后会在每天文章添加一个自定义字段source_url并且会把当前采集到网址链接赋值给该字段用于前台调用显示)如: get_post_meta(‘source_url’) 可调用该字段的值。

点击列表测试可以查看当前项目列表配置情况

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

文章设置

标题匹配规则:h1

文章内容设置:#article_content

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

可以看到标题在h1标签下,也可使用.main-title来获取标题

正文内容看上去有好多 class和id 如果有id属性尽量采用id,毕竟id是唯一性,定位精准。

我们还可以增加规则来采集TAG标签

长腿蜘蛛-CTspider 提供了6总规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

点击采集测试

采集结果完美呈现(原文:标题:TAG)正确显示

但是我们发现结果中出现了a链接和一些多于的css属性和id属性还有span标签

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

我们可以利用长腿蜘蛛-CTspider强大的内容过滤模块进行数据清洗工作

内容过滤

  1. 首先删除数据中所有a链接但不删除a标签内容
  2. 删除数据中span标签并且也不删除内容
  3. 删除数据中无用的class属性和id属性

具体设置如下图:

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

最后在进行采集测试(得到纯净的数据)

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

 

原创文章,作者:SONIC SEO,如若转载,请注明出处:https://www.seo388.com/wpcaiji/

(1)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2019年11月25日 22:26
下一篇 2019年11月25日 22:41

相关推荐

  • 如何在WordPress博客网站后台设置敏感关键词过滤?

    如何在WordPress博客网站后台设置敏感关键词过滤?这次,小编来教大家操作一遍吧。 小编在网上找到了一份关键词文档,通过添加删除一些关键词,整理出来了一份适用的关键词。 分享给大家使用,如下: 链接:https://pan.baidu.com/s/11boAKB6sUEfZsykhOkdTAA提取码:2o36 把这一份关键词内容复制粘贴到 仪表盘\设置\…

    2020年8月4日
    0801
  • 关于比较常用的织梦调用标签详解

    这次,小编来给大家说说,关于 “关于比较常用的织梦调用标签详解” 的这个话题。 小编接着给大家分享织梦文章的调用标签,让你知道怎么调用某个栏目的文章,调用多少篇,是按发布时间去调用,还是随机调用等等,随便以一个相关推荐代码作为例子,分享如下: {dede:likearticle row=’10’ titlelen=’24’ } [field:title /]…

    2019年7月3日
    0473
  • WooCommerce如何仅将CSS更改应用于一个页面或产品?

    这次小编来给大家说说,关于“WooCommerce如何仅将CSS更改应用于一个页面或产品?” 有的客户要求从只有一个产品页面中删除图像,但不是从所有的产品页面中删除图像。如果您想将 CSS 更改应用于任何特定的网页,同样的故事也适用。这是我如何做到的。 1. 访问您的网站,并转到您想要 “CSS-ify” 的页面或产品页面 如果您使用 Googl…

    2020年6月12日
    0888
  • Linux云服务器Centos挂载硬盘分区教程

    大家好,好久没有发布网站搭建和服务器运维教程了,这几天作者在折腾一台Linux服务器,为了运行网站和稳定性,挂载数据上做了一些研究,下面分享一下如何为网站挂载个数据分区。 情景:作者有一个CentOS 7.2,64位的服务器系统。 存储盘:40G系统盘和240G数据盘; 目的:把240数据盘做为WEB建站环境的数据存放之用,系统跑环境,存储放数据。 &nbs…

    2019年3月14日 免费建站教程
    01.1K
  • 关于wordpress的php.ini修改,修改系统文件的限制

    很简答地把wordpress安装完了,然后wordpress的主题也安装完了,稍微有点逼格的主题都会有System Status系统状态提示,里面的红绿参数和php.ini文件一直困扰着很多人,今天小编就教大家如何突破这些参数限制。   首先,System Status系统状态里的红绿参数指的是wp主题对wordpress和主机空间的配置要求。 红…

    2018年8月24日 免费建站教程
    02.1K
  • 关于phpwind找回密码的办法

    今天,小编在自己的努力下,终于找回密码,进去了phpwind的后台。我来分享一下自己的经验心得。 老版本的phpwind 密码是直接放在sql_config.php文件里面的,直接修改./data/sql_config.php文件内容: $manager=’admin’;            //管理员用户名 $manager_pwd=’21232f297…

    2019年11月4日 免费建站教程
    01.2K
  • 织梦Dede开源系统工具,织梦网站如何进行安全设置

    (为了安全起见,建议先做好全站数据和文件的备份,以下教程是总结经验,本人也是这样设置,并且没有任何问题) 1、修改默认后台名。 打开网站根目录,找到[dede],这个文件夹就是后台的路径,可以随意修改,比如修改为[adminbuy],此时后台登陆的路径为:http://www.*****.com/adminbuy/ 2、删除member文件夹(一共就两个模板…

    2019年7月15日 免费建站教程
    1964
  • 免费在线问答插件,使用WordPress建站的朋友,不要错过哦

    这款免费的Word Press 在线问答插件,名字叫:DW Question & Answer 免费问答社区插件下载地址:链接: https://pan.baidu.com/s/1WB6nn2VP75kkODfu1XMbSw 提取码: 5gm5    好看吗?你们觉得呢?而我的话,就觉得还不错哦。虽然和收费的有点差距,但是还不错了啦。 最近…

    2019年4月6日 免费建站教程
    11.2K
  • 2019域名可备案后缀有哪些呢?

    购买域名前,SEOer和站长们是否有想过购买的域名是否能备案呢?是否有考虑过这个问题?如果没有的话,可以参考下本文中写到的可备案的后缀哦。 2019年网站域名可备案后缀到底有哪些呢? 目前在国内注册的无论是新域名还是老域名,均需要实名制,实名登记后才可以解析。在国外域名商注册的不在此限,但有被禁止访问的风险。 实名并不代表备案,实名后,如果需要使用国内主机,…

    2019年9月28日
    0899
  • 关于宝塔Linux面板命令大全,需要时可查看

    关于宝塔Linux面板命令大全,需要时可查看。因为现在越来越多人使用宝塔系统来管理服务器了,安装方便,配置环境快捷好用。 安装宝塔 Centos安装脚本 yum install -y wget && wget -O install.sh http://download.bt.cn/install/install.sh && s…

    2019年7月27日
    1965
  • 关于WordPress博客类网站速度优化攻略

    今天,小编来给大家说说 “关于WordPress博客类网站速度优化攻略”。希望对于用wordpress开源程序来建站的小伙伴有所帮助。 使用Wordpress搭建的网站普遍打开速度太慢,针于SEO来讲提升网站打开速度才能获得好的体验。如何提升Wordpress网站打开速度,让WP博客程序实现速度秒开,经过研究实践终于突破了速度这一难题。 要提升Wordpre…

    2019年12月15日 免费建站教程
    0887
  • 怎样利用宝塔面板搭建服务器环境与网站?

    我们将在空白的宝塔面板内搭建服务器环境及相关配置 宝塔 首先设置服务器环境,是选择lamp环境还是lnmp环境看个人需求,点击页面中的一键安装就可; 宝塔面板 在左侧会显示待完成任务,系统会自行进行安装; 宝塔软件安装 待完成所有安装即可,然后我们安装一下其他扩展; 点击左软件管理,在右侧找到一下三项Redis、PHP守护、七牛云存储 1.5,进行安装,待完…

    2019年6月10日 免费建站教程
    01.0K