推荐一款WordPress博客网站的采集插件工具

这次,小编来推荐一款WordPress博客网站的采集插件工具,希望能帮助使用Wordpress开源程序做网站的小伙伴们。

关于如何安装WordPress博客网站的采集插件工具

下载插件长腿蜘蛛-CTspider

  1. 然后到WordPress插件页面点击上传,安装启用即可。
  2. 如果使用FTP上传,请使用二进制上传协议。

关于采集插件工具如何授权?

登录长腿蜘蛛-CTspider官网注册账号(PS:注册账号需要邮箱验证激活码,请认真填写邮箱账号)。

  1. 点击用户中心->添加授权域名(PS:目前每位用户可以授权3个域名)。
  2. 得到授权码后,点击CTspider插件->系统配置->授权码配置->填入授权码->保存配置->验证授权
WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

最近有很多网友问:为什么点击采集后显示没有任何数据只有两种可能

  1. 采集规则没有设置好。
  2. 如果确定采集规则没问题,请查看当前采集的网址是否是Ajax动态渲染加载(PS:目前长腿蜘蛛-CTspider 不支持动态渲染加载采集)

新建项目 / 基本配置

接下来我们详细说下如何采集一个项目

我们使用新浪科技为示例:

首先基本配置

  1. 任务名称:新浪科技(PS:自定义即可)
  2. 更新时间:默认60分钟(PS:当前任务60分钟自动执行一次)
  3. 字符集:默认选项就可以(PS:如果出现乱码情况,请针对当前web网页字符集选择即可)
  4. 随机IP:开启(PS:开启随机IP会在每次采集的时候自动更换IP,减少服务器IP被封的几率)
  5. 多线程采集:开启 (PS:开启后可提高采集速度)
  6. 多线程数量:默认10(PS:根据自己服务器配置酌情使用)
WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

列表设置

  • 列表URL: http://roll.tech.sina.com.cn/internet_all/index.shtml (PS:如需多个,可换行添加)
  • 列表区域选择器:.contList>ul>li (PS:【完全和CSS选择器用法一样】【可填,可不填】如果采集当前页面有多个相同列表DOM节点就要填写,确保采集精准度)用谷歌浏览器右键审查元素,可以看出当前列表数据都在.contList>ul>li下面
WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具
  • 列表缩略图:如果有图可以直接填写当前缩略图CSS选择器
  • 文章网址匹配:a (PS:由于上面区域选择器已经定位,我们可以直接填入a标签即可,如果区域选择器没有定位则设置:.contList li a 或者.contList a 具体根据你采集页面dom结构自己分析)
  • 添加来源网址到自定义字段:source_url(PS:【自定义】可开启或不开启,设置后会在每天文章添加一个自定义字段source_url并且会把当前采集到网址链接赋值给该字段用于前台调用显示)如: get_post_meta(‘source_url’) 可调用该字段的值。

点击列表测试可以查看当前项目列表配置情况

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

文章设置

标题匹配规则:h1

文章内容设置:#article_content

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

可以看到标题在h1标签下,也可使用.main-title来获取标题

正文内容看上去有好多 class和id 如果有id属性尽量采用id,毕竟id是唯一性,定位精准。

我们还可以增加规则来采集TAG标签

长腿蜘蛛-CTspider 提供了6总规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

点击采集测试

采集结果完美呈现(原文:标题:TAG)正确显示

但是我们发现结果中出现了a链接和一些多于的css属性和id属性还有span标签

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

我们可以利用长腿蜘蛛-CTspider强大的内容过滤模块进行数据清洗工作

内容过滤

  1. 首先删除数据中所有a链接但不删除a标签内容
  2. 删除数据中span标签并且也不删除内容
  3. 删除数据中无用的class属性和id属性

具体设置如下图:

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

最后在进行采集测试(得到纯净的数据)

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

 

原创文章,作者:SONIC SEO,如若转载,请注明出处:https://www.seo388.com/wpcaiji/

(1)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2019年11月25日 22:26
下一篇 2019年11月25日 22:41

相关推荐

  • 公安备案号是什么?如何查询公安备案?

    其实,“什么是公安备案号呢?公安备案应该如何查询呢?” 网站ICP备案之后就要进行公安备案,但是很多人还不知道公安备案号是什么。接下来,小编就来给大家说说吧。 什么是“公安机关备案号”呢? 很多站长可能都还没有听过,这是除了ICP备案号以外的另一个备案,未来正规的网站都要同时取得ICP备案号和公安机关备案号。 公安机关备案号与网站ICP备案号有什么不同呢? …

    2019年10月29日
    02.1K
  • 关于WordPress的网站搬家,数据迁移教程

    用本地环境搭建好的WordPress网站在做好之后如何从本地迁移到网络空间或者网络服务器上呢?   首先请确认你在本地建站的时候只做了themes里面的模版文件,如果只是自己改了下模版,那么网站在搬到服务器上的时候可以选择重新安装wordpress版本,或者不重新安装。但如果你修改了themes里面的模版文件还修改了外面的wordpress程序文件…

    2019年6月13日 免费建站教程
    01.8K
  • 关于织梦模板代码添加

    这次,小编来说说,关于 “关于织梦模板代码添加” 的这个话题。 对于织梦模板这块,几乎都是由程序员写的,如果我们不懂代码,想修改自己模板是比较困难的。前段时间我找了一个模板,挺喜欢的,可是有一个缺点非常扎心,没有相关推荐。大家都知道,相关推荐在一个网页当中还是比较重要的,无论是站在搜索引擎还是用户的角度来看,都是非常友好的。下面我就给大家分享几个整理好的相关…

    2019年9月3日
    01.3K
  • 解决WordPress无法建立到WordPress.org的安全连接的解决办法教程

    解决WordPress无法建立到WordPress.org的安全连接的解决办法教程 WordPress是世界上流行的一款博客软件,由于其众多的开发者和免费共享的插件和主题模板,使用起来非常方便,并受到世界各地用户的喜爱。然而,因为境内网络的原因,有时候会遇到连接不上WordPress.org的问题。当服务器无法连接到WordPress.org时,无论是更新W…

    2023年8月21日
    01.0K
  • Linux远程连接ssh工具FinalShell-Xshell替代神器

    做为站长经常会与服务器打交道,经常有些新手在使用Linux服务器的时候,不知所措,不懂得如何远程连接Linux,今天为大家介绍一款可以替代xshell的国产SSH工具。 最近发现了一款同类产品FinalShell,还是一块良心国货。初步体验了一下,确实是良心之作。且免费(通用版),支持国货。 FinalShell是一体化的的服务器,网络管理软件,不仅是ssh…

    2019年3月14日 免费建站教程
    02.7K
  • 阿里云服务器设置:安装宝塔BT面板

    随着价格的大幅度优惠,现在云服务器已经成为站长建站的首选。不过还有一部分不懂技术的小白苦恼于不懂linux命令,害怕买了云服务器之后不会配置,其实大可不必担心,今天就给大家分享一下阿里云服务器设置教程之【安装宝塔面板一步到位管理服务器】,让管理服务器像管理虚拟主机一样简单。 一、首先我们打开ecs服务器购买页面: 对了,不知道大家是否知道?初次购买阿里云产品…

    2019年6月16日 免费建站教程
    01.8K
  • 如何连接Linux系统的服务器?用X-shell吧!

    买的服务器直接登录不好使?不能直接输入密码?密码输入有问题?那就用工具登录服务器吧! 方便快捷的服务器连接工具:Xshell       下面博主给大家提供下载连接: 06Xshell-6.exe 下载地址: 链接:https://pan.baidu.com/s/1S-FAHd7FTObsrMaz1sQBSg提取码:uias复制…

    2019年6月12日
    01.5K
  • 国外DNS服务器免费DNS解析平台推荐

    这次,小编来推荐一些国外免费的DNS解析平台。 国外的几个免费的DNS解析平台,如下: DNS(即Domain Name System,域名系统),是因特网上作为域名和IP地址相互映射的一个分布式数据库,能够让用户更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串。举例来说,想要访问百度,我们只需输入www.baidu.com即可,但如果没有了DN…

    2019年10月16日 免费建站教程
    02.2K
  • 织梦dede网站自动生成xml文件地图详细教程

    本文教大家使用织梦生成xml地图,快速生成sitemap提升页面收录和抓取排名。经忧哥亲试有效,分享给大家。 1,首先了解一下织梦自带的网站地图生成功能 通过改造把这两项功能改成百度XML地图 及  谷歌网站地图。 2,开始代码进行改造 在 /templets/plus 目录下找到两个文件sitemap.htm 和 rssmap.htm,前者我们当中是百度的…

    2019年3月13日
    02.6K
  • WordPress一键更换整站文件域名的插件

    我们用Wordpress搭建博客之后,虽然可能很少碰到换域名的情况,但是万一哪天碰到了,真还是件麻烦的事情。 网站搬家,可能需要换域名,如果网站搬家要换域名的话,涉及的是整站的图片链接和其他文件的链接,手动1个1个改真的会烦死个人,超级麻烦的。 尤其是博客内的图片链接,如果图片没有放到第三方,那全部的图片都会失效。熟悉Sql的童鞋通过Sql虽然可以完成域名链…

    2019年9月7日
    01.7K
  • 如何在WordPress博客网站后台设置敏感关键词过滤?

    如何在WordPress博客网站后台设置敏感关键词过滤?这次,小编来教大家操作一遍吧。 小编在网上找到了一份关键词文档,通过添加删除一些关键词,整理出来了一份适用的关键词。 分享给大家使用,如下: 链接:https://pan.baidu.com/s/11boAKB6sUEfZsykhOkdTAA提取码:2o36 把这一份关键词内容复制粘贴到 仪表盘\设置\…

    2020年8月4日
    02.1K
  • 2019域名可备案后缀有哪些呢?

    购买域名前,SEOer和站长们是否有想过购买的域名是否能备案呢?是否有考虑过这个问题?如果没有的话,可以参考下本文中写到的可备案的后缀哦。 2019年网站域名可备案后缀到底有哪些呢? 目前在国内注册的无论是新域名还是老域名,均需要实名制,实名登记后才可以解析。在国外域名商注册的不在此限,但有被禁止访问的风险。 实名并不代表备案,实名后,如果需要使用国内主机,…

    2019年9月28日
    01.4K