推荐一款WordPress博客网站的采集插件工具

这次,小编来推荐一款WordPress博客网站的采集插件工具,希望能帮助使用Wordpress开源程序做网站的小伙伴们。

关于如何安装WordPress博客网站的采集插件工具

下载插件长腿蜘蛛-CTspider

  1. 然后到WordPress插件页面点击上传,安装启用即可。
  2. 如果使用FTP上传,请使用二进制上传协议。

关于采集插件工具如何授权?

登录长腿蜘蛛-CTspider官网注册账号(PS:注册账号需要邮箱验证激活码,请认真填写邮箱账号)。

  1. 点击用户中心->添加授权域名(PS:目前每位用户可以授权3个域名)。
  2. 得到授权码后,点击CTspider插件->系统配置->授权码配置->填入授权码->保存配置->验证授权
WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

最近有很多网友问:为什么点击采集后显示没有任何数据只有两种可能

  1. 采集规则没有设置好。
  2. 如果确定采集规则没问题,请查看当前采集的网址是否是Ajax动态渲染加载(PS:目前长腿蜘蛛-CTspider 不支持动态渲染加载采集)

新建项目 / 基本配置

接下来我们详细说下如何采集一个项目

我们使用新浪科技为示例:

首先基本配置

  1. 任务名称:新浪科技(PS:自定义即可)
  2. 更新时间:默认60分钟(PS:当前任务60分钟自动执行一次)
  3. 字符集:默认选项就可以(PS:如果出现乱码情况,请针对当前web网页字符集选择即可)
  4. 随机IP:开启(PS:开启随机IP会在每次采集的时候自动更换IP,减少服务器IP被封的几率)
  5. 多线程采集:开启 (PS:开启后可提高采集速度)
  6. 多线程数量:默认10(PS:根据自己服务器配置酌情使用)
WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

列表设置

  • 列表URL: http://roll.tech.sina.com.cn/internet_all/index.shtml (PS:如需多个,可换行添加)
  • 列表区域选择器:.contList>ul>li (PS:【完全和CSS选择器用法一样】【可填,可不填】如果采集当前页面有多个相同列表DOM节点就要填写,确保采集精准度)用谷歌浏览器右键审查元素,可以看出当前列表数据都在.contList>ul>li下面
WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具
  • 列表缩略图:如果有图可以直接填写当前缩略图CSS选择器
  • 文章网址匹配:a (PS:由于上面区域选择器已经定位,我们可以直接填入a标签即可,如果区域选择器没有定位则设置:.contList li a 或者.contList a 具体根据你采集页面dom结构自己分析)
  • 添加来源网址到自定义字段:source_url(PS:【自定义】可开启或不开启,设置后会在每天文章添加一个自定义字段source_url并且会把当前采集到网址链接赋值给该字段用于前台调用显示)如: get_post_meta(‘source_url’) 可调用该字段的值。

点击列表测试可以查看当前项目列表配置情况

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

文章设置

标题匹配规则:h1

文章内容设置:#article_content

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

可以看到标题在h1标签下,也可使用.main-title来获取标题

正文内容看上去有好多 class和id 如果有id属性尽量采用id,毕竟id是唯一性,定位精准。

我们还可以增加规则来采集TAG标签

长腿蜘蛛-CTspider 提供了6总规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

点击采集测试

采集结果完美呈现(原文:标题:TAG)正确显示

但是我们发现结果中出现了a链接和一些多于的css属性和id属性还有span标签

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

我们可以利用长腿蜘蛛-CTspider强大的内容过滤模块进行数据清洗工作

内容过滤

  1. 首先删除数据中所有a链接但不删除a标签内容
  2. 删除数据中span标签并且也不删除内容
  3. 删除数据中无用的class属性和id属性

具体设置如下图:

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

最后在进行采集测试(得到纯净的数据)

WordPress博客网站的采集插件工具
WordPress博客网站的采集插件工具

 

原创文章,作者:SONIC SEO,如若转载,请注明出处:https://www.seo388.com/wpcaiji/

(1)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2019年11月25日 22:26
下一篇 2019年11月25日 22:41

相关推荐

  • 关于织梦模板代码添加

    这次,小编来说说,关于 “关于织梦模板代码添加” 的这个话题。 对于织梦模板这块,几乎都是由程序员写的,如果我们不懂代码,想修改自己模板是比较困难的。前段时间我找了一个模板,挺喜欢的,可是有一个缺点非常扎心,没有相关推荐。大家都知道,相关推荐在一个网页当中还是比较重要的,无论是站在搜索引擎还是用户的角度来看,都是非常友好的。下面我就给大家分享几个整理好的相关…

    2019年9月3日
    01.2K
  • Nginx与Apache域名301跳转的规则方法

    nginx 跟Apache htaccess 多个域名301 到指定域名方法 nginx 多个域名301重定向到某一个域名的方法 首先将这几个域名绑定到主机上,修改nginx配置文件 usr/local/nginx/conf/www.ainiseo.comserver {server_name www.ainiseo.com www.ainiseo.cn a…

    2019年3月14日
    01.3K
  • 关于wordpress的php.ini修改,修改系统文件的限制

    很简答地把wordpress安装完了,然后wordpress的主题也安装完了,稍微有点逼格的主题都会有System Status系统状态提示,里面的红绿参数和php.ini文件一直困扰着很多人,今天小编就教大家如何突破这些参数限制。   首先,System Status系统状态里的红绿参数指的是wp主题对wordpress和主机空间的配置要求。 红…

    2018年8月24日 免费建站教程
    03.5K
  • 关于工信部网站备案流程

    工信部备案系统是什么呢?工信部备案系统有什么作用呢? 实际上,国内云虚拟主机、VPS云服务器建站都是要进行备案的,许多朋友都会直接在工信部备案系统里面备案。 接下来,小编来给大家说说工信部网站备案流程是什么? 1)首先进入电信备案系统网址,并在首页中点击用户注册 2)点击注册后在系统中输入用户所注册的用户名和密码,进入ICP备案信息录入登录,填写真实的用户信…

    2019年10月29日
    01.4K
  • 网站的域名应该如何选购? 越短越好 ?

    网站的域名应该如何选购? 越短越好 ?答案是肯定的,越短越好被记住,约受欢迎。但是价格会越高。域名的选择也是SEO优化的重要一环,也是SEO的基础。 国内的网站一般选择com, cn或者net结尾的比较好 (提醒:最好的国内使用后缀还是com和cn,新浪微博会员第三方接口只接受com和cn后缀的),比较受搜索引擎蜘蛛欢迎。而域名长度当然是越短越好,越容易被记…

    2019年3月20日
    11.7K
  • 网站后台介绍-DedeCMS织梦建站教程

    DedeCMS织梦建站教程 — 网站后台介绍: 简单说说,织梦DedeCMS的建站部分教程 。       Dede织梦CMS 下载地址: www.dedecms.com 无论是国内的还是国外的网站,都可以使用织梦DedeCMS开源程序来搭建网站哦。

    2019年3月16日
    11.4K
  • 域名被墙是啥?如何查看域名是否被墙了?

    SEOer或者站长们建站,那必须要买域名。购买域名的话,还是有注意事项需要注意的,否则可能会一不小心买到的“新域名”,很可能已经是被墙了的,或者是被哪个大空间大公司(腾讯,金山,360)屏蔽了的。所以咱们站长应该在购买域名前,先做好相应的准备,可以先查询域名是否被墙,域名的建站记录是否有违规的历史记录等等。 那么,什么是域名被墙?怎么查看域名是否被墙?在使用…

    2019年9月27日
    02.2K
  • Discuz论坛网站数据库迁移搬家修改配置文件

    关于discuz开源程序做的网站搬家 discuz搬家的话,必然是需要网站页面与数据库两部分的迁移。然后则是需要把网站页面部分连接上新的数据库账号和密码。 而discuz具体数据库变更与迁移如下: 对discuz论坛做了数据库信息变更或者迁移后需要修改下面三个文件的配置信息。 config/config_ucenter.php config/config_g…

    2019年9月14日
    02.1K
  • 简单粗暴易懂,除了WordPress之外,还有谁?!

    除了织梦Dede之外还有,Discuzz 和帝国,但是Discuzz和帝国比较适合做论坛类型的网站。 WordPress是使用PHP语言开发的博客平台,属于一款开源程序,简单粗暴,易懂,也不需要修改多少代码,就能建立一个简单的网站了,维护还很简单呢。用户可以在支持PHP和MySQL数据库的服务器上架设属于个人的小网站。此外,用户还可以把 WordPress当…

    2019年3月18日
    11.7K
  • 忘记了Linux 3-6版本宝塔面板密码怎么办?

    进入ssh 输入以下命令重置密码(把命令最后面的   “testpasswd”  替换成你要改的新密码) 注:若是debian/ubuntu用户,请使用有root权限的账户去执行这条命令 cd /www/server/panel && python tools.py panel testpasswd 复制代码 紫框即你要修改的密码红框即面板账…

    2019年8月4日
    01.5K
  • VPS的服务器怎样搭建网站呢?

    IIS站点基本设置:1、首先建立一个目录作为网站目录,用于存放网站程序,(注意最好不要把目录创建到C盘)如图: 2、打开IIS,右击网站选项,新建一个网站:出现如图: 点击“下一步”,出现如图,输入站点描述,可以用域名作为描述内容,方便以后对多个站点的清晰化管理: 在网站IP地址里输入您的VPS的IP地址,卓趣科技提醒:网站的主机头建议不要留空,以防止他人的…

    2019年6月10日 免费建站教程
    01.4K
  • 2020年3月10日阿里云注册与优惠价服务器购买推荐

    2020年3月10日阿里云注册与优惠价服务器购买推荐。 阿里云消费满额可领淘宝红包。3.2-3.31有效消费金额累计满3000元可领淘宝现金红包,仅限报名用户参与。 3月2日-31日有效消费金额累计满3000元,即可获取领取淘宝红包机会! 4月7日满足条件用户可直接来活动页面上领取淘宝红包! 1.到这里注册阿里云账号; https://account.ali…

    2020年3月10日
    01.4K