首页 python正文

图文介绍Python文章采集工具使用

启明SEO python 2021-01-10 16:25:36 177 0 文章采集

这里用卢松松博客与我自己的博客作为例子,给大家介绍使用Python写的文章采集工具。

一、卢松松博客文章的采集

1、打开设置shezhi.xls,按照下面步骤设置

a、主域名下面填写https://lusongsong.com,记住域名后面的/不能要,否则会出错。

b、是否有翻页,但凡你要抓取的内容超过了一页,我们这里都选择Y,反之则选择N。

c、输入页码前面的部分

https://lusongsong.com/default_

d、输入页码后面的部分

.html

e、从哪一页开始抓

因为卢松松博客第一页是https://lusongsong.com/default,与后面的翻页页面规律不一样,所以这里我们从第二页开始抓,填写2就可以了

f、结束于哪一页

这里我们随便写,只要不是超过其原有的总页数就可以了,这里我就写抓取到第五页,填写5就可以了

g、输入标签

这里是需要找到文章列表在页面的什么地方,通常都会是一个div包含起来的,卢松松博客也确实是div包含起来的。所以这里填写div

图文介绍Python文章采集工具使用

怎么找这个div

鼠标选中当前文章列表页中的某一篇文章,右键网页,点击审查元素,就会出现对应的文章被包含在什么html元素下,我们沿着这个往上找,一层一层的点,就能找到,整个文章列表页的位置。

h、标签属性有ID与class两种,卢松松博客里是class,所以这里我们填写class

图文介绍Python文章采集工具使用

i、属性值也就是id或者class后面的值,这里是nbcontent,所以填写nbcontent


j、起始位置与结束位置,这里是要找到每一篇文章的URL

这里沿用g步骤,找到某一篇文章,右键点击审查元素,就可以找到,这里是<div class="post"> <h2><a href=",结束位置就很简单了没什么规律,我们只要看URL在哪里结束就可以了。这里这里就写"就可以了。

k、标题的起始位置与结束位置

打开某一篇文章的链接,进入文章页,同样鼠标选中标题,右键网页,审查元素

这里看到最靠近标题位置的是这一块代码rel="bookmark">,结束位置这里是一个a标签的结束标志</a>,为了正确,我们要看看是不是唯一的,右键网页,查看源代码,查找rel="bookmark">,这里只有一个,所以这样写没问题,如果有好几个,我们后面结束位置就要从新选择,要保证唯一性,这样才能准确找到标题。


l、内容起始位置设置

打开文章页的网页源代码,看文章第一句话前面的标志与文章最后一句话的标志。由于每篇文章有所不同,我们要多打开几篇文章看看,以保证,起始位置的包含所有页面的文章内容,防止有些网页文章内容抓不全。


m、缓冲时间,卢松松博客貌似有简单的反爬虫设置,这里我们需要设置下缓冲时间,这里我设置的是3,能够全部爬完,你可以设置小一点,如果不能爬完,再往大的设置。


全部设置完成后,如下图

接下来就是启动程序了,点击ads.exe,执行哪一行数据,这里因为我们写1,记住你在2下面设置的,就写1,在3下面设置的就写2,以此类推。


二、我自己的博客

爬取SEO基础的文章,由于第一URL是http://www.liaojinhua.com/seojichu/,第二页是http://www.liaojinhua.com/seojichu/2/,所以第一页数据暂时不爬。


重复以上步骤,设置完成后如下图;

图文介绍Python文章采集工具使用


关注下面公众号,回复采集工具,获取下载链接

启明seo公众号



评论

好文推荐

实时访客入口页面出现bd_vid=标识是什么原因

实时访客入口页面出现bd_vid=标识是什么原因

最近查看百度实时访客,总是会看到入口页面会多......

有了微信视频号,但是没有发布权限,怎么开通

有了微信视频号,但是没有发布权限,怎么开通

视频号是微信在2020年1月19号开始内测的......

服务器配置低,宝塔面板安装IIS总是安装不上怎么办

服务器配置低,宝塔面板安装IIS总是安装不上怎么办

对于一般企业网站或者博客来说,对服务器的配置......

又一个论坛宣布做不下去了,推一把论坛整体出售

又一个论坛宣布做不下去了,推一把论坛整体出售

论坛作为曾经的流量聚集地,在这些年逐渐没落,......

6月3日百度下线搜索结果出图功能

6月3日百度下线搜索结果出图功能

搜索结果出图功能能够提高网站内容在搜索结果的......

Nginx实现开机重启自动启动的方法

Nginx实现开机重启自动启动的方法

将Nginx设置为Windows服务需要借助......