首页 python正文

python,利用BeautifulSoup写的第一采集程序

启明SEO python 2020-07-31 18:32:58 22 0 采集BeautifulSoup
import requests
from bs4 import BeautifulSoup
link="http://www.xiangmingshan.com/zhishi/"
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}
r=requests.get(link,headers=headers)
soup=BeautifulSoup(r.text, "lxml")


titles=soup.find_all("h3", class_="f-16 mb15 f-bold")
i=0
for title in titles:
    i+=1
    print(i,title.text)
    urlnames=title.a
    url=urlnames.get('href')
    res=requests.get(url,headers=headers)
    conaa=BeautifulSoup(res.text,"lxml")

    neirong=conaa.find(class_="info-con")

    print("正文内容:",neirong.text)
import requests
from bs4 import BeautifulSoup
link="http://www.xiangmingshan.com/zhishi/"
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}
r=requests.get(link,headers=headers)
soup=BeautifulSoup(r.text, "lxml")


titles=soup.find_all("h3", class_="f-16 mb15 f-bold")
i=0
for title in titles:
    i+=1
    print(i,title.text)
    url=title.a['href']
    res=requests.get(url,headers=headers)
    conaa=BeautifulSoup(res.text,"lxml")

    neirong=conaa.find(class_="info-con")

    print("正文内容:",neirong.text)

其中获取链接有两个不同方式,分别是

 url=urlnames.get('href')

url=title.a['href']


评论

好文推荐

实时访客入口页面出现bd_vid=标识是什么原因

实时访客入口页面出现bd_vid=标识是什么原因

最近查看百度实时访客,总是会看到入口页面会多......

有了微信视频号,但是没有发布权限,怎么开通

有了微信视频号,但是没有发布权限,怎么开通

视频号是微信在2020年1月19号开始内测的......

服务器配置低,宝塔面板安装IIS总是安装不上怎么办

服务器配置低,宝塔面板安装IIS总是安装不上怎么办

对于一般企业网站或者博客来说,对服务器的配置......

又一个论坛宣布做不下去了,推一把论坛整体出售

又一个论坛宣布做不下去了,推一把论坛整体出售

论坛作为曾经的流量聚集地,在这些年逐渐没落,......

6月3日百度下线搜索结果出图功能

6月3日百度下线搜索结果出图功能

搜索结果出图功能能够提高网站内容在搜索结果的......

低版本的宝塔面板apache服务器网站日志在哪里

低版本的宝塔面板apache服务器网站日志在哪里

网站日志能够很好的分析出蜘蛛爬取网站的情况,......