首页 python正文

python,利用BeautifulSoup写的第一采集程序

启明SEO python 2020-07-31 18:32:58 875 0 采集BeautifulSoup
import requests
from bs4 import BeautifulSoup
link="http://www.xiangmingshan.com/zhishi/"
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}
r=requests.get(link,headers=headers)
soup=BeautifulSoup(r.text, "lxml")


titles=soup.find_all("h3", class_="f-16 mb15 f-bold")
i=0
for title in titles:
    i+=1
    print(i,title.text)
    urlnames=title.a
    url=urlnames.get('href')
    res=requests.get(url,headers=headers)
    conaa=BeautifulSoup(res.text,"lxml")

    neirong=conaa.find(class_="info-con")

    print("正文内容:",neirong.text)
import requests
from bs4 import BeautifulSoup
link="http://www.xiangmingshan.com/zhishi/"
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}
r=requests.get(link,headers=headers)
soup=BeautifulSoup(r.text, "lxml")


titles=soup.find_all("h3", class_="f-16 mb15 f-bold")
i=0
for title in titles:
    i+=1
    print(i,title.text)
    url=title.a['href']
    res=requests.get(url,headers=headers)
    conaa=BeautifulSoup(res.text,"lxml")

    neirong=conaa.find(class_="info-con")

    print("正文内容:",neirong.text)

其中获取链接有两个不同方式,分别是

 url=urlnames.get('href')

url=title.a['href']


评论

Python好学公众号

好文推荐

实时访客入口页面出现bd_vid=标识是什么原因

实时访客入口页面出现bd_vid=标识是什么原因

最近查看百度实时访客,总是会看到入口页面会多......

有了微信视频号,但是没有发布权限,怎么开通

有了微信视频号,但是没有发布权限,怎么开通

视频号是微信在2020年1月19号开始内测的......

服务器配置低,宝塔面板安装IIS总是安装不上怎么办

服务器配置低,宝塔面板安装IIS总是安装不上怎么办

对于一般企业网站或者博客来说,对服务器的配置......

win10下安装MYSQL后,提示Can't connect to MySQL server on localhost (10061)相关问题解决方法

win10下安装MYSQL后,提示Can't connect to MySQL server on localhost (10061)相关问题解决方法

我遇到的问题是电脑原先安装过mysql,卸......

如何用python抓取爱企查企业信息

如何用python抓取爱企查企业信息

前段时间,经理让我去找一些企业的信息,我平常......

又一个论坛宣布做不下去了,推一把论坛整体出售

又一个论坛宣布做不下去了,推一把论坛整体出售

论坛作为曾经的流量聚集地,在这些年逐渐没落,......