用requests库和BeautifulSoup4库爬取新闻列表-白红宇

用requests库和BeautifulSoup4库爬取新闻列表

阅读量：4481 次

发布时间：2019-06-08

本文共 1219 字，大约阅读时间需要 4 分钟。

1、用requests库和BeautifulSoup4库，爬取校园新闻列表的时间、标题、链接、来源。

import requestsfrom bs4 import BeautifulSoupurl_main="http://news.gzcc.cn/html/xiaoyuanxinwen/"res = requests.get(url_main)res.encoding = 'utf-8'soup = BeautifulSoup(res.text,'html.parser')li = soup.select('li')for li_title in li:    if len(li_title.select('.news-list-title'))>0:        herf = li_title.select('a')[0]['href']        title = li_title.select('.news-list-title')[0].text        time = li_title.select('span')[0].text        info = li_title.select('span')[1].text        li_res = requests.get(herf)        li_res.encoding = 'utf-8'        li_soup = BeautifulSoup(li_res.text,'html.parser')        li_text = li_soup.select('.show-content')[0].text        print(time,title,herf,info,'\n',li_text)

结果：

2、选一个自己感兴趣的主题，做类似的操作，为“爬取网络数据并进行文本分析”做准备。

import requestsfrom bs4 import BeautifulSoupurl_main="https://www.jd.com/?cu=true&utm_source=kong&utm_medium=unionliaotian&utm_campaign=t_1000222402_&utm_term=ecac100033064339b9fad5482e8396e9&abt=3"res = requests.get(url_main)res.encoding = 'utf-8'soup = BeautifulSoup(res.text,'html.parser')jd = soup.select('.cate_menu_lk')for lk in jd:    print(lk.text)

结果：