博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
用requests库和BeautifulSoup4库爬取新闻列表
阅读量:4481 次
发布时间:2019-06-08

本文共 1219 字,大约阅读时间需要 4 分钟。

1、用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源。

import requestsfrom bs4 import BeautifulSoupurl_main="http://news.gzcc.cn/html/xiaoyuanxinwen/"res = requests.get(url_main)res.encoding = 'utf-8'soup = BeautifulSoup(res.text,'html.parser')li = soup.select('li')for li_title in li:    if len(li_title.select('.news-list-title'))>0:        herf = li_title.select('a')[0]['href']        title = li_title.select('.news-list-title')[0].text        time = li_title.select('span')[0].text        info = li_title.select('span')[1].text        li_res = requests.get(herf)        li_res.encoding = 'utf-8'        li_soup = BeautifulSoup(li_res.text,'html.parser')        li_text = li_soup.select('.show-content')[0].text        print(time,title,herf,info,'\n',li_text)

结果:

2、选一个自己感兴趣的主题,做类似的操作,为“爬取网络数据并进行文本分析”做准备。

import requestsfrom bs4 import BeautifulSoupurl_main="https://www.jd.com/?cu=true&utm_source=kong&utm_medium=unionliaotian&utm_campaign=t_1000222402_&utm_term=ecac100033064339b9fad5482e8396e9&abt=3"res = requests.get(url_main)res.encoding = 'utf-8'soup = BeautifulSoup(res.text,'html.parser')jd = soup.select('.cate_menu_lk')for lk in jd:    print(lk.text)

结果:

 

转载于:https://www.cnblogs.com/xieruikai/p/7605575.html

你可能感兴趣的文章
Android无法删除项目+导入项目报错
查看>>
poj 2349(最小生成树应用)
查看>>
python接口自动化测试二十五:执行所有用例,并生成HTML测试报告
查看>>
c# 指定的存储区提供程序在配置中找不到,或者无效
查看>>
最简陋的python数据
查看>>
第一堂java web课
查看>>
操作系统简介
查看>>
第1周小组博客作业--1703班06组
查看>>
vue项目中icon图标的完美引入
查看>>
C语言指针
查看>>
Java的安装
查看>>
0920 JSON数据 蓝懿
查看>>
Azure Cosmos DB 使用费用参考
查看>>
【嵌入式开发】写入开发板Linux系统-模型S3C6410
查看>>
C# 子线程与主线程通讯方法一
查看>>
006——修改tomacat的编码
查看>>
《C程序设计语言》笔记 (八) UNIX系统接口
查看>>
git常用命令
查看>>
Android必知必会-获取视频文件的截图、缩略图
查看>>
(转)理解Bitblt、StretchBlt与SetDIBitsToDevice、StretchDibits
查看>>