复制
收藏
提问
全网
### 随堂作业 #### 1. 使用urllib库访问百度首页,分别使用match,search,findall搜索关键字"oma","an",".an","/(.*an)/","/(.*?an)/",使用sub()替换'www'为自己设置的随机字符串。 #### 2. 使用requests库,访问"www.bilibili.com", 搜索出主页有几个板块,本次访问中主页推荐了多少个与黑神话相关内容并获取视频链接。 #### 3. 访问豆瓣首页,搜索读书板块的新书推荐和音乐板块的新碟榜单目录,并查找出相应的链接。
1个月前
理解问题### 随堂作业 #### 1. 使用urllib库访问百度首页,分别使用match,search,findall搜索关键字"oma","an",".an","/(.*an)/","/(.*?an)/",使用sub()替换'www'为自己设置的随机字符串。 #### 2. 使用requests库,访问"www.bilibili.com", 搜索出主页有几个板块,本次访问中主页推荐了多少个与黑神话相关内容并获取视频链接。 #### 3. 访问豆瓣首页,搜索读书板块的新书推荐和音乐板块的新碟榜单目录,并查找出相应的链接。
已完成理解「### 随堂作业 #### 1. 使用urllib库访问百度首页,分别使用match,search,findall搜索关键字"oma","an",".an","/(.*an)/","/(.*?an)/",使用sub()替换'www'为自己设置的随机字符串。 #### 2. 使用requests库,访问"www.bilibili.com", 搜索出主页有几个板块,本次访问中主页推荐了多少个与黑神话相关内容并获取视频链接。 #### 3. 访问豆瓣首页,搜索读书板块的新书推荐和音乐板块的新碟榜单目录,并查找出相应的链接。」
展开阅读网页
随堂作业
1. 使用urllib库访问百度首页
要点: 使用urllib库访问百度首页并进行正则表达式搜索和替换。
import urllib.request
import re
# 访问百度首页
url = 'http://www.baidu.com'
response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')
# 使用match, search, findall搜索关键字
match_result = re.match(r'oma', html)
search_result = re.search(r'an', html)
findall_result = re.findall(r'.an', html)
findall_result2 = re.findall(r'/(.*an)/', html)
findall_result3 = re.findall(r'/(.*?an)/', html)
# 使用sub()替换'www'为随机字符串
random_string = 'random'
replaced_html = re.sub(r'www', random_string, html)
print("Match Result:", match_result)
print("Search Result:", search_result)
print("Findall Result:", findall_result)
print("Findall Result2:", findall_result2)
print("Findall Result3:", findall_result3)
print("Replaced HTML:", replaced_html)
2. 使用requests库访问Bilibili首页
要点: 使用requests库访问Bilibili首页并搜索相关内容。
import requests
import re
# 访问Bilibili首页
url = 'https://www.bilibili.com'
response = requests.get(url)
html = response.text
# 搜索主页板块数量
sections = re.findall(r'<section.*?>(.*?)</section>', html)
section_count = len(sections)
# 搜索与黑神话相关内容
black_myth_content = re.findall(r'黑神话', html)
black_myth_count = len(black_myth_content)
# 获取视频链接
video_links = re.findall(r'<a data-index="0" href="(.*?)"', html)
print("主页板块数量:", section_count)
print("与黑神话相关内容数量:", black_myth_count)
print("视频链接:", video_links)
3. 访问豆瓣首页
要点: 使用requests库访问豆瓣首页并搜索相关板块和链接。
import requests
import re
# 访问豆瓣首页
url = 'https://www.douban.com'
response = requests.get(url)
html = response.text
# 搜索读书板块的新书推荐
book_section = re.search(r'<section.*?读书.*?>(.*?)</section>', html)
new_books = re.findall(r'<a data-index="1" href="(.*?)".*?新书推荐', book_section.group(1))
# 搜索音乐板块的新碟榜单
music_section = re.search(r'<section.*?音乐.*?>(.*?)</section>', html)
new_albums = re.findall(r'<a data-index="2" href="(.*?)".*?新碟榜单', music_section.group(1))
print("新书推荐链接:", new_books)
print("新碟榜单链接:", new_albums)
以上代码展示了如何使用urllib和requests库进行网页访问和内容搜索,并根据要求进行正则表达式匹配和替换。
更专业一些
转笔记
专业
### 随堂作业
#### 1. 使用urllib库访问百度首页,分别使用match,search,findall搜索关键字"oma","an",".an","/(.*an)/","/(.*?an)/",使用sub()替换'www'为自己设置的随机字符串。
#### 2. 使用requests库,访问"www.bilibili.com", 搜索出主页有几个板块,本次访问中主页推荐了多少个与黑神话相关内容并获取视频链接。
#### 3. 访问豆瓣首页,搜索读书板块的新书推荐和音乐板块的新碟榜单目录,并查找出相应的链接。不在提醒