猫眼top抓取 ================================================ 本次要抓取的是https://www.maoyan.com/board/4这个网页里面的top列表。将电影名字,主演,评分信息抓取过来。 分析html结构 --------------------------------------- 编写get_one_page从html获取相关的html结构信息 提取规则编写 --------------------------------------- 编写正则表达式,提取相关信息。 通过re.compile编译正则,通过re.finditer进行遍历,通过groupdict将结果转为一个dict。 进行返回。 结果写文件 --------------------------------------- 上面提取到的结果,可以通过写到文件进行永久存储的。 代码如下 --------------------------------------- .. literalinclude:: maoyan_demo.py :encoding: utf-8 :language: python :linenos: