爬取数据的分类

来源:2-2 选择练习

qq_慕村8414342

2019-12-30 17:05:26

老师你好,我在爬百思不得其姐网(http://www.budejie.com/),我取出他们的用户名,评论内容,评论图片的连接,点赞数,分享数,评论数,然后把他们存到mysql,

但是有些人评论带了图片,有些人没有带图片,用户名、评论内容等东西我都是单独取出的,但是我用正则去取有图片的数据的话没有的图片的就会被跳过,这样储存数据的时候我就找不到没有图片对应的点赞数、评论数等等,要怎么弄才好

http://img.mukewang.com/climg/5e09bdd1089aa98815880766.jpg

http://img.mukewang.com/climg/5e09bdd2080ab39b18830998.jpg


写回答

1回答

好帮手乔木

2019-12-30

同学你好:

由于同学的内容不在授课的范围内,为了能为其他同学解决课程中的问题,简单的为同学提供一个思路。

每一条内容都包含在每一个li标签当中。

http://img.mukewang.com/climg/5e09c1ba0971ad1803110167.jpg

同学可以使用功能正则爬取对应的li

然后遍历每一个li标签的内容,从这些内容中再进行正则匹配。如果匹配不到同学可以使用功能异常捕获,自定义给该异常字段一个值。然后保存到数据库中。

try:

    name =xxx

except:

    name = None 

在后面的课程中同学会学习到使用xpath解析方法,会使得爬取该网站变得容易。

如果我解决了同学的问题,请采纳!学习愉快^_^。

0

0 学习 · 1672 问题

查看课程