瓜子二手车网页部分源码变了怎么办?

来源:6-1 步骤总结

富百世

2021-01-24 19:48:01

老师:今天再次运行以前正常运行的瓜子二手车爬虫程序出错,原因是瓜子二手车网站有部分源码修改了,如以前的代码变成了如下:

<div class="price-main">    

<span class="price-num">3.58万</span>    

<!-- 金融-->    

</div>

导致代码  

car_info['car_price'] = response.xpath("//span[@class='pricestype']/text()").extract_first().strip()

报错。像这样的情况不止一处。我的问题是我将来针对某个网站写好了爬虫程序并且布置到服务器,如果有一天这个网站的部分代码变了,我必须要修改爬虫程序吗?有没有别的好的方法?还有就是在实际操作中,如果要修改爬虫程序,我怎么知道目标网站什么时候代码已经修改,我要相应的要在什么时候修改爬虫程序?求解,谢谢!

写回答

1回答

时间,

2021-01-25

同学,你好,当网站源码发生变化时,爬虫中的xpath语句也需要修改的,即要修改爬虫程序,否则获取不到相应的数据。当使用原有爬虫程序获取不到某些信息时,网站可能会发生变化,同学就需要查看网站源码了,同学可以在程序中添加提示信息,当获取不到内容时输出相应的提示,并记录到日志文件中,同学可以隔段时间看下日志文件并做相应的处理。

祝学习愉快~~~~

0

0 学习 · 1672 问题

查看课程