爬虫思路

[mp3 id=”645223970″ type=”playlist” source=”netease” title=”帝都” tags=”古典” cover=”https://oss.teng.im/2017/09/3a4a3b63725930fdc98f9da3ea208321.jpg” num=”4″ ]

要做个图片站,带会员中心(方便转化,带来收益)的主题已经买好了,就差域名没备案了。

前两天找了几个图片站,写了程序,下载图片。

这里主要说下爬虫的思路:

首先分析需求:我们发表一套图需要什么?

答案是需要这 4 个:

  • 图片,这是最主要的
  • 标题,也很重要,当然你自己随便搞个编号也行,喜欢就好
  • 分类,每套图分到哪一类都随意
  • 标签,标签一般也是从标题取出来的

需求分析出来就好办了,就是要获取这 4 个信息嘛。但是为了程序方便写,有时候还会获取 每套图的图片数量 ,加起来一共需要 5 个信息。

具体操作就是:

  1. 到要采集的图片站,随便点开几套图,看看源码,考虑一下怎么获取这几个信息
  2. 保存一两个页面,用编辑器查看源码
  3. 复制带有需要获取的信息的源码(也就是需要解析的那一段代码),然后写正则表达式
  4. 分开测试能不能获取每一个需要获取的信息,比如是否正确获取图片链接
  5. 分开测试好后就把程序拼接起来,按照业务逻辑写程序(带下载功能的)
  6. 程序写好后就测试是否满足需求
  7. 测试完没问题之后就使用吧,建议放到 windows 服务器上面运行(在电脑上运行也一样)

以上就是简单爬取图片站的爬虫的精华所在了。

遇到的坑:

程序写好了测试时才发现下载的都是同一张图,这就是使用 JS 加载了,很坑,要看这个只能通过源码来初步判断了(右键查看网页源码,而不是保存下来再看),这个就需要更高深的知识了,我还没搞懂。

再一个就是程序写好了才发现下载的是防盗链的图。

这两个坑花了我整整一天时间。长经验了!以后爬取之前先下载几张图片,看看防盗链能不能破;再就是看看是不是JS加载的。

正则表达式没怎么学,大部分都是百度查找的,有时间得好好学。

已经爬取了3个图片站,总计 4500 套妹子图,将近 10GB ,图片无码无水印,质量还行!

只要这3个站点更新,一运行程序就都给下载下来了。

来个妹子图站: girlalbums.com,这是之前爬取的,直接把链接存到数据库即可,不用下载图片。

腾讯云网站搬家

把网站从一台腾讯云服务器搬迁到另一台腾讯云服务器

需求:把在香港的服务器上的内容搬迁到上海的服务器

操作一共6个步骤:

1.登录腾讯云,进入控制台

2.看使用中的云产品,点击云服务器

3.选择云服务器所在区域,找到要搬迁的网站所在的那台服务器,点击更多,制作镜像

4.镜像制作完成之后,点击查看镜像,如果你要把镜像用在另一个区域的服务器上,就按图中操作,复制镜像到新服务器所在的区域(整个过程花的时间挺长的,不过值得等待!),如果还是在运来的区域就跳过这一步

5.到新服务器那重装系统

6.最后一步,选择刚刚制作后的镜像

等一会儿之后就做好了,打开浏览器可能看吧,所有内容和原来一模一样,确实很方便!

以上是主要内容。说说给腾讯云服务器扩容方法。

本来站长那台上海的云服务器只有20GB的系统盘,扩容到50GB才能使用刚刚制作的镜像。

所以就提交工单,换成 windows 系统,换系统之后就变成了 50GB 了,自己再手动安装 linux 系统就OK了。

之前用过阿里云的快照服务,然后网站都打不开了,阿里云坑了我客户!所以记得:制作镜像的时候一定要关机!

广州图书馆

接下来的一个月白天大部分时间都会在这里度过,整理知识点,为找工作做好准备

话说大城市的公共福利就是好,其实我只是想找个凉快点儿的地儿敲代码

广州图书馆进去不需要办证,也不需要出示身份证。部分桌子还有插座,可以给笔记本/手机充电