使用火狐浏览器屏蔽网站,页面应该显示的内容被隐藏了,怎样才能看到?

之前在新东方教书,收入和带的学生量成正比。带的学生越多,课时费就越多。但问题是,学生多,每天要处理的信息也多,同时还得准备大量备考材料,所以老师带的学生量是有天花板的。虽然那时候“内卷”这个词儿还没火,但我已经感觉整个人在被慢慢掏空。每天做的都是重复性劳动,纯粹用时间换金钱。为了防止情况恶化,我就硬着头皮学了些编程技巧,让电脑帮我分担了这部分体力活儿。比如,在备考网站上,把需要的材料都复制粘贴下来(爬虫)比如,根据学生做的阅读题,自动生成生词表,来督促他复习(python)比如,把听力音频逐句切割,发给学生练习听力(ffmpeg)等我利用编程和各种工具,把一半的工作分给电脑后,发现自己能带的学生,比其他老师多了3~5倍,原来的天花板被我给掀翻了。更重要的发现是:编程这东西没多难。主要是市面上的教程都太理论化。总是冲着“大而全”来设计,目标是把你培养成一个程序员。可我没必要成为一个程序员啊!我就想解决点工作中的小问题啊!我只想让电脑帮我做点体力活儿,减轻我的工作压力,让我多点空闲时间,这个要求不高啊!我想多数人和我的想法是一样的。比如,前段时间和一个朋友聊天,他从事证券行业,需要在网上批量搜集公司信息。上百家公司的内容,需要一次次复制粘贴,效率实在太低。了解了他的需求之后,我用之前学的爬虫工具,十分钟帮他搞定了一天的工作。关键是,掌握这个工具,并不需要你报几千块的课,花几个月时间。只要你有电脑,愿意抽出1~2个小时就行。想到很多读者和我这位朋友一样,被重复性工作绑架,宝贵的时间和精力都被浪费了,我就觉得应该好好写一套系列教程,把我之前如何逃离“内卷”,提升效率的经验总结下。第一个给大家介绍的,就是这个爬取工具:Web Scraper利用这个工具,可以实现绝大部分网页的爬取,关键在于:不需要编程基础所以大家不必担心学不会,只要跟着后面的教程一步步操作,基本上都可以掌握。这个过程中,你能感觉掌握一个高级工具之后,自己的工作生活能有多大的质量提升。课前准备Web Scraper 是一个浏览器插件,目前支持谷歌浏览器和火狐浏览器。因为一些朋友无法访问谷歌,所以我将所需的文件资源都存放到了网盘中,大家在公众号后台回复关键词“爬虫”,就可以看到提取的链接。不论你是否能访问谷歌,都建议你采用这个方式来安装。因为这是我验证过的一个版本,后面的教程也都会依照此版本进行。打开网盘链接后,根据自己的电脑系统(Windows/苹果),选择对应的文件夹下载。下载完成之后,首先安装浏览器(谷歌/火狐)Windows用户推荐安装火狐浏览器,苹果用户推荐安装谷歌浏览器。(如果电脑中已有某款浏览器,可以跳过这部分,直接看插件的安装步骤)安装过程和其他软件相同,双击打开软件,按照导引操作即可。(Windows,火狐浏览器,双击后安装)(苹果系统,谷歌浏览器,双击后拖动到应用文件夹)下面介绍下,浏览器中插件的安装,以及爬虫的初体验。注意针对大家的使用习惯,每一个板块我都做了两类教程:视频版 & 图文版建议大家先快速看一遍“视频版”,熟悉基础的流程。然后再利用“图文版”,一步步按照自己的节奏完成操作。火狐浏览器火狐浏览器安装WebScraperhttps://www.zhihu.com/video/1477372133890727936安装好浏览器之后,打开浏览器,选择右上角的“三杠”,点击“更多工具”,然后选择“面向开发者的扩展”。进入插件页面之后,在右上角搜索栏里,搜索“Web Scraper”,点击下拉菜单中的搜索结果,跳转到安装页面,点击“添加到Firefox”进行安装。在弹框中点击“添加”,随后勾选弹框中的选项,点击“好的”完成安装。在浏览器中打开任意网页,点击右键,然后选择其中的“检查”,调出“开发者工具”窗口。“开发者工具”是我们操作爬虫的界面,里面看起来很高大上,但我们用到的不多,所以大家不必担心。只要看到最后一栏有“Web Scraper”的标志,就说明我们已经安装好了,前期的工作已经完成。注意:如果你调出的“开发者工具”窗口不在下方,而在侧方,可能查看不到“Web Scraper”的标志。这时,只需要点击“开发者工具”右上角的三个点,然后选择上下分栏的停靠侧,即可把“开发者工具”的窗口,调至下方。谷歌浏览器谷歌浏览器安装WebScraperhttps://www.zhihu.com/video/1477372594945462272安装好浏览器之后,打开浏览器,选择右上角的三个点,选择“更多工具”,然后选择“扩展程序”。将右上角的“开发者模式”点开。随后在刚才下载的“爬虫资源”文件夹中找到WebScraper.crx,拖拽到浏览器窗口中,并点击“添加扩展程序”完成插件的安装。同火狐浏览器一样,打开任意网页后,点击右键,然后选择其中的“检查”,调出“开发者工具”窗口。只要看到最后一栏有“Web Scraper”的标志,就说明我们已经安装好了。注意:如果你调出的“开发者工具”窗口不在下方,而在侧方,可能查看不到“Web Scraper”的标志。这时,只需要点击“开发者工具”右上角的三个点,然后选择上下分栏的停靠侧,即可把“开发者工具”的窗口,调至下方。提示:建议大家还是学会如何访问谷歌,这样不光能减少很多不必要的麻烦,而且还能获取更多资源(比如YouTube上的优质教程等)。关于如何访问谷歌,我在网盘的资料中也附加了相应的方法,大家下载的时候,可以参考使用。不同的系统,只在浏览器安装过程略有差别。后续的所有操作都将在浏览器当中进行,所以系统差异可以忽略不计,我将使用苹果系统下的谷歌浏览器作为示范。快速体验爬虫在开始后续的教学步骤之前,我们可以先来体验一下,这个工具在运转时的状态。建议大家先看一下“视频版”的演示,然后再用“图文版”进行分步操作零基础体验爬虫WebScraperhttps://www.zhihu.com/video/1477373129475952640 我准备了几个已经编辑好的爬虫规则,大家可以拿过来直接用。在刚才打开的“开发者工具”中,点击Web Scraper,可以看到软件的界面。点击 “Create new sitemap”, 选择“Import Sitemap”,随后出现如下界面。在之前下载的“爬虫资源”文件夹中,有一个import文件夹,里面就是已经编辑好的爬虫规则,我们称之为“网页地图”。大家可以打开任意一个文档,把里面的内容复制粘贴到“Sitemap JSON”对话框里,并给它任意取个名字(三个英文字母以上),随后点击“Import Sitemap”。(以“豆瓣读书列表”为例)随后,界面会跳转到这个地图的内部,我们暂时不用管。点击界面中的第二栏“Sitemap xxx”(这里的xxx应该会显示你刚才保存的名称,我取的是douban),选择其中的Scrape。出现两个时间的设定,使用默认值即可,然后点击“Start Scraping”。随后你就会看到,电脑新建了一个浏览器,并且开始自己爬取网页的内容了。爬取结束后,刚才弹出的浏览器会自动关闭。(倍速播放爬取过程)你可以点击界面中出现的“refresh”键,刷新一下,查看刚才爬取的结果。还是点击界面中的第二栏“Sitemap xxx”,选择“Export Data”,选择其中的任意格式,就能把爬取的内容下载成文件了(都是表格形式)在谷歌浏览器中,下载的文件会自动出现在窗口底部,点击即可打开。在火狐浏览器中,下载的文件会在右上角的下载图标中,点击后可以查看。网盘文件中存放了几个不同的“网页地图”,大家可以按照上述流程,都拿过来试试。所谓“网页地图”,就是我们给爬虫下达的指令,告诉它我们需要在哪些网站,按照什么规则,去爬取什么内容。创建好的“网页地图”会被收藏在第一栏的“sitemaps”中,方便后期的调用和修改。我们后面的教学,就是围绕着如何创建这种“网页地图”展开的。这些看起来复杂的“网页地图”,其实都是电脑后期自动生成的,我们需要做的只是点点鼠标而已,大家不必担心。因为我不是专业的程序员,所以专业的东西我也不太懂。不过这反倒可以成为一个优势:1.我能站在新手的角度,用小白能听懂的话,尽量把事儿说清楚。2.只把教程做到“够用”的程度,让读者能真正用起来。所以不管是这个爬虫的教程,还是后续的编程系列教程,都会遵守这个原则来编排。预告:下一篇我们讲解下Web Scraper的基础框架。在基础框架上,稍加变形,就可以应对几乎所有的爬虫情况,所以掌握这部分内容还是挺重要的。

我要回帖

更多关于 火狐浏览器屏蔽网站 的文章

 

随机推荐