零基础也能使用的SEO爬虫公式 - 提升你的10倍工作效率-SEO技巧-红帽SEO工作室

当前位置：红帽SEO工作室 SEO技巧零基础也能使用的SEO爬虫公式 - 提升你的10倍工作效率

→ 西部数码官网正品独享云虚拟主机火热促销中！买2年送一年，买3年送2年，买5年送5年！ ←
→ 如有资源无法下载，请第一时间联系站长QQ:23467321处理！诚信让我们共赢！
→ 为更好的沟通和解决用户需求，建议新老用户都采用QQ邮箱来注册账号！

　　你有没有遇到过这样的问题，网页里面有几百个网址链接，需要你统计下来，你会一一粘贴复制到表格里吗?

　　或者要统计公司潜在客户的邮箱，需要通过关键词去搜索，然后每个网页都要点击进去，找找看有没有邮箱呢?

　　对于上面这张种大批量重复的工作，难道就没有更好的、快捷的、简单的解决方案吗?

　　当然是有的，今天这篇文章将给你分享 ——如何利用简单爬虫解决重复大量的工作。

　　不过，在进入教程之前，我们要聊聊：

　　什么是爬虫

　　简单来说，爬虫就是一种网络机器人，主要作用就是搜集网络数据，我们熟知的谷歌和百度等搜索引擎就是通过爬虫搜集网站的数据，根据这些数据对网站进行排序。

　　既然谷歌可以利用爬虫搜集网站数据，那我们是否能利用爬虫帮我们搜集数据呢?

　　当然是可以的。

　　我们可以用爬虫做什么

　　前面已经讲过，如果你遇到一些重复大量的工作，其实都可以交给爬虫来做，比如：

　　•搜集特定关键词下的用户邮箱•批量搜集关键词•批量下载图片•批量导出导入文章•……

　　比如我想搜索iphone case的相关用户邮箱，那么可以去Google搜索iphone case这个关键词，然后统计下相关网页，把网址提交给爬虫程序，接着我们就等着出结果就行了。

　　当然，创作一个特定的爬虫程序需要一定的技术基础，市面上主流都是使用python来制作爬虫程序，不过我们今天用一个更简单易懂的爬虫软件——Google Sheet，不用写任何代码的哦!

　　利用Google Sheet爬取数据

　　Google sheet(以下简称GS)是Google旗下的在线办公套件之一，和微软的办公三剑客正好一一对应：

　　•Google doc - Word•Google sheet - Excel•Google presentation - PPT

　　基本上Excel上的公式都可以在GS上运行，不过GS还要另外一个公式，是Excel不具备的，也就是

　　IMPORTXML

　　我们新建一个GS，这个操作和Execl操作一致，然后在A1栏输入我们需要爬取数据的网址，记得网址必须包含https或http，只有这种完整写法才会生效。

　　然后在B1栏输入

　　=importxml(A1,''//title")

　　在B1栏输入完成之后我们就会得到如下数据

　　这样就获得了网址的SEO Title。

　　SEO Title出现在每个浏览器窗口的标签处，也是网站呈现给Google搜索引擎的第一登陆点，里面包含该网页的关键词等重要信息。

　　接下来我们在C1栏输入如下公式：

　　=IMPORTXML(A1,"//meta[@name='description']/@content")

　　然后我们就获得了网页的Meta Description

　　我们能看到，刚才搜集的两个信息就是Google SERPs中很重要的两个元素，Title和Description，基本上要做好站内SEO，这两点要做好。

　　批量爬取网页SEO信息

　　按照上面的两个公式，我们分别在A1B1C1栏中输入网址、Title、Description，然后A列填满想要爬取的网址，B列和C列利用Excel的复制下拉选项，就是鼠标放到C1栏的右下角出现十字标识后，往下拉动鼠标，C列的其他栏会自动填充好C1的公式:

　　然后我们就得到了所有网址的Title和Description

　　统计完这些数据之后，我们之后就再也不用愁怎么写SEO Title啦。

　　如果大家想爬取整个网址的Title与Description，可以把竞品的网址全部放上来。至于如何获取整个网址的链接，大家可以去查一下网址的sitemap.xml，在这里面可以找到一个网站所有的链接。

　　了解公式结构

　　既然importxml可以批量爬取SEO Title，那么当然也是可以爬取其他内容的，比如邮箱地址与链接地址，我们先来分析一下公式结构：

　　=IMPORTXML(A1,"default")

　　A1表示所在列，default表示需要爬取的页面内容结构，所以我们只要修改default值，就能够爬取更多信息，这里给大家展示一下我们在做SEO和统计信息中常用的值

　　站内链接，其中的domain.com换成要统计的域名

　　//a[contains(@href, 'domain.com')]/@href

　　站外链接，其中的domain.com换成要统计的域名

　　//a[not(contains(@href, 'domain.com'))]/@href

　　邮箱统计：

　　//a[contains(@href, 'mailTo:') or contains(@href, 'mailto:')]/@href

　　社交链接，包括linkedin, fb, twitter

　　//a[contains(@href, 'linkedin.com/in') or contains(@href, 'twitter.com/') or contains(@href, 'facebook.com/')]/@href

　　如果你想了解更多能使用的爬虫公式，可以参考Google 官方文档

　　https://support.google.com/docs/answer/3093342?hl=zh-Hans

　　也可以深入了解一下xpath

零基础 SEO爬虫公式工作效率

转载请说明出处内容投诉
红帽SEO工作室 » 零基础也能使用的SEO爬虫公式 - 提升你的10倍工作效率

红帽seo

分享到：

红帽seo

咨询在线客服