收集数据的方法有哪些(常见的收集数据的方法)

在大数据时代,除了企业、公司和个人,互联网也是一个非常重要的数据来源。随着信息化社会的快速发展,互联网中可以获取的数据也越来越多,并且多数网站所提供的数据并非一两个页面所能容纳的,如股票行情数据,由于上市交易的股票数量众多,所以网站提供的数据通常都会

在大数据时代,除了企业、公司和个人,互联网也是一个非常重要的数据来源。随着信息化社会的快速发展,互联网中可以获取的数据也越来越多,并且多数网站所提供的数据并非一两个页面所能容纳的,如股票行情数据,由于上市交易的股票数量众多,所以网站提供的数据通常都会有几十个网页,甚至更多。

虽然通过【数据】选项卡的【从网站】功能可以获取单个网页中的数据,但是这样的操作显然无法胜任收集大量网页数据的任务。批量收集网站数据,又被称为网络数据抓取,有时也被简称为“网抓”。用于网抓的工具或软件通常被称为网络爬虫(Web Crawler)。

以某网站的“个股市盈率”网页为例,如图 2-139 所示,每个页面中有 50 行数据,共有 64 个网页。让我们使用Power Query的方式实现抓取前 5 个网页的数据。

收集数据的方法有哪些(常见的收集数据的方法)

图 2-139 个股市盈率网页

步骤 1

单击【数据】选项卡的【自网站】按钮,在弹出的【从 Web】对话框的【URL】文本框中输入这一地址内容再进行下一步操作:“http://data.10jqka.com.cn/market/ggsyl/fifield/syl/order/desc/page/1”单击【确定】按钮关闭【从 Web】对话框,如图 2-140 所示。

收集数据的方法有哪些(常见的收集数据的方法)

图 2-140 在【从 Web】对话框中输入 URL82

步骤 2

Excel 查询数据之后,将弹出【导航器】对话框,在对话框左侧单击【Table 0】,在对话框右侧的【表视图】中将显示相应的数据内容,单击【转换数据】按钮,如图 2-141 所示。

收集数据的方法有哪些(常见的收集数据的方法)

图 2-141 在【导航器】对话框中选择表格

步骤 3

在弹出的【Table 0 – Power Query 编辑器】窗口中,单击【开始】选项卡的【高级编辑器】按钮,在弹出的【高级编辑器】对话框中修改公式(区分字母大小写),单击【完成】按钮关闭对话框,如图 2-142 所示。

收集数据的方法有哪些(常见的收集数据的方法)

图 2-142 修改 Power Query 公式

步骤 4

在【查询设置】窗格的【名称】文本框输入“GetWebPage”修改查询名称,单击【开始】选项卡的【关闭并上载】按钮关闭编辑器窗口,如图 2-143 所示。

收集数据的方法有哪些(常见的收集数据的方法)

图 2-143 修改查询名称并上载

步骤 5

在 Excel 的【查询 & 连接】窗格中查询名称“GetWebPage”之前显示“fx”标识,说明这是一个自定义函数。依次单击【数据】选项卡→【获取数据】下拉按钮→【自其他源】→【空白查询】命令,如图 2-144 所示。

收集数据的方法有哪些(常见的收集数据的方法)

图 2-144 新建空白查询

步骤 6

在弹出的【查询 1 – Power Query 编辑器】窗口的公式栏中输入“={1..5}”,按< Enter > 键完成输入,在编辑器将新建一个列表,包含 1 到 5 的数字。

步骤 7

依次单击【转换】选项卡→【到表】按钮,在弹出的【到表】对话框中保持默认设置,单击【确定】按钮关闭对话框,如图 2-145 所示。

收集数据的方法有哪些(常见的收集数据的方法)

图 2-145 列表数据转换

步骤 8

在【查询 1 – Power Query 编辑器】窗口中单击【添加列】选项卡的【调用自定义函数】按钮,在弹出的【调用自定义函数】对话框中调整设置,在【新列名】文本框中输入“Web”作为名称,在【功能查询】组合框中选中“GetWebPage”,在【PageIndex】标签之下右侧组合框中选中“Column1”,单击【确定】按钮关闭对话框,如图 2-146 所示。

收集数据的方法有哪些(常见的收集数据的方法)

图2-146 设置调用自定义函数

步骤 9

此时将弹出黄色的数据隐私提示栏,单击【继续】按钮,在弹出的【隐私级别】对话框中,选中【忽略此文件的隐私级别检查。忽略隐私级别可能会向未经授权的用户公开敏感数据或机密数据。】复选框,单击【保存】按钮关闭对话框,如图 2-147 所示。

收集数据的方法有哪些(常见的收集数据的方法)

图 2-147 忽略隐私级别检查

步骤 10

单击“Web”列标题右侧的展开按钮,在弹出的对话框中取消选中【使用原始列名作为前缀】复选框,单击【确定】按钮展开“Web”列,如图 2-148 所示。

收集数据的方法有哪些(常见的收集数据的方法)

图 2-148 展开“Web”列

步骤 11

在【查询 1 – Power Query 编辑器】窗口中依次单击【开始】选项卡→【关闭并上载】下拉按钮→【关闭并上载至 …】命令,在弹出的【导入数据】对话框中选中【表】单选按钮,保持默认选中的【新工作表】单选按钮,单击【确定】按钮关闭对话框,如图 2-149 所示。

收集数据的方法有哪些(常见的收集数据的方法)

图2-149 关闭并上载至工作表

批量采集的网站数据将上载到Excel新建工作表中,共有250行数据(5×50行/页),如图2-150所示。

如果【查询&连接】任务窗格中显示“已加载250行。N个错误”,错误的原因可能是部分指标数据未从网站上成功获取(比如该指标在网站上为空)。

收集数据的方法有哪些(常见的收集数据的方法)

图 2-150 上载到工作表中的数据

还想要学习其他数据处理与分析的技巧吗?快来看看应用大全吧!

收集数据的方法有哪些(常见的收集数据的方法)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 55@qq.com 举报,一经查实,本站将立刻删除。转转请注明出处:https://www.szhjjp.com/n/72662.html

(0)
nan
上一篇 2021-12-29
下一篇 2021-12-29

相关推荐

  • 产品怎么去推广(产品推广怎么赚钱)

    绝大多数的公司,财力和资源有限,不能把产品和营销做到极致,产品的同质化比较严重,但是想要完全按照营销理论去制造差异化,或者把产品力做到某种程度,对小公司根本不现实,而大公司的营销方法,更不适合小公司。本人从事市场营销数年以来,包装策划过的

    2021-11-12
    0
  • 个人销售计划和目标(个人销售工作计划书)

    面对新的工作内容,在制定工作计划的时候一定要结合自己的真实能力,切忌急于求成。那么你知道关于个人销售计划书该怎么写吗?下面是小编给大家整理的个人销售计划书怎么写范文,希望对大家有所帮助。个人销售计划书怎么写120__年即将到来,为完成公司下达

    2021-12-30
    0
  • 新媒体运营面试问题有哪些新媒体运营面试的几大问题

    01.你觉得新媒体是什么?很普遍也算有难度的问题,百科百科有相关词条,但重在总结。从知识层面:微信像新媒体的一个缩影,新媒体相较于传统四大媒体(报刊、广播、电视、户外)是所有数字化媒体形式。从市场层面:新媒体也是企业在传统市场营销、品牌推广等方面的转

    2022-01-05
    0
  • crm软件是什么意思啊(国内crm软件管理系统)

    今天聊一聊CRM,主要是因为一个朋友准备做一套CRM系统,而他本人对CRM的理解因为自己领域的局限多少受到限制,所以打算今天花点时间来介绍下CRM大概是什么,都有哪些东西。目前国内有哪些主流的CRM系

    2022-01-16 创业分享
    0
  • 抖音直播零基础入门(新手抖音直播教程)

    大家好,我是尚恒学院营销推广导师橙橙。我名字后面就是我的胃新号。今日要给大伙儿共享的是初学者如何玩转抖音直播间,直播呢已变成时期的一种发展趋势,伴随着抖音短视频愈来愈火,呢根据抖音直播引流方法和挣钱的人也是不计其数。假如你能提早摸索到抖音

    2021-11-27
    0
  • xp注册表优化工具(xp进入注册表设置)

    通过优化修改注册表可以实现各种电脑技能,在电脑安全设置,系统稳定性方面起着很重要的作用,下面分享12个实用的注册表优化方法,对于提高电脑的开关机速度以及上网速度有一定帮助注册表相信电脑爱好者都不会陌生

    2022-01-16
    0

发表回复

登录后才能评论