国家数据库提供了海量的电子统计数据,免去了逐年查询录入整理数据的的麻烦,同时我们还能找到提供国家数据库接口的R包,是我们能够直接在R中查询处理数据,很是方便。最近在使用过程中发现了分地域年度指标获取过程中存在一些小问题,于是结合最近所学写了两个函数,实现了批量读取保存处理国家数据库数据,记下过程以留后用。
准备工具
首先需要介绍的是rstatscn包,这个包提供了国家数据库的R接口,具体的函数介绍这里不在重复,请参照作者文档。rstatscn提供很方便的数据查询函数,大大简化了数据获得的方法。我们可以通过下面命令安装rstatscn包。
|
|
问题
但是在进行分省年度数据查询时,是下面这样的结果。有时一个产业分类下一个地区会有多个指标的数据,而这样只是显示出一个。为了获取全部的数据,我们只能把数据抓取下来自己处理。
|
|
获取数据
当我们需要抓取大量数据时每次要话费很长时间,因此一次抓取所有可能需要的数据保存在本地电脑是一个不错的选择。结合cousera 上R Programming课程所学,写了一个函数,通过指定抓取的指标和地域,可以实现批量保存数据。
|
|
处理数据
我们通过数据抓取获得了N多的数据,接下来还要通过函数来实现数据的清理。这里清理的目标是:合并一个产业分类下所有地区的数据。具体的实现形式如下。
|
|
获取并清理数据
最后,我们可以指定所需要的产业代码和地域代码实现批量保存清理。例如:
|
|
对接所有文件
我们还可以通过一小段代码实现所有文件对接。
|
|
后记
通过两个函数大大简化了数据的获取流程,但是感觉数据清理函数虽然可以达到目的,应该还有更加简化的写法,并且应该还可以引入通道的手法,进一步增加效率。