在不等长数据对接中,如果直接使用
rbind
函数会出现错误,这里简单记录以下不等长数据对接的简单处理方法。
问题
在对接数据的时候出现以下提示。
|
|
一开始以为是读取文件出现问题,换成data.table()
读取之后,依然出现问题。
Learn and live
在不等长数据对接中,如果直接使用
rbind
函数会出现错误,这里简单记录以下不等长数据对接的简单处理方法。
在对接数据的时候出现以下提示。
|
|
一开始以为是读取文件出现问题,换成data.table()
读取之后,依然出现问题。
在R中提供了
t()
函数用来进行转置,很多时候确实提供了诸多便利,但是由于t()
函数在转置时会强制把data.frame
函数转换成matrix
格式,在后续的计算中又带来麻烦。由于在平时的计算中会经常用到转置,为了节省时间,把data.frame
格式转置的一系列操作打包成函数备份,方便以后使用。
由于在平时的计算中会经常用到data.table()
包,所以这里的dataframe转置函数默认已经载入此包。这里我们使用中国北京市的一组经济数据,具体如下。
data.table
包提供了一个data.frame
的高级版本,由于它是C语言编写,相比data.frame
,data.table
能够让你更加快速高效的处理数据。非常适合那些需要处理大型数据集(比如 1GB 到100GB)和需要在内存中处理数据的人。虽然data.table
很强大,但是有些语法还是比较独特的,因此在学习之余顺手翻译了data.table
的文档,给自己个备忘,给大家个参考。
data.table
像subset
, group
, update
, join
等数据处理操作都有内在的关联,结合这些相关操作有以下优点:
简言之,如果你对缩短编程和计算时间非常感兴趣,这个包就适合你,data.table
坚持的哲学就是使这些成为可能。
向量是R的基本运算对象,在通常的数据处理中,向量化计算可以大大提高运算效率。在R中,apply系列函数提供了最主要的向量化运算,这里总结一下apply系列函数的学习记录。
apply()
函数
|
|
apply()
函数主要作用于数组和矩阵,如果X
是数据框,apply()
会通过as.matrix()
或者as. array()
将其转为矩阵。如果所有行列不是数值型或者类型不一致,导致转换失败,那么apply是运算不出任何一列的结果,因此不建议对数据框使用。国家数据库提供了海量的电子统计数据,免去了逐年查询录入整理数据的的麻烦,同时我们还能找到提供国家数据库接口的R包,是我们能够直接在R中查询处理数据,很是方便。最近在使用过程中发现了分地域年度指标获取过程中存在一些小问题,于是结合最近所学写了两个函数,实现了批量读取保存处理国家数据库数据,记下过程以留后用。
首先需要介绍的是rstatscn包,这个包提供了国家数据库的R接口,具体的函数介绍这里不在重复,请参照作者文档。rstatscn提供很方便的数据查询函数,大大简化了数据获得的方法。我们可以通过下面命令安装rstatscn包。
|
|
折腾了几个小时终于用hexo和github构建了一个个人博客,终于可以愉快的记录一些东西了。实际上20分钟就能完成整个过程,为了下次不走弯路,赶紧记录下这次构建过程。
首先,你需要一个github账号,然后在账号下建立一个repository,这个过程及其简单,此处唯一需要说明的是repository必须命名为username.github.io,username就是你的用户名,而且必须要跟你用户名相同。
由于hexo是基于node.js构建的,所以我们需要在电脑上部署node.js,官网推荐有两个版本,追求稳定的用户可以安装LTS长期支持版,这个也是官网推荐大多数用户安装的。具体安装过程不详述,这个过程大家应该重复了无数遍了。安装git基本与node.js类似,直接现在安装即可。
接下来就要在自己电脑上安装hexo。hexo官网首页给出了如下简单的说明。
|
|
登陆域名提供商,进入域名管理页面,添加以下三条信息,yourusername.github.io为你自己的地址名。
主机名 | 类型 | 线路类型 | 对应值 |
---|---|---|---|
@ | A | 默认 | 192.30.252.153 |
@ | A | 默认 | 192.30.252.154 |
www | CNAME | 默认 | yourusername.github.io |
然后到本地的hexo文件夹的source子文件夹下创建名字为CNAME的新文件,输入你需要绑定的域名,例如: