IMXUN

Learn and live


  • 首页

  • 分类

  • 归档

  • 标签

数据对接问题解决

发表于 2017-07-13 | 分类于 笔记

在不等长数据对接中,如果直接使用rbind函数会出现错误,这里简单记录以下不等长数据对接的简单处理方法。

问题

在对接数据的时候出现以下提示。

1
2
Error in rbind(deparse.level, ...) :
numbers of columns of arguments do not match

一开始以为是读取文件出现问题,换成data.table()读取之后,依然出现问题。

阅读全文 »

dataframe 转置函数

发表于 2017-07-11 | 分类于 数据处理

在R中提供了t()函数用来进行转置,很多时候确实提供了诸多便利,但是由于t()函数在转置时会强制把data.frame函数转换成matrix格式,在后续的计算中又带来麻烦。由于在平时的计算中会经常用到转置,为了节省时间,把data.frame格式转置的一系列操作打包成函数备份,方便以后使用。

使用的包和数据

由于在平时的计算中会经常用到data.table()包,所以这里的dataframe转置函数默认已经载入此包。这里我们使用中国北京市的一组经济数据,具体如下。

阅读全文 »

data.table包用法简介

发表于 2017-06-17 | 分类于 数据处理

data.table包提供了一个data.frame的高级版本,由于它是C语言编写,相比data.frame,data.table能够让你更加快速高效的处理数据。非常适合那些需要处理大型数据集(比如 1GB 到100GB)和需要在内存中处理数据的人。虽然data.table很强大,但是有些语法还是比较独特的,因此在学习之余顺手翻译了data.table的文档,给自己个备忘,给大家个参考。

在数据分析中使用data.table

像subset, group, update, join等数据处理操作都有内在的关联,结合这些相关操作有以下优点:

  • 可以不考虑你想要实现的一系列操作,通过简洁一致的语法达到最终目的。
  • 在执行分析前,没有把每一步操作都映射到从一组可用的函数中的特定函数上的负担,从而流畅的执行分析。
  • 通过精准的识别每一步操作需要的数据,自动优化内部操作,非常高效,从而实现快速计算和内存效率化。

简言之,如果你对缩短编程和计算时间非常感兴趣,这个包就适合你,data.table坚持的哲学就是使这些成为可能。

阅读全文 »

R向量化操作

发表于 2017-06-11 | 分类于 数据处理

向量是R的基本运算对象,在通常的数据处理中,向量化计算可以大大提高运算效率。在R中,apply系列函数提供了最主要的向量化运算,这里总结一下apply系列函数的学习记录。

apply() 函数

常用调用

1
apply(X, MARGIN, FUN, ...)
  • apply() 函数主要作用于数组和矩阵,如果X是数据框,apply() 会通过as.matrix()或者as. array()将其转为矩阵。如果所有行列不是数值型或者类型不一致,导致转换失败,那么apply是运算不出任何一列的结果,因此不建议对数据框使用。
阅读全文 »

批量抓取保存处理国家数据库数据的一点小心得

发表于 2017-06-01 | 分类于 数据处理

国家数据库提供了海量的电子统计数据,免去了逐年查询录入整理数据的的麻烦,同时我们还能找到提供国家数据库接口的R包,是我们能够直接在R中查询处理数据,很是方便。最近在使用过程中发现了分地域年度指标获取过程中存在一些小问题,于是结合最近所学写了两个函数,实现了批量读取保存处理国家数据库数据,记下过程以留后用。

准备工具

首先需要介绍的是rstatscn包,这个包提供了国家数据库的R接口,具体的函数介绍这里不在重复,请参照作者文档。rstatscn提供很方便的数据查询函数,大大简化了数据获得的方法。我们可以通过下面命令安装rstatscn包。

1
install.packages("rstatscn")
阅读全文 »

通过GitHub和Hexo搭建个人博客

发表于 2017-05-28 | 分类于 互联网

折腾了几个小时终于用hexo和github构建了一个个人博客,终于可以愉快的记录一些东西了。实际上20分钟就能完成整个过程,为了下次不走弯路,赶紧记录下这次构建过程。

Github账号申请

首先,你需要一个github账号,然后在账号下建立一个repository,这个过程及其简单,此处唯一需要说明的是repository必须命名为username.github.io,username就是你的用户名,而且必须要跟你用户名相同。

安装node.js和git

由于hexo是基于node.js构建的,所以我们需要在电脑上部署node.js,官网推荐有两个版本,追求稳定的用户可以安装LTS长期支持版,这个也是官网推荐大多数用户安装的。具体安装过程不详述,这个过程大家应该重复了无数遍了。安装git基本与node.js类似,直接现在安装即可。

安装hexo

接下来就要在自己电脑上安装hexo。hexo官网首页给出了如下简单的说明。

1
2
3
4
5
npm install hexo-cli -g
hexo init blog
cd blog
npm install
hexo server
阅读全文 »

配置hexo

发表于 2017-05-28 | 分类于 互联网

域名绑定

域名管理

登陆域名提供商,进入域名管理页面,添加以下三条信息,yourusername.github.io为你自己的地址名。

主机名 类型 线路类型 对应值
@ A 默认 192.30.252.153
@ A 默认 192.30.252.154
www CNAME 默认 yourusername.github.io

然后到本地的hexo文件夹的source子文件夹下创建名字为CNAME的新文件,输入你需要绑定的域名,例如:

阅读全文 »

Hello, Blog

发表于 2017-05-28 | 分类于 互联网

Hello, Hexo!

Hello, Blog!

Hello,world!

eimei

eimei

8 日志
3 分类
8 标签
© 2017 eimei
由 Hexo 强力驱动
主题 - NexT.Mist