蓝狮平台_蓝狮注册登录云技术中心

蓝狮用R整理数据

image.png


上篇文章介绍了如何在数据中增加或者删除变量,但是实际操作中,我们需要从大的数据库中选取一些变量来分析,那么如何从数据中选取多个变量呢?


用R整理数据

从数据库中选取多个变量

多重线性回归,一般是指有多个自变量X,只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍,两者的差距主要在于自变量X的数量,在只有一个X时,就称简单线性回归本次我们数据链接:


假设原数据库为rawdata,存储了某地区人群的上千个健康指标,但现在我们只想提取其中的基本人口和社会经济特征变量进行分析。


通常来讲,可以在数据框后加[ , ]。逗号后是列。


## 提取第一列 rawdata [,1]

但从上千个指标中选出某几个人口和社会经济变量,必须知道这些变量在原数据库中是第几列,操作必然繁琐,且容易出错。


这种情况下,我们可以用下面的code:


newdata <- rawdata[,c('age','gender','ethnicity','education', 'job','marital_status','location','monthly_income')

定量变量的统计描述

多重线性回归,一般是指有多个自变量X,只有一个因变量Y。蓝狮注册研发专利前面我们主要是以简单线性回归为例在介绍,两者的差距主要在于自变量X的数量,在只有一个X时,就称简单线性回归。


在刚刚整理好的newdata中,我们想了解目标人群的月收入。


首先对数据做个简单的逻辑核验,比如月收入一定是大于0的。


另外,还要把缺失值删掉,当然,这里需要考虑缺失值是否会对统计结果造成影响。


比如通过对未缺失变量的描述,发现缺失的月收入都来自金融行业的样本,那么用现有数据计算出来的月收入就可能低于实际情况,我们需要回访、补充数据,或者用相关数据代替。


无论采取何种办法,或者不采取任何补救办法,在汇报结果时,都需要说明。