数据清洗|Stata清洗CFPS数据
开始之前
- 首先要明确自己的数据清洗需求,我的需求如下:
- 构建一个面板数据,其中需要包含所有我需要的变量。
- 其次是拆分需求:
-
- 面板数据需要由截面数据来合并;
-
- 变量需要的保留与否暂不清晰,但根据已读文献,有初步方向。
-
开始清洗
制定根目录
- 为了方便合作清洗/给他人检查代码,先确定目录如下:
1 | clear all |
清洗截面数据
筛选变量
- 首先清洗2012年数据,用
keep
指令保留所有需要的变量
1 | *-----------------------2012年-------------------------------- |
- 在excel表格构建表格如下
变量 | 变量名称 | 变量定义 | 2012 | 2014 | …… |
---|---|---|---|---|---|
cig | 是否吸烟 | 是否吸烟 | qq201 | ||
cig_num | 吸烟数量 | 每天吸多少支 | qq202 | ||
cig_quit | 是否曾经戒烟 | 是否曾经戒烟 | qq204 | ||
cig_quit_age | 戒烟年龄 | 戒烟年龄 | qq205 |
- 变量名为
rename
之后的变量名称,即用在后续回归中的变量名称; - 变量定义为问卷中变量的定义/自己构建的变量定义;
- 其中年列代表每年问卷中的问题代码。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Finneas's!
评论
WalineTwikoo