搜索
查看: 2160|: 0

SAS数据挖掘:数据准备

[复制链接]

128

主题

5

回帖

433

积分

中级会员

积分
433
发表于 2014-8-1 09:10:25 | 显示全部楼层 |阅读模式
数据是基础,所谓“垃圾入、垃圾出”。
数据准备主要包括数据导入、数据集成、数据导出等,这些一笔带过,主要写一下数据清洗。
数据可以分为数值和分类变量。
数据清洗包括:孤立点、错误数据、缺失值处理。
针对连续型变量
处理的方法有单值替换、类均值替换、回归替换
PROC MEANS DATA=数据集 N NMISS MIN MAX MAXDEC=2;
VAR 变量1 变量2;
RUN;
通过MEANS过程查看变量缺失值和极值情况,对重点变量进行处理。
PROC UNIVARIATE DATA=数据集 PLOT;
VAR 变量1 变量2……;
RUN;
查看变量分布,依据统计描述、直方图和盒型图进行观察。
通过单值(均值、中位数、众数等)进行替换,通过相关变量进行分类后用类均值进行替换,通过建立回归方程进行预测替换。
针对分类变量,进行频次观察,进而进行替换处理或者删除
PROC FREQ DATA=数据集;
  TABLE 变量1 变量2……/MISSING;
RUN;

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-24 17:05 , Processed in 0.127312 second(s), 25 queries .

快速回复 返回顶部 返回列表