网页做得好的网站,公众号微信,电子商务网站的设计,类似 wordpress样本是数据分析的关键#xff0c;直接影响研究成果质量。如果样本质量不高#xff0c;即使使用再好的分析方法#xff0c;也无法得出理想的结论。所以数据学科圈里有句名言“数据比方法更重要”。所以如何提高数据样本的质量是保证研究成果质量的第一步#xff0c;虽然这一…样本是数据分析的关键直接影响研究成果质量。如果样本质量不高即使使用再好的分析方法也无法得出理想的结论。所以数据学科圈里有句名言“数据比方法更重要”。所以如何提高数据样本的质量是保证研究成果质量的第一步虽然这一点在现实中往往被忽视。追求新方法的热情远远高于准备数据而这种现象对科学研究来说极为有害。
提高数据样本质量是一项极为传统的技术活确实没有太多值得圈点的地方。但高水平的研究成果都会以很大的篇幅描述数据的构成及获得过程以些来突出研究工作的真实性、可靠性、科学性。比较典型的是一篇优秀的学术论文Data、Method和Discussion是最核心的部分。
如何提高数据样本质量我们可以从样本产生的各各环节下手找出影响样本质量的关键活动有的放矢地解决这个问题。
首先是确保数据采集的准确性与可靠性也就是如何降低数据误差。任何项目的检测都不可能是绝对准确的测得值与真实值之间总是或多或少的存在着差别即误差。采样过程必需要尽量降低数据误差。根据误差产生的原因我们可以将误差分为系统误差、随机误差和过失误差三种情况。
系统误差是由测量工具不精确和测量方法选择不当造成的。这类误差我们可以通过校准工具或者选择更合适的测量方法来消除随机误差是由环境因素等外部不可控原因导致的如温度、湿度、压力、电磁干扰等。无法预防也无法从根本上消除。只有通过多闪重复实验来尽可能降低随机误差的比例过失误差是由操作人员的不履行正确采集操作规程、工作不认真甚至造假等人为因素造成的。这种误差是可以通过员工培训或管理手段避免的。
其次是采用科学的抽样方法。所谓抽样就是从样本集合中选取一定数量的样本。抽样一是为了降低数据分析的工作量二是消除人为干预数据供应的情况同时还可以降低随机误差的不良影响。科学的抽样会显著提高样本代表总体的水平。一般常用的方法包括单纯随机抽样、系统抽样和分层抽样。
单纯随机抽样。采用无放回的形式随机抽取样本集合中的样本直到达数量要求为止。这种抽样操作简便公平性强但不适合大样本集合容易造成样本分布局部化降低样本代表总体的水平系统抽样。首先将样本集合平均分为m组m为采样数量然后对每一组进行单纯随机抽样。该方法适合大样本能够弥补单纯随机抽样局化的缺陷。但是对于数据按顺序有周期特征或单调递增或递减趋势特征时将会产生明显的偏性。分层抽样。先对样本集合根据样本的某种属性进行分组然后在每组内按等比方式抽样。比如某高校要对学生体BMI监测一共要抽取300人。该校有男生12000人女生18000人。于是我们可以将学生分为男生组与女生组然后按比例从男生中使用随机抽样或系统抽样方法选择120人女生中选择180人。该方法适合为明显个体特征如年龄、性别、职业等的大样本样本代表性较好抽样误差较小。缺点是操作更复杂。
有研究指出以上三种抽样方法分层抽样误差相对最小单纯随机抽样误差相对最大。不过在计算机的帮助下抽样工作量已经可以忽略不计在数据量已经不是问题的前提下尽量选择低误差的抽样方法是样本质量的重要保障。