当前位置: 首页 > news >正文

东营设计网站建设怎么做网站推广多少钱

东营设计网站建设,怎么做网站推广多少钱,找营销推广团队,教做衣服的网站在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战。本文总结了多种数据清洗与处理方法:缺失值处理包括删除缺失值、固定值填充、前后向填充以及删除缺失率高的列;重复值处理通过删除或标记重复项解决数据冗余问题&#xff1…

        在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战。本文总结了多种数据清洗与处理方法:缺失值处理包括删除缺失值、固定值填充、前后向填充以及删除缺失率高的列;重复值处理通过删除或标记重复项解决数据冗余问题;异常值处理采用替换或标记方法控制数据质量;数据类型转换确保数据格式符合分析需求,例如转换为整数或日期类型;文本清洗包括去空格、字符替换及转换大小写等操作。此外,还介绍了数据分组统计、数据分箱与标准化的应用。例如,分组统计可按列求均值,数据分箱能为连续变量赋予分类标签,而归一化则通过压缩数据范围提升模型表现。这些方法能有效提高数据质量与分析效率,是数据科学中不可或缺的能。         

缺失值处理

删除缺失值
df_dropped = df.dropna()
print("\n删除缺失值后:")
print(df_dropped)
用固定值填充缺失值
df_filled = df.fillna({'title': 'Unknown','author': 'Unknown Author','price': df['price'].mean()
})
print("\n填充缺失值后:")
print(df_filled)
前向填充
df_ffill = df.fillna(method='ffill')
print("\n前向填充缺失值后:")
print(df_ffill)
后向填充
df_bfill = df.fillna(method='bfill')
print("\n后向填充缺失值后:")
print(df_bfill)
删除缺失率高的列
df_dropped_cols = df.dropna(axis=1, thresh=len(df) * 0.5)  
print("\n删除缺失率高的列后:")
print(df_dropped_cols)

重复值处理

删除重复值
df_deduplicated = df.drop_duplicates()
print("\n删除重复值后:")
print(df_deduplicated)
标记重复值
df['is_duplicate'] = df.duplicated()
print("\n标记重复值后:")
print(df)

异常值处理

替换异常值
df['price'] = df['price'].apply(lambda x: x if 0 <= x <= 100 else df['price'].mean())
print("\n替换异常值后:")
print(df)
标记异常值
df['is_outlier'] = df['price'].apply(lambda x: 1 if x < 0 or x > 100 else 0)
print("\n标记异常值后:")
print(df)

数据类型转换

转换为整数类型
df['price'] = df['price'].astype(int)
print("\n转换为整数后:")
print(df)
转换为日期类型
df['date'] = pd.to_datetime(df['date'], errors='coerce')
print("\n转换为日期类型后:")
print(df)

文本清洗

去掉两端空格
df['title'] = df['title'].str.strip()
print("\n去掉两端空格后:")
print(df)
替换特定字符
df['title'] = df['title'].str.replace('[^a-zA-Z0-9\s]', '', regex=True)
print("\n替换特定字符后:")
print(df)
转换为小写
df['title'] = df['title'].str.lower()
print("\n转换为小写后:")
print(df)

数据分组统计

按列分组求均值
grouped = df.groupby('author')['price'].mean()
print("\n按作者分组的平均价格:")
print(grouped)

数据分箱

按价格分箱
bins = [0, 10, 20, 30]
labels = ['低', '中', '高']
df['price_level'] = pd.cut(df['price'], bins=bins, labels=labels, right=False)
print("\n按价格分箱后:")
print(df)

数据标准化

归一化处理
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df['price_scaled'] = scaler.fit_transform(df[['price']])
print("\n归一化后的数据:")
print(df)
http://www.hkea.cn/news/643888/

相关文章:

  • 怎么查网站是哪家制作公司做的百度收录查询
  • 企业年金交了有好处吗网络优化工程师吃香吗
  • python做网站开发百度6大核心部门
  • 自己做网站平台企业网站优化价格
  • 淘宝网网站建设的需求分析百度会员登录入口
  • 建网站的专业公司推广网站多少钱
  • 网站不去公安局备案自己怎么搭建网站
  • 外贸网站建设入门深圳网络推广哪家
  • 网站模板资源公司网站推广
  • 广东省建设教育协会官方网站首页html简单网页代码
  • 个人网站意义阿里指数官网最新版本
  • 网站开发方式有哪四种搜索引擎优化课程总结
  • 申请做网站、论坛版主app推广接单
  • 青海网站建设广州seo优化推广
  • 物流公司网站制作模板上海网站关键词排名
  • 广西建设人才网搜索引擎优化的目标
  • 比汉斯设计网站素材图片搜索识图入口
  • php网站架设教程英雄联盟韩国
  • 做毕设好的网站百度客服电话24小时
  • 上海手机网站建设电话咨询seo综合查询系统
  • wordpress 4.6 中文版沈阳seo
  • 文件管理软件天津搜索引擎优化
  • 九亭网站建设全国疫情高峰时间表最新
  • 青岛网站建设公司武汉seo收费
  • mvc网站建设的实验报告怎么做优化
  • 有官网建手机网站千锋教育培训多少钱费用
  • b2c交易模式的网站有哪些百度营销客户端
  • flash 学习网站重庆网站seo多少钱
  • 年终总结ppt模板免费下载网站小红书seo排名规则
  • 自己架设网站口碑营销的产品有哪些