当前位置：首页 > news >正文

佛山免费建站找哪家公司网站定制

news 2026/5/4 22:28:35

佛山免费建站找哪家,公司网站定制,腾讯企业邮箱手机登录入口官网,苏州手工活外发加工网datasets 模块用 dir() 函数查看 datasets 模块的所有属性和函数 import sklearn.datasets as datasets# 列出 sklearn.datasets 模块中的所有属性和函数 print(dir(datasets)) datasets 模块下的数据集有三种类型#xff1a; #xff08;1#xff09;load系列的经典数… datasets 模块用 dir() 函数查看 datasets 模块的所有属性和函数 import sklearn.datasets as datasets# 列出 sklearn.datasets 模块中的所有属性和函数 print(dir(datasets)) datasets 模块下的数据集有三种类型 1load系列的经典数据集均为小型数据集安装sklearn库时自带 2fetch系列下载数据集较大的数据集需要额外下载 3make系列生成数据集可以生成各种形态分布的随机数据集 load系列经典数据集一共有9个数据集用 load_xxx() 形式的函数加载。 from sklearn.datasets import load_xxx data load_xxx() load_xxx() 返回的数据类型是class sklearn.utils.Bunch 这是scikit-learn 中的一种数据结构称为 Bunch 对象。它类似于 Python 的字典存储键值对可以通过键来访问相应的值例如data[key]还可以通过属性方式访问存储的数据例如 data.key。数据集名称调用函数适用算法数据规模行×列波士顿房价数据集 load_boston() 回归 506×13 乳腺癌数据集 load_breast_cancer() 分类 569×30 糖尿病数据集 load_diabetes() 回归 442×10 手写数字数据集 load_digits() 分类 1797×64 鸢尾花数据集 load_iris() 分类 150×4 健身数据集 load_linnerud() 回归 20×3 (输入) 20×3 (输出) 示例图像数据集 load_sample_image() 图像处理单个图像示例图像集合数据集 load_sample_images() 图像处理 2个图像红酒数据集 load_wine() 分类 178×13 fetch系列下载数据集数据集名称调用函数适用算法数据规模行×列说明新闻分类数据集 fetch_20newsgroups() 分类 18,846×自由文本训练11,314测试7,532 文本分类任务返回原始文本新闻分类向量化数据集 fetch_20newsgroups_vectorized() 分类同上已向量化为稀疏矩阵文本分类任务返回已向量化的稀疏矩阵加州房价数据集 fetch_california_housing() 回归 20,640×8 预测房价中位数树木类型数据集 fetch_covtype() 分类 581,012×54 森林覆盖类型的分类 KDD Cup 99 数据集 fetch_kddcup99() 分类/异常检测 4,898,431×41训练集用于网络入侵检测和异常检测 LFW 人脸匹配数据集 fetch_lfw_pairs() 分类 2,200 对×自由文本配对人脸验证任务 LFW 人脸识别数据集 fetch_lfw_people() 分类 13,233×2919图像大小62×47 像素人脸识别任务 Olivetti 面孔数据集 fetch_olivetti_faces() 分类/聚类 400×4096图像大小64×64 像素聚类和面部识别 OpenML 数据集 fetch_openml() 多种算法依赖于指定的数据集从 OpenML 平台下载各种类型的数据集 RCV1 数据集 fetch_rcv1() 分类 804,414×47,236稀疏矩阵文本分类任务物种分布数据集 fetch_species_distributions() 分类/回归 16,199×10 物种分布建模的回归或分类 make系列生成数据集调用函数生成数据形态说明 make_biclusters() 双聚类数据生成带有重叠或不重叠块结构的矩阵数据 make_blobs() 多簇数据生成多个聚类的二维数据点 make_checkerboard() 棋盘格数据生成具有棋盘格结构的矩阵数据 make_circles() 同心圆数据生成二维同心圆形状的二元分类数据集 make_classification() 分类数据生成用于分类问题的随机数据集 make_friedman1() 回归数据非线性生成非线性回归模型数据Friedman #1 make_friedman2() 回归数据非线性生成非线性回归模型数据Friedman #2 make_friedman3() 回归数据非线性生成非线性回归模型数据Friedman #3 make_gaussian_quantiles() 高斯分位数数据生成服从高斯分布的分类数据 make_hastie_10_2() 二分类数据生成 Hastie 的二元分类数据集 make_low_rank_matrix() 低秩矩阵数据生成指定秩的低秩矩阵 make_moons() 月亮形数据生成二维的月亮形状二元分类数据集 make_multilabel_classification() 多标签分类数据生成随机多标签分类数据集 make_regression() 回归数据生成用于回归问题的随机数据集 make_s_curve() S 曲线数据生成 3D 的 S 形数据集 make_sparse_coded_signal() 稀疏编码信号数据生成用于稀疏表示的信号数据 make_sparse_spd_matrix() 稀疏对称正定矩阵数据生成稀疏对称正定矩阵 make_sparse_uncorrelated() 稀疏无关数据生成稀疏的无相关特征数据集 make_spd_matrix() 对称正定矩阵数据生成对称正定矩阵 make_swiss_roll() 瑞士卷数据生成 3D 的瑞士卷形状数据集经典数据集鸢尾花数据集三分类 1、数据集内容 load_iris() 返回的是一个字典字典中元素介绍如下键值含义数据类型数据大小元素类型说明示例 data 特征数据 array 4 * 150 float [4.9, 3. , 1.4, 0.2] target 类别 array 1 * 150 int 0, 1, 2 feature_names 特征名称 list 4 str sepal length (cm), sepal width (cm), petal length (cm), petal width (cm) 萼片长度、萼片宽度、花瓣长度、花瓣宽度 target_names 类别标签 array 3 str setosa, versicolor, virginica 鸢尾花的三个类别 frame None filename 文件名 str iris.csv data_module str sklearn.datasets.data DESCR 描述 str 对数据的描述 2、特征说明特征含义 sepal length (cm) 萼片长度厘米 sepal width (cm) 萼片宽度厘米 petal length (cm) 花瓣长度厘米 petal width (cm) 花瓣宽度厘米 3、读取鸢尾花数据的完整代码 # 导入鸢尾花数据集 from sklearn.datasets import load_iris# 读取鸢尾花数据集 data load_iris() # 原始数据集是一个字典 # print(data)# for i in data.keys(): # print(i)# 读取特征数据 4*150 feature_data data[data] # print(feature_data) # 读取鸢尾花分类数据 1*150 target_data data[target] # print(target_data) # 读取特征名称4个特征 feature_name data[feature_names] # print(feature_name) # 读取类别标签3种类型 target_label data[target_names] # print(target_label) 波士顿房价数据集回归 1、数据集内容 load_boston() 返回的是一个字典字典中的元素键值含义数据类型数据大小元素类型说明示例 data 特征数据 array 13 * 506 float [4.7410e-02, 0.0000e00, 1.1930e01, ..., 2.1000e01, 3.9690e02, 7.8800e00] target 房价 array 1 * 506 float 21.6, 34.7 feature_names 特征名称 array 13 str [CRIM, ZN, INDUS, CHAS, NOX, RM, AGE, DIS, RAD, TAX, PTRATIO, B, LSTAT] filename 文件名 str boston_house_prices.csv data_module str sklearn.datasets.data DESCR 描述 str 对数据的描述 2、特征说明自变量特征英文释义含义 CRIM per capita crime rate by town 城镇人均犯罪率 ZN proportion of residential land zoned for lots over 25,000 sq.ft. 占地面积超过 25,000 平方英尺的住宅用地比例 INDUS proportion of non-retail business acres per town 每个城镇非零售商业用地比例 CHAS Charles River dummy variable ( 1 if tract bounds river; 0 otherwise) 查尔斯河虚拟变量1 区域靠近河流0 其他 NOX nitric oxides concentration (parts per 10 million) 一氧化氮浓度每千万份之一 RM average number of rooms per dwelling 每户平均房间数 AGE proportion of owner-occupied units built prior to 1940 1940 年前建成的自住房比例 DIS weighted distances to five Boston employment centres 到五个波士顿就业中心的加权距离 RAD index of accessibility to radial highways 高速公路可达性指数 TAX full-value property-tax rate per $10,000 每 $10,000 的全额财产税率 PTRATIO pupil-teacher ratio by town 城市的学生与教师比例 B 1000(Bk - 0.63)^2 where Bk is the proportion of black people by town 城市中黑人比例 LSTAT % lower status of the population 较低社会地位人口的百分比因变量因变量英文释义含义 MEDV Median value of owner-occupied homes in $1000s 自住房屋的中位数价格以 $1000 为单位 3、读取波士顿数据的完整代码 # 导入波士顿数据集 from sklearn.datasets import load_boston# 读取波士顿数据集 data load_boston() # 原始数据集是一个字典 # print(data)# for i in data.keys(): # print(i)# 读取特征数据 13*506 feature_data data[data] # print(feature_data) # print(feature_data.shape) # 读取房价 1*506 target_data data[target] # print(target_data) # 读取特征名称13个特征 feature_name data[feature_names] # print(feature_name)糖尿病数据集回归 1、数据集内容 load_diabetes() 返回的是一个字典字典中的元素键值含义数据类型数据大小元素类型说明示例 data 特征数据 array 10 * 442 float [-0.04547248, -0.04464164, -0.0730303 , ..., -0.03949338, -0.00421986, 0.00306441] target 房价 array 1 * 442 float 179., 185., 118., feature_names 特征名称 list 10 str [age, sex, bmi, bp, s1, s2, s3, s4, s5, s6] data_filename 特征数据文件名 str diabetes_data.csv.gz target_filename 因变量数据文件名 str diabetes_target.csv.gz frame None data_module str sklearn.datasets.data DESCR 描述 str 对数据的描述 2、特征说明自变量特征英文释义含义 age age in years 年龄以年为单位 sex sex 性别 bmi body mass index 身体质量指数 bp average blood pressure 平均血压 s1 tc, total serum cholesterol 总血清胆固醇 s2 ldl, low-density lipoproteins 低密度脂蛋白 s3 hdl, high-density lipoproteins 高密度脂蛋白 s4 tch, total cholesterol / HDL 总胆固醇与 HDL 的比值 s5 ltg, possibly log of serum triglycerides level 血清甘油三酯水平的对数 s6 glu, blood sugar level 血糖水平因变量英文释义含义 a quantitative measure of disease progression one year after baseline 一年后的疾病进展的定量衡量 3、读取糖尿病数据的完整代码 # 导入糖尿病数据集 from sklearn.datasets import load_diabetes# 读取糖尿病数据集 data load_diabetes() # 原始数据集是一个字典 # print(data)for i in data.keys():print(i)# 读取特征数据 10*442 feature_data data[data] # print(feature_data) # print(feature_data.shape) # 读取因变量 1*442 target_data data[target] # print(target_data) # 读取特征名称10个特征 feature_name data[feature_names] # print(feature_name)乳腺癌数据集二分类 1、数据集内容 load_breast_cancer()返回的是一个字典字典中的元素键值含义数据类型数据大小元素类型说明示例 data 特征数据 array 30 * 569 float [1.969e01, 2.125e01, 1.300e02, ..., 2.430e-01, 3.613e-01, 8.758e-02] target 类别 array 1 * 150 int 0, 1 feature_names 特征名称 array 30 str [mean radius, mean texture, mean perimeter, mean area, mean smoothness, mean compactness, mean concavity, mean concave points, mean symmetry, mean fractal dimension, radius error, texture error, perimeter error, area error, smoothness error, compactness error, concavity error, concave points error, symmetry error, fractal dimension error, worst radius, worst texture, worst perimeter, worst area, worst smoothness, worst compactness, worst concavity, worst concave points, worst symmetry, worst fractal dimension] target_names 类别标签 array 2 str [malignant, benign] frame None filename 文件名 str breast_cancer.csv data_module str sklearn.datasets.data DESCR 描述 str 对数据的描述 2、特征说明以下原始特征的均值mean、标准误差standard error、以及“最差”或最大值三个最差/最大值的均值被计算为新的特征最终得出 30 个特征。原始特征英文释义含义 radius mean of distances from center to points on the perimeter 半径从中心到周长上的点的平均距离 texture standard deviation of gray-scale values 纹理灰度值的标准差 perimeter perimeter 周长 area area 面积 smoothness local variation in radius lengths 平滑度半径长度的局部变化 compactness perimeter^2 / area - 1.0 紧致度周长的平方除以面积减去1 concavity severity of concave portions of the contour 凹陷度轮廓凹陷部分的严重程度 concave points number of concave portions of the contour 凹陷点数轮廓凹陷部分的数量 symmetry symmetry 对称性 fractal dimension coastline approximation - 1 分形维度“海岸线逼近”- 1 3、读取乳腺癌数据的完整代码 # 导入乳腺癌数据集 from sklearn.datasets import load_breast_cancer# 读取乳腺癌数据集 data load_breast_cancer() # 原始数据集是一个字典 # print(data)# for i in data.keys(): # print(i)# 读取特征数据 30*569 feature_data data[data] # print(feature_data) # 读取乳腺癌分类数据 1*569 target_data data[target] # print(target_data) # 读取特征名称30个特征 feature_name data[feature_names] # print(feature_name) # 读取类别标签2种类型 target_label data[target_names] # print(target_label)红酒数据集三分类 1、数据集内容 load_wine()返回的是一个字典字典中的元素键值含义数据类型数据大小元素类型说明示例 data 特征数据 array 13 * 178 float [1.316e01, 2.360e00, 2.670e00, ..., 1.030e00, 3.170e00, 1.185e03] target 类别 array 1 * 178 int 0, 1, 2 feature_names 特征名称 list 13 str [alcohol, malic_acid, ash, alcalinity_of_ash, magnesium, total_phenols, flavanoids, nonflavanoid_phenols, proanthocyanins, color_intensity, hue, od280/od315_of_diluted_wines, proline] target_names 类别标签 array 3 str [class_0, class_1, class_2] frame None DESCR 描述 str 对数据的描述 2、特征说明特征含义 Alcohol 酒精含量 Malic acid 苹果酸含量 Ash 灰分 Alcalinity of ash 灰分的碱度 Magnesium 镁含量 Total phenols 总酚含量 Flavanoids 黄酮类化合物含量 Nonflavanoid phenols 非黄酮类酚含量 Proanthocyanins 原花青素含量 Color intensity 颜色强度 Hue 色调 OD280/OD315 of diluted wines 稀释葡萄酒在280nm和315nm处的吸光度比值 Proline 脯氨酸含量 3、读取红酒数据的完整代码 # 导入红酒数据集 from sklearn.datasets import load_wine# 读取红酒数据集 data load_wine() # 原始数据集是一个字典 # print(data)# for i in data.keys(): # print(i)# 读取特征数据 13*178 feature_data data[data] # print(feature_data) # 读取红酒分类数据 1*178 target_data data[target] # print(target_data) # 读取特征名称13个特征 feature_name data[feature_names] # print(feature_name) # 读取类别标签3种类型 target_label data[target_names] # print(target_label)健身数据集 1、数据集内容 load_linnerud()返回的是一个字典字典中的元素键值含义数据类型数据大小元素类型说明示例 data 特征数据 array 3 * 20 float [ 17., 251., 250.] target target数据 array 3 * 20 float [189., 37., 52.] feature_names 特征名称 list 3 str [Chins, Situps, Jumps] target_names target名称 list 3 str [Weight, Waist, Pulse] frame None data_filename 自变量数据文件名 str linnerud_exercise.csv target_filename 因变量数据文件名 linnerud_physiological.csv data_module str sklearn.datasets.data DESCR 描述 str 对数据的描述 2、特征说明特征含义 Chins 引体向上次数 Situps 仰卧起坐次数 Jumps 跳跃次数 Weight 体重 Waist 腰围 Pulse 脉搏率心率

查看全文

http://www.hkea.cn/news/14533672/