网站的关键词搜索怎么做,国外 精美 网站,建企业网站需要哪些资料,logo一键生成器哪个好在深度学习中#xff0c;使用公开数据集具有以下优点#xff1a;
提供了一个标准化的基准来比较不同算法或模型的性能#xff0c;因为这些公共数据集被广泛使用#xff0c;许多研究人员都使用它们来评估他们的方法。可以节省大量的时间和金钱#xff0c;因为这些数据集已…在深度学习中使用公开数据集具有以下优点
提供了一个标准化的基准来比较不同算法或模型的性能因为这些公共数据集被广泛使用许多研究人员都使用它们来评估他们的方法。可以节省大量的时间和金钱因为这些数据集已经被标注从而避免了手动标注数据所需的努力和成本。允许研究人员在自己的算法或模型上进行测试而无需担心数据的版权问题。跑开源代码时可以使用公开数据快速测试。测试通后再使用的自己的数据。
为了快速开始使用公开的数据集如 MedNIST 和 DecathlonDatasetMONAI 提供了几个开箱即用的函数例如MedNISTDataset、DecathlonDataset、TciaDataset其中包括数据下载解压以及创建dataset(继承了MONAI 的 CacheDataset,训练的时候数据加载的嘎嘎快)。 预定义数据集的常用工作流程
本次以DecathlonDatasetMedNISTDataset为例说明如何在MONAI中使用这些数据并简要介绍这些数据集
DecathlonDataset
医学分割十项全能挑战数据集DecathlonDataset是一个用于医学图像分割任务的数据集(very hot!)。该数据集包含来自不同医学影像模态如MRI、CT等的图像数据以及标签。数据可以从官网进行下载
MONAI的DecathlonDataset会自动该数据集并且分好了训练、验证和测试集。它还基于monai.data.CacheDataset类来加速训练过程。
先来看一下代码
train_ds DecathlonDataset(root_dirroot_dir,taskTask01_BrainTumour,sectiontraining,cache_rate1.0, # you may need a few Gb of RAM... Set to 0 otherwisenum_workers4,downloadTrue, # Set download to True if the dataset hasnt been downloaded yetseed0,transformtrain_transforms,
)
train_loader DataLoader(train_ds, batch_size32, shuffleTrue, num_workers4, drop_lastTrue, persistent_workersTrue
)参数解析
root_dir用户用于缓存和加载 MSD 数据集的本地目录。task要下载和执行的任务一共10个数据集选择你要用的下载 (“Task01_BrainTumour”、“Task02_Heart”、“Task03_Liver”、“Task04_Hippocampus”、“Task05_Prostate”、“Task06_Lung”、“Task07_Pancreas”、“Task08_HepaticVessel”、“Task09_Spleen”、“Task10_Colon”)。section选择下载训练集还是其他可以是training、validation 或 test。transformMONAI 的常规 transformdownload需要下载设置为True,下载好后再运行设置为Falseseed随机种子用于随机拆分训练、验证和测试数据集默认为 0。val_frac验证数据分数百分比默认为 0.2。Decathlon 数据仅包含带标签的训练部分和不带标签的测试部分因此从训练部分随机选择一部分作为验证部分。cache_rate总缓存数据的百分比默认为 1.0全部缓存。将取 (cache_numdata_length x cache_ratedata_length) 中的最小值。num_workers要使用的工作线程数。如果为 0则使用单个线程。默认为 0。 只贴上了关键代码文末取所有代码包括import类和可视化数据代码.至于下载速度我的v-p-n很快不挂V-P-N速度未知。 MedNISTDataset
受 Medical Segmentation Decathlon医学分割十项全能的启发上海交通大学的研究人员创建了医疗图像数据集 MedMNIST共包含 10 个预处理开放医疗图像数据集其数据来自多个不同的数据源并经过预处理。和 MNIST 数据集一样MedMNIST 数据集在轻量级 28 × 28 图像上执行分类任务所含任务覆盖主要的医疗图像模态和多样化的数据规模作为 AutoML 在医疗图像分类领域的基准。
代码如下
train_ds MedNISTDataset(root_dirroot_dir, transformtransform, sectiontraining, downloadTrue)
# the dataset can work seamlessly with the pytorch native dataset loader,
# but using monai.data.DataLoader has additional benefits of mutli-process
# random seeds handling, and the customized collate functions
train_loader DataLoader(train_ds, batch_size300, shuffleTrue, num_workers10)参数同DecathlonDataset基本一致不再解析。不了解的可以查看源码
最后附上整个代码
import os
from monai.data import DataLoader, Dataset
from monai import transforms
from monai.apps import MedNISTDataset, DecathlonDataset
import matplotlib.pyplot as plt# create a directory and load decathlon dataset
root_dir ./data
if not os.path.exists(root_dir):os.makedirs(root_dir)
print(root_dir)# transform for train set
train_transforms transforms.Compose([transforms.LoadImaged(keys[image]),transforms.EnsureChannelFirstd(keys[image]),transforms.ScaleIntensityRanged(keys[image], a_min0.0, a_max255.0, b_min0.0, b_max1.0, clipTrue),]
)# create a training dataset and dataloader for MedNISTDataset and DecathlonDataset
# train_ds MedNISTDataset(root_dirroot_dir, sectiontraining, downloadTrue, seed0, transformtrain_transforms)
# train_loader DataLoader(train_ds, batch_size32, shuffleTrue, num_workers4, persistent_workersTrue)train_ds DecathlonDataset(root_dirroot_dir,taskTask01_BrainTumour,sectionvalidation,cache_rate1.0, # you may need a few Gb of RAM... Set to 0 otherwisenum_workers4,downloadFalse, # Set download to True if the dataset hasnt been downloaded yetseed0,transformtrain_transforms,
)
train_loader DataLoader(train_ds, batch_size32, shuffleTrue, num_workers4, drop_lastTrue, persistent_workersTrue
)
print(fLength of training data: {len(train_ds)})
print(fTrain image shape {train_ds[0][image].shape})文章持续更新可以关注微公【医学图像人工智能实战营】获取最新动态一个关注于医学图像处理领域前沿科技的公众号。坚持以实践为主手把手带你做项目打比赛写论文。凡原创文章皆提供理论讲解实验代码实验数据。只有实践才能成长的更快关注我们一起学习进步~ 我是Tina, 我们下篇博客见~
白天工作晚上写文呕心沥血
觉得写的不错的话最后求点赞评论收藏。或者一键三连