当前位置：首页 > news >正文

西安网站建设开发公司怎么创建视频网站

news 2026/4/27 1:26:25

西安网站建设开发公司,怎么创建视频网站,哪有专做注册小网站的,建筑模板915 1830价格赛题名称#xff1a;Benetech - Making Graphs Accessible 赛题链接#xff1a;https://www.kaggle.com/competitions/benetech-making-graphs-accessible 赛题背景数以百万计的学生有学习、身体或视力障碍#xff0c;导致人们无法阅读传统印刷品。这些学生无法访问科学… 赛题名称Benetech - Making Graphs Accessible 赛题链接https://www.kaggle.com/competitions/benetech-making-graphs-accessible 赛题背景数以百万计的学生有学习、身体或视力障碍导致人们无法阅读传统印刷品。这些学生无法访问科学、技术、工程和数学 STEM 领域的大多数教育材料。存在使书面文字易于访问的技术。但是对于图形等教育视觉对象执行此操作仍然很复杂且需要大量资源。因此只有一小部分教育材料可供具有这种学习差异的学习者使用——除非机器学习可以帮助弥合这一差距。赛题方向计算机视觉、图文描述赛题任务本次竞赛的目标是提取由STEM教科书中常见的四种图表表示的数据。参赛者将开发一个在图形数据集上训练的自动解决方案。参赛者的工作将有助于数百万有学习差异或残疾的学生能够阅读图表。评价指标单个图形的数据系列包含两个用于评估的实例沿 x 轴的一系列值和沿 y 轴的相应值系列。每个数据系列可以是数字类型也可以是分类类型具体取决于图表类型。图形约定参阅https://www.kaggle.com/competitions/benetech-making-graphs-accessible/overview/graph-conventions 预测数据系列通过两个指标的组合进行评估分类即字符串数据类型的 Levenshtein 距离和数值数据类型的 RMSE图表类型和序列中的值数具有初始完全匹配标准。这些距离中的每一个都通过 S 形变换重新缩放并映射到公共相似性尺度其最佳值为 1 提交文件提交文件中的每一行都应该包含测试集中图形的一个轴的预测序列。例如abc123 x将给出图abc123中x轴的预测。系列的值应该在单个字符串内并由;分隔。参赛者还必须为轴所属的图表提供适当的类型。该文件应包含标头并具有以下格式 id,data_series,chart_type abc123_x,2;3;4;5,horizontal_bar abc123_y,a;b;c;d,horizontal_bar数据描述本次比赛的数据集包括约65,000个综合注释的科学图形分为垂直条形图、水平条形图、点图、折线图和散点图五种。文件和字段说明 train/annotations/ 描述图形的JSON图像注释集合 train/images/ JPG格式的数字集合用作训练数据 test/images/ 收集用作测试数据的数据 sample_submission.csv 格式正确的提交文件时间安排 2023.3.21 - 开始报名 2023.6.5 - 报名截止 2023.6.5 - 团队报名截止 2023.6.12 - 最终提交截止赛题奖金第一名 - 15,000 美元第二名 - 10,000 美元第三名 - 8,000 美元第四名 - 7,000 美元第五名 - 5,000 美元第六名 - 5,000 美元金牌方案第一名 https://www.kaggle.com/competitions/benetech-making-graphs-accessible/discussion/418786 我的解决方案由两步组成第一步使用分类模型对图表类型进行分类第二步对数据系列进行推断。在数据系列推断阶段条形图、折线图和散点图通过为每个图表类型单独训练的Deplot进行端到端预测而散点图则通过基于目标检测的方法预测。最终得分如下数据集 1.比赛数据集(comp_extracted_dataset/comp_generated_dataset) 使用了提取数据集(comp_extracted_dataset)和生成数据集(comp_generated_dataset)。对生成的数据,通过简单检查去除了注释中存在噪声的数据(约100张图片)。 2.ICDAR数据集(ICDAR_dataset/ICDAR_manualannot_dataset) 我使用了提供了注释的数据1406件(ICDAR_dataset)和没有提供注释的数据1903件(ICDAR_manualannot_dataset)。对于提供了注释的数据,我视觉重新检查了注释内容,并手动修正了所有没有遵循比赛注释规则(例如%表示法)或包含噪声的数据。对于没有提供注释的数据,我首先视觉检查了所有数据的外观,选择了可以在本次比赛中使用的数据。接下来,我使用Deplot模型推断并赋予伪标签,再次视觉检查所有结果,并手动修正所有不正确的注释。 3.生成的合成数据集(synthetic_dataset) 在检查了比赛数据集中的图像后,确定comp_generated_dataset本身的变化不足以实现鲁棒性,因此我又自行生成了约65k个合成数据。我主要生成了comp_generated_dataset没有的特征的合成数据。直方图标签包含换行带误差棒的条形图包含数据系列中没有的x标签的折线图第二名 https://www.kaggle.com/competitions/benetech-making-graphs-accessible/discussion/418430 我的解决方案完全基于从google/matcha-base骨干微调得到的图像文本模型。如下图所示训练流程包含两个阶段。在第一阶段我利用大量合成图表来适配当前任务的骨干模型。在第二阶段我使用过采样的提取/非生成图表来使流水线专门适应真实世界的图表。在这个阶段我为散点图和非散点图创建了独立的模型主要是为了缓解预测散点数据点的难度。第一阶段使用合成数据对骨干模型进行预训练第二阶段使用真实数据进行微调最终获得一个适合真实世界图表的图像文本模型。两阶段训练使模型既能从合成数据中获取概括能力也能从真实数据中获取针对真实图表的拟合能力。独立处理散点图也是提高性能的一个关键决策。 1.模型所有模型共享相同的架构(图像到文本的transformer)和输入输出模式。模型输入直接是图表图像本身没有任何提示。输出文本遵循以下模板: {chart_type} {n_x} | {n_y} {x0} | {x1} | {x2} | … | {xn} {y0} | {y1} | {y2} | … | {ym} 一些细节数值被转换为科学计数法使用 val {:.2e}.format(float(val))。增加了直方图作为额外的图表类型在后处理中将其转换为垂直条形图。 2.数据合成数据集我花费了大部分时间来创建合成数据集。合成图表中的基础数据我使用了维基表格数据即来自维基百科的表格(25%) 合成XY数据(75%) 合成数据集包括 10万个横向条形图 10万个垂直条形图直方图 10万个散点图 20万个折线图 20万个散点图合成数据集 - Bartley 从brendanartley分享的合成数据集中随机选择了2.5万个数据点https://www.kaggle.com/datasets/brendanartley/benetech-extra-generated-data 伪标记Pseudo Labelling我从维基共享资源wikimedia commons截取了大约700张图片。我使用了伪标记并进行了手动修正以生成注释。 ICDAR数据集我使用了约1100张来自ICDAR的图片只使用那些有1个XY系列的(250条水平条形图 450条垂直条形图 250条折线图 150个散点图)。我还进行了后处理以确保注释与比赛图表惯例匹配(例如处理百分比、插值线图数据以匹配刻度标签等)。 3.数据混合Datamix 数据混合1用于域适应数据混合2散点图专用数据混合3非散点图专用 4.训练训练的主要超参数是max_patches和max_length。我在不同的训练阶段使用了以下设置第一阶段训练 max_patches: 2048 max length: 1024 lr: 5e-5 batch size: 2 gradient accumulation: 16 第二阶段训练 - 非散点图 max_patches: 4096 max length: 512 lr: 2e-5 batch size: 4 gradient accumulation: 2 第二阶段训练 - 散点图 max_patches: 3072 max length: 1024 lr: 2e-5 batch size: 8 gradient accumulation: 1 AWP 作为小细节我在训练过程中使用了模型权重的指数移动平均(EMA)、梯度截断和线性热身的余弦调度器。 5.数据增强由于我重复使用了多次提取的图像所以我决定包括以下增强: transforms A.Compose([A.OneOf([A.RandomToneCurve(scale0.3),A.RandomBrightnessContrast(brightness_limit(-0.1, 0.2),contrast_limit(-0.4, 0.5),brightness_by_maxTrue,),A.HueSaturationValue(hue_shift_limit(-20, 20),sat_shift_limit(-30, 30),val_shift_limit(-20, 20))],p0.5,),A.OneOf([A.MotionBlur(blur_limit3),A.MedianBlur(blur_limit3),A.GaussianBlur(blur_limit3),A.GaussNoise(var_limit(3.0, 9.0)),],p0.5,),A.Downscale(always_applyFalse, p0.1, scale_min0.90, scale_max0.99),],p0.5,)第三名 https://www.kaggle.com/competitions/benetech-making-graphs-accessible/discussion/418420 我们的解决方案是一个两步流水线第一步是一个简单的分类任务第二步针对不同的图表类型解决任务。对于散点图我们使用了检测方法。对于折线图和条形图Matcha的表现非常强劲。下面是我们的LB分数: 验证与见解第一步 - 分类在这一步中没有太多花哨的东西我们在benetech theo crodoc生成的数据上训练模型。主要参数 2个周期对88k张图像进行训练。学习率3e-4或5e-4混合使用2个学习率我们也用了2个随机种子)。使用Mixup和一些颜色增强。图像尺寸为256x384。 NfNet-l2并添加0.2的dropout。第二步.a - 散点图对于散点图我们依赖于YoloX来检测所有标记。Cached被用来处理其他有用的元素。如果所有点都被正确检测推断目标并不复杂检测刻度线和标签读取标签值并插值。更多细节集成YoloX-m和YoloX-l使用NMS有助于减少假阴性。模型在散点图和点图的benetech生成数据上训练了10个epoch以及我生成并伪标注的一堆绘图。内部验证集0.67公开LB约0.09私有LB 0.29 - 性能下降几乎完全来自重叠/难以检测的标记。大量后处理来使流水线更具鲁棒性抵御OCR错误和检测错误。我们最初使用Yolo-v7但由于第一次规则更改不得不切换到YoloX。我们花了一个星期的时间用YoloX匹配Yolo-v7的性能。第二步.b - 点图点图流水线类似于散点图但更简单一些。我们检测点并进行聚类然后将它们映射到检测到的x轴标签。没有分配簇的标签被赋值为目标0其他的给定检测到的点数。由于点数对检测错误不太稳健我们改为使用最高点的高度并进行插值。第二步.c - 条形图和折线图 Matcha在这里非常强大。我们使用了matcha-base并将is_vqa设置为False以避免将文本作为输入给模型。我们训练Matcha为一张图像预测图表类型、x轴和y轴。ground truth看起来与nbroad用于他的donut方法相同(除了我们删除了提示符号)。我们尝试了其他方法但这个效果最好: x_str X_START ;.join(list(map(str, xs))) X_END y_str Y_START ;.join(list(map(str, ys))) Y_END ground_truth chart_type x_str y_str我们获得的最有价值的提升是使用matplotlib生成额外的图表。我们重用了训练集的数据值和文本来生成刻度线和值使用不同的样式/模式/字体/颜色来增加多样性。生成额外图像的代码有大约1000行基本上覆盖了模型在“提取”数据集上验证时的大多数失败情况(例如负值、线条边缘、缺失的条形、多行文本、文本旋转等)。第四名 https://www.kaggle.com/competitions/benetech-making-graphs-accessible/discussion/418604 第五名 https://www.kaggle.com/competitions/benetech-making-graphs-accessible/discussion/418477 第六名 https://www.kaggle.com/competitions/benetech-making-graphs-accessible/discussion/418466 第七名 https://www.kaggle.com/competitions/benetech-making-graphs-accessible/discussion/418510 关注下方【学姐带你玩AI】回复“图表识别”获取完整金牌方案baseline代码码字不易欢迎大家点赞评论收藏

查看全文

http://www.hkea.cn/news/14428669/