网络科技公司网站,网站综合开发怎么做,深圳谷歌优化seo,适合女人小成本开店在本文中#xff0c;您将找到我对人工智能和工作的最新研究的总结#xff08;探索人工智能对生产力的影响#xff0c;同时开启对长期影响的讨论#xff09;#xff0c;一个准实验方法的示例#xff08;通过 ChatGPT 和 Stack Overflow 进行说明#xff0c;了解如何使用简… 在本文中您将找到我对人工智能和工作的最新研究的总结探索人工智能对生产力的影响同时开启对长期影响的讨论一个准实验方法的示例通过 ChatGPT 和 Stack Overflow 进行说明了解如何使用简单的 SQL 查询从 Stack Overflow 中提取数据。 作为与大多数技术革命一样ChatGPT 的发布伴随着新奇和革命性的创新。一方面在短短两个月内该应用程序就拥有 1 亿月活跃用户打破了历史上增长最快的消费者应用程序的记录。另一方面高盛的一份报告声称此类技术可能会取代全球超过 3 亿个工作岗位。此外埃隆·马斯克 (Elon Musk) 与 1,000 多名技术领导者和研究人员签署了一封公开信敦促暂停最先进的人工智能开发 。 “我们只能看到前方很短的距离但我们可以看到很多需要做的事情。”艾伦·图灵 根据艾伦·图灵的引言本文并不试图预测人工智能的遥远未来及其影响。然而我关注的是影响我们的主要可观察后果之一人工智能如何改变我们的编码方式。 ChatGPT 的诞生改变了世界。至少作为一个每天都编码的人我的世界一夜之间就改变了。我不必花几个小时在 Google 上寻找正确的解决方案也不必在 Stack Overflow 上深入研究答案并使用正确的变量名称和矩阵维度将解决方案转化为我的确切问题我可以直接询问 ChatGPT。ChatGPT不仅会在眨眼之间给我答案而且答案会适合我的具体情况例如正确的名称、数据帧尺寸、变量类型等。我大吃一惊我的工作效率突然飙升。 因此我决定探索 ChatGPT 发布的大规模影响及其对生产力以及最终对我们工作方式的潜在影响。我定义了三个假设 (Hs)并使用 Stack Overflow 数据进行了测试。 H1ChatGPT 减少了 Stack Overflow 上提出的问题数量。如果 ChatGPT 可以在几秒钟内解决编码问题那么我们可以预期编码社区平台上的问题会减少因为提出问题和获得答案需要时间。 H2ChatGPT 提高了所提问题的质量。如果 ChatGPT 被大量使用那么 Stack Overflow 上的剩余问题必须得到更好的记录因为 ChatGPT 可能已经有所帮助。 H3剩下的问题更加复杂。我们可以预期剩下的问题更具挑战性因为 ChatGPT 可能无法回答这些问题。因此为了测试这一点我们正在测试未回答问题的比例是否增加。此外我还测试每个问题的浏览量是否发生变化。如果每个问题的浏览量保持稳定这将是一个额外的迹象表明剩余问题的复杂性增加了并且这一发现不仅仅是由平台上的活动减少引起的。 为了测试这些假设我将利用 Stack Overflow 上突然发布的 ChatGPT。2022 年 11 月当 OpenAI 公开发布他们的ChatGPT时没有其他替代品可用例如 Google Bard并且访问是免费的不限于 OpenAI ChatGPT 4 或 Code Interpreter 等付费订阅。因此可以观察在线编码社区在震惊之前和之后的活动如何变化。然而尽管这种冲击多么“干净”其他影响可能会被混淆从而质疑因果关系。特别是季节性例如发布后的年末假期以及问题越新浏览量和找到答案的概率就越低。 理想情况下为了减轻季节性等潜在混杂变量的影响并衡量因果效应我们希望在没有 ChatGPT 发布的情况下观察世界这是不可能的例如因果推理的基本问题。尽管如此我将通过利用 ChatGPT 对编码相关问题的答案质量因一种语言而异而另一种语言不同这一事实来应对这一挑战并使用准实验方法来限制其他因素混淆效果的风险Difference-in -不同之处。 为此我将比较 Python 和 R 之间的 Stack Overflow 活动。Python 是一个显而易见的选择因为它可以说是最 流行的编程语言之一例如在 TIOBE 中排名第一 Python 的大量在线资源为 ChatGPT 等ChatGPT提供了丰富的训练集。现在为了与 Python 进行比较我选择了 R。Python 通常被认为是 R 的最佳替代品而且两者都是免费的。然而R 不太受欢迎例如在 TIOBE 编程社区索引中排名第 16因此训练数据可能较小这意味着 ChatGPT 的性能较差。证据证实了这种差异有关该方法的更多详细信息请参阅方法部分。因此R 代表了 Python 的有效反事实它受到季节性影响但我们可以预期 ChatGPT 的影响可以忽略不计。 图1ChatGPT对Stack Overflow每周提问数量的影响 上图显示了原始的每周数据。我们可以看到在 ChatGPT 3.5 发布后Stack Overflow 上每周提出的有关 Python 的问题数量突然大幅下降 (21.2%)而对 R 的影响则稍小一些下降了 15.8%。 这些“定性”观察得到了统计模型的证实。稍后描述的计量经济学模型发现Stack Overflow 上的 Python 每周问题平均下降了 937.7 个95% CI[-1232.8-642.55 ]p 值 0.000具有统计显着性。随后的分析利用 Diff-in-Diff 方法进一步揭示了问题质量的提高在平台上通过分数来衡量同时未回答问题的比例也有所增加而每个问题的平均浏览量似乎有所增加。不变。因此本研究为之前定义的三个假设提供了证据。 这些发现强调了人工智能在我们工作方式中的深远作用。通过解决日常查询生成式人工智能使个人能够将精力投入到更复杂的任务上同时提高他们的生产力。然而重要的长期潜在不利影响也在讨论部分进行了讨论。 本文的其余部分将介绍数据和方法然后是结果并以讨论结束。 数据 数据是使用Stack Overflow 数据浏览器门户上的 SQL 查询提取的许可证CC BY-SA。这是使用的 SQL 命令 SELECT Id, CreationDate, Score, ViewCount, AnswerCount
FROM Posts
WHERE Tags LIKE %python%
AND CreationDate BETWEEN 2022–10–01 AND 2023–04–30
AND PostTypeId 1; 然后我按周汇总数据以减少噪音从而获得了从 2022 年 10 月 17 日星期一到 2023 年 3 月 19 日的数据集其中包含有关每周帖子数量、观看次数、每个问题的观看次数的信息每个问题的平均分以及未回答问题的比例。分数由平台用户定义他们可以投票赞成或反对以判断问题是否显示“研究努力它是否有用且清晰” 。 方法 为了测量因果效应我使用了双重差分模型这是一种计量经济学方法通常利用随时间的变化并将处理单位与未处理组进行比较。 简而言之Diff-in-Diff 模型计算双重差异以识别因果效应。这是一个简化的解释。首先我们的想法是计算两个简单的差异治疗组和未治疗组此处分别是 Python 和 R 问题的前ChatGPT 发布之前和后时期之间的“平均”差异。我们关心的是处理对处理单元的影响这里是ChatGPT发布对Python问题的影响。然而如前所述可能还有另一种影响仍然与治疗相混淆例如季节性。为了解决这个问题该模型的想法是计算双重差异以检查处理组 (Python) 的第一个差异与第二个差异对照组 R 的差异有何不同。 这是一个稍微更正式的表示。 参考值的第一个差异 这里的 i 和 t 分别指的是语言R 或 Python和周。While对待是指与Python相关的问题Post是指ChatGPT可用的时期。这个简单的差异可能代表 ChatGPT (β) 某些时间效应 λₜ 的因果效应例如季节性。 控制变量组组的第一个差异 对照组的简单差异不包括治疗效果因为未经治疗而仅包括 λ。 因此双重差分将给出 假设两组的 λ相同平行趋势假设如下所述双重差异将使我们能够识别 β即因果效应。 该模型的本质在于平行趋势假设。为了断言因果效应我们应该相信如果没有 ChatGPTStack Overflow 上 Python已处理和 R未处理帖子的演变在处理期间2022 年 11 月之后将是相同的。然而这显然不可能观察到因此无法直接测试参见因果推理的基本问题。然而可以测试冲击之前的趋势是否平行这表明对照组是一个潜在的良好“反事实”。对数据进行的两个不同的安慰剂测试表明我们不能拒绝 ChatGPT 之前时期的平行趋势假设测试的 p 值分别为 0.722 和 0.397参见在线附录 B。 正式定义 “i”和“t”分别对应 Stack Overflow 上问题的主题i ∈ {R; Python}和周。Yᵢ 表示结果变量问题数量 (H1)、平均问题得分 (H2) 和未回答问题的比例 (H3)。Pythonᵢ 是一个二元 变量如果问题与 Python 相关则取值 1 否则取值 0与 R 相关。ChatGPTₜ是另一个二进制变量 从 ChatGPT 版本及之后的版本开始其值为 1 否则为 0。uᵢ 是聚集在编码语言级别 (i) 的错误项 。 该模型的本质在于平行趋势假设。为了断言因果效应我们应该相信如果没有 ChatGPTStack Overflow 上 Python已处理和 R未处理帖子的演变在处理期间2022 年 11 月之后将是相同的。然而这显然不可能观察到因此无法直接测试参见因果推理的基本问题。然而可以测试冲击之前的趋势是否平行这表明对照组是一个很好的“反事实”。在这种情况下两个不同的安慰剂测试表明我们不能拒绝 ChatGPT 之前时期的平行趋势假设测试的 p 值分别为 0.722 和 0.397参见在线附录 B。 结果 H1ChatGPT 减少了 Stack Overflow 上提出的问题数量。 如简介中所述Diff-in-Diff 模型估计 Stack Overflow 上的 Python 每周问题平均下降了 937.7 个95% CI[-1232.8, -642.55]p 值 0.000参见如下图2。这意味着每周的问题数量下降了 18%。 图 2ChatGPT 对每周问题数量的影响 H2ChatGPT 提高了所提问题的质量。 ChatGPT 可能有助于回答问题参见 H1。然而当ChatGPT无法解决问题时它可能允许人们走得更远获得有关问题或解决方案某些要素的更多信息。该平台允许我们测试这个假设因为如果用户认为“这个问题显示了研究成果有用且清晰”增加 1 分或没有减少 1 分。第二次回归估计问题得分平均增加 0.07 分95% CI[-0.0127 , 0.1518 ]p 值0.095见图 3即增加 41.2%。 图 3ChatGPT 对问题质量的影响作者提供的图片 H3剩下的问题更加复杂。 现在我们有一些证据表明 ChatGPT 能够提供重要的帮助解决问题并帮助记录其他问题我们想确认剩下的问题更加复杂。为此我们要考虑两件事。首先我发现未回答问题的比例正在上升没有答案可能表明问题更加复杂。更准确地说我发现未回答的问题比例增加了 2.21 个百分点95% CI[ 0.12, 0.30]p 值0.039见图 4这意味着增加了 6.8%。其次我们还发现每个问题的观看次数没有变化我们不能拒绝它没有变化的零假设p 值为 0.477。 图4ChatGPT对未回答问题比例的影响 讨论 这些发现支持这样一种观点即生成式人工智能可以通过处理常规问题彻底改变我们的工作使我们能够专注于需要专业知识的更复杂的问题同时提高我们的生产力。