6 年成果，被爬取 200+ 万次，仅索赔 1 元？AI 大模型被指控“偷”数据，学而思最新回应_当前热点

来源：CSDN 2023-06-17 06:54:21

整理 | 郑丽媛出品 | CSDN（ID：CSDNnews）

上个月，学而思曾透露消息称，目前其正在自研数学大模型 MathGPT，即面向全球数学爱好者和科研机构，以数学领域的解题和讲题算法为核心打造而成。

【资料图】

彼时许多人感慨，“理科生”版的 ChatGPT 终于要来了。

不曾想，MathGPT 还未真正面世，有关它的“丑闻”就先一步爆发了：本周二，笔神作文 App 指控学而思通过“爬虫”技术，非法访问、缓存其服务器数据多达 258 万次，以此开发 MathGPT 的新产品“作文 AI 助手”。

6 年成果，一个周末被爬取超 200 万次

此次事件的主角之一，笔神作文，是一个成立于 2017 年 12 月的 K12（从幼儿园到 12 年级的教育）作文教育平台，隶属于北京一笔两划科技有限公司。

当时的 AI 市场远不如现在火爆，笔神作文却凭借其“用人工智能技术，帮助写作者提升写作能力”的特色，在 2018 年 1 月获得了真格基金数百万元种子轮融资，后来又在 2019 年 7 月完成了数百万天使轮融资。

根据官方资料显示，笔神作文上线六年，每月会收到超过 30 万篇作文投稿和超过 40 万次的点赞评论，积累了数百万篇作文素材，月批改作文量超 3 万篇。

而伴随着去年年底 ChatGPT 的横空出世，笔神作文的投资方之一世纪天鸿曾表示，“笔神”与 ChatGPT 技术同源，都是采用基于 Transformer 的最新算法作为 AI 模型底层。笔神作文创始人宋嘉伟也曾介绍道：“一笔两划目前团队有超过 60% 为技术研发人员，在成立公司之前该团队就曾创立过 NLP 类公司，部分骨干在自然语言理解领域合作并深耕多年。”

因此整体而言，笔神作文的算法模型为一笔两划公司自研训练，其平台的大数据来自于自身累积。

因其在写作方面的技术积累和显著成果，三年前笔神作文与学而思达成了合作：与学而思旗下的学习工具 App “题拍拍”签约，主要负责提供作文素材查询服务。

而作为合作伙伴，本周笔神作文表示：在 4 月 13 日发生了一件我们都没有预想的事情，我们团队从创业以来的 6 年成果，被合作多年的“学而思”在短短一个周末的时间爬取了超过两百万次！

诉求：1 元赔偿金，公开道歉并删除数据

从笔神作文官方微博的声明来看，本身它没有完备的数据安全机制，而对于“合作伙伴”学而思，更是没有设置全部的提防，从而导致三体云联公司（学而思子公司）利用这份信任，即：在未经笔神作文 APP 授权许可的情况下，在 2023 年 4 月 13 日至 4 月 17 日期间通过“爬虫”技术非法访问、缓存笔神作文 APP 服务器数据多达 258 万次。

对此，笔神作文主张该行为违反了双方的合同条款，更违反了《数据保护法》第三十二条“任何组织、个人收集数据，应当采取合法、正当的方式，不得窃取或者以其他非法方式获取数据”的规定，严重侵犯了笔神作文 APP 的数据权益。

事后，笔神作文向学而思进行了求证，对方直接承认是他们的算法组在爬取数据并作为己用。因此笔神作文发送了律师函，却没有得到对方的实质性回复，而此时学而思的 AI 大模型 MathGPT 却即将上线新产品“作文 AI 助手”。

“我们作为一家体量远小于‘学而思’的公司已经别无他法，只能通过法律途径来维护我们的权益。”但笔神作文在声明中也指出，目前的法律法规并没有【AI 大模型数据盗取】的判决先例，因此只能“勇敢地走出这第一步”。

至于笔神作文的诉求，实际上也并非是索要大额赔偿金：只想要学而思支付 1 元赔偿金，公开道歉并删除已爬取的数据。

对此，笔神作文解释道：“数据是有价值的，但我们心血更是无价，索赔 1 元是因为公平公正并不能用金钱衡量，我们希望通过诉讼告诉社会这种行为是错误的。人工智能行业的发展，靠的是共同创造，而非觊觎和剽窃他人的成果。”

确实正如笔神作文所说，其体量并不大，因此这封声明也并未引起太多关注，不过仅有的几条评论中都在谴责学而思的行为。

学而思回应：均符合合同要求

经多家媒体报道后，这起事件逐渐发酵，于是昨晚学而思官方微博也对此发文回应：

首先，MathGPT 是专注于数学领域的自研大模型，没有任何作文相关数据；其次，“作文 AI 助手”目前处于开发状态，尚未发布，该服务并未使用笔神作文的任何数据。

而笔神作文声称被爬取二百多万次的数据，学而思指出合同中明确过“每月保底费用包含的调用次数为百万次量级”，其调用的接口“属于双方合同约定的正常合作范围”。

在回应的最后，学而思强调其“一直尊重知识产权、重视知识产权保护”，所有行为均严格按照合同约定履行，但是：“笔神作文的公开声明已经对学而思品牌声誉造成了伤害，我们将保留追究其名誉侵权责任的权利。”

AI 训练数据的版权问题

从目前双方给出的声明来看，此次纠纷还不能给出最终结论，但这也揭示了近来日益火热的 AI 大模型角逐下，一个容易被忽略却又十分重要的盲点：AI 训练数据的版权问题。

事实上，最近在外网闹得沸沸扬扬的“美版贴吧” Reddit 强制对 API 进行收费的决定也出于这个原因。

近年来 Reddit 上发布的聊天内容，已成为谷歌、OpenAI 和微软等企业训练 AI 大模型的素材，以此来开发 ChatGPT 等生成式 AI 产品。而伴随着这类 AI 工具的火爆，Reddit 创始人兼 CEO 表示：“Reddit 的数据语料库非常有价值，但我们不想把这些内容免费提供给一些巨头公司了。”

继 Reddit 带头表态要求科技巨头付费使用数据后，知名 IT 问答网站 Stack Overflow 也宣布计划从今年年中起，向大型 AI 开发商收取数据访问费用，其 CEO 也指出：“社区平台推动了大语言模型（LLM）发展，所作出的贡献也必须得到补偿。”

除了 Reddit 和 Stack Overflow 这类大型网站，甚至在开发者圈子中，部分程序员也因 Copilot 涉嫌侵犯代码版权宣称要弃用 GitHub：

毫无疑问，AI 大模型在变得更智能的过程中，海量的训练数据必不可少，但从目前来看，当今 AI 领域的“当红炸子鸡”OpenAI，对于训练数据的版权问题都没有很好的解决方案。

然而，伴随着 AI 热潮进一步推进，这个问题又势必要得到解决。正如北京大学计算机学院教授陈钟所说：“可能在研发初期，大家对数据来源并不在意，但当你产生了巨大的经济效益时，现实传统的经济模式、法律体系都将约束着你的行为。”

那么对于这个问题，你又是否有什么看法？

参考链接：

https://weibo.com/combmobile

https://weibo.com/5308312222/4912235782345634?wm=3333_2001&from=10D6093010&sourcetype=weixin&s_trans=3830025800_4912235782345634&s_channel=4

https://www.36kr.com/p/1723938652161

上一篇:正商实业（00185.HK）：6月16日南向资金减持26.2万股下一篇 :最后一页

6 年成果，被爬取 200+ 万次，仅索赔 1 元？AI 大模型被指控“偷”数据，学而思最新回应_当前热点

推荐阅读

6 年成果，被爬取 200+ 万次，仅索赔 1 元？AI 大模型被指控“偷”数据，学而思最新回应_当前热点

正商实业（00185.HK）：6月16日南向资金减持26.2万股

中国飞行汽车行业数据分析： 29.4%消费者表示每周自驾出行时间1小时-3小时

南京市公安局一级高级警长蒋浩接受纪律审查和监察调查环球今日报

朋友你今天就要远走干了这杯酒是什么歌_干杯朋友歌词

三剑之舞2安卓10（三剑之舞2利刃）_世界时讯

环球新资讯：江波龙(301308.SZ)：，SMART巴西的产品线客户群体为知名的智能手机、个人电脑品牌商

湖南机电职院开展“树立和践行正确政绩观，推动学校事业高质量发展”专题研讨|世界独家

环球快看点丨大连东软信息学院迎接辽宁省本科高校实验室安全现场检查工作

遂宁水利、交运部门联合开展基础设施在建项目水土保持监督检查

更多推荐

立案调查宁波立案首起盲盒销售侵害消费者权益案

石家庄正定机场排查疑似车辆849辆维护机场正常营运秩序

蚌埠开展电动三四轮车销售突击检查行动营造安全畅通的道路交通环境

1-2月份全国基础设施投资同比增长8.1% 制造业投资增长20.9%

新增4家国家级绿色工厂宁波江北持续推进绿色制造工程

产业向“绿”而行邯郸复兴区推动现代化生态新城建设提速

从水塘到“云”端全国最大高邮鸭养殖基地实现智慧养殖

1-2月我国国民经济持续稳定恢复生产需求较快增长

甲亢持续时间越长对人体身体健康产生危害就越大

高龄老人患癌不要怕综合治疗方案可以帮助患者加速康复

6 年成果，被爬取 200+ 万次，仅索赔 1 元？AI 大模型被指控“偷”数据，学而思最新回应_当前热点

推荐阅读

6 年成果，被爬取 200+ 万次，仅索赔 1 元？AI 大模型被指控“偷”数据，学而思最新回应_当前热点

正商实业（00185.HK）：6月16日南向资金减持26.2万股

中国飞行汽车行业数据分析： 29.4%消费者表示每周自驾出行时间1小时-3小时

南京市公安局一级高级警长蒋浩接受纪律审查和监察调查 环球今日报

朋友你今天就要远走干了这杯酒是什么歌_干杯朋友歌词

三剑之舞2安卓10（三剑之舞2利刃）_世界时讯

环球新资讯：江波龙(301308.SZ)：，SMART巴西的产品线客户群体为知名的智能手机、个人电脑品牌商

湖南机电职院开展“树立和践行正确政绩观，推动学校事业高质量发展”专题研讨|世界独家

环球快看点丨大连东软信息学院迎接辽宁省本科高校实验室安全现场检查工作

遂宁水利、交运部门联合开展基础设施在建项目水土保持监督检查

更多推荐

立案调查 宁波立案首起盲盒销售侵害消费者权益案

石家庄正定机场排查疑似车辆849辆 维护机场正常营运秩序

蚌埠开展电动三四轮车销售突击检查行动 营造安全畅通的道路交通环境

1-2月份全国基础设施投资同比增长8.1% 制造业投资增长20.9%

新增4家国家级绿色工厂 宁波江北持续推进绿色制造工程

产业向“绿”而行 邯郸复兴区推动现代化生态新城建设提速

从水塘到“云”端 全国最大高邮鸭养殖基地实现智慧养殖

1-2月我国国民经济持续稳定恢复 生产需求较快增长

甲亢持续时间越长 对人体身体健康产生危害就越大

高龄老人患癌不要怕 综合治疗方案可以帮助患者加速康复

南京市公安局一级高级警长蒋浩接受纪律审查和监察调查环球今日报

立案调查宁波立案首起盲盒销售侵害消费者权益案

石家庄正定机场排查疑似车辆849辆维护机场正常营运秩序

蚌埠开展电动三四轮车销售突击检查行动营造安全畅通的道路交通环境

新增4家国家级绿色工厂宁波江北持续推进绿色制造工程

产业向“绿”而行邯郸复兴区推动现代化生态新城建设提速

从水塘到“云”端全国最大高邮鸭养殖基地实现智慧养殖

1-2月我国国民经济持续稳定恢复生产需求较快增长

甲亢持续时间越长对人体身体健康产生危害就越大

高龄老人患癌不要怕综合治疗方案可以帮助患者加速康复