本文转载自公众号“环球产经”
ChatGPT被誉为当年最具创新性的人工智能工具之一。瑞银此前发布的一份研究报告显示,ChatGPT的月活跃用户在今年1月份预计达到了1亿,这距离其推出只有2个月时间,成为史上增长最快的消费者应用。
然而,在ChatGPT掀起的这场人工智能“革命”和资本市场狂欢的背后,有一个被边缘化的、被遗忘的却又至关重要的群体,值得所有人关注,他们就是数据标注员。
(相关资料图)
据美国《时代周刊》上月中旬的报道,为了训练ChatGPT,OpenAI雇佣了时薪不到2美元的肯尼亚外包劳工,他们所负责的工作就是对庞大的数据库手动进行数据标注。
时薪1.32美元,标注20万单词
《时代周刊》查阅的文件显示,OpenAI在2021年底与Sama签署了三份总价值约20万美元的合同,为数据库中有害的内容进行标记。
Sama是一家总部位于美国旧金山的公司,该公司雇佣了肯尼亚、乌干达和印度的外包员工。
大约30多名工作人员被分成三个小组,每个小组都专注于一个主题。三名员工对《时代周刊》表示,他们每9个小时要阅读和标注150~200段文字。这些段落的范围从100个单词到1000多个单词不等。
接受《时代周刊》采访的四名员工都表示,这份工作给他们留下了持久的心理创伤。合同规定,OpenAI将为该项目向Sama支付每小时12.50美元的报酬,这是该项目员工时薪的6~9倍。OpenAI外包服务商Sama曾向多家硅谷大厂提供类似服务。
训练ChatGPT对OpenAI来说至关重要。
ChatGPT的前身GPT-3已经展示了非常强大的语句串联的能力。然而,当时的GPT-3却存在很多弊端,例如内容容易出现暴力、性别歧视等言论。——由于互联网的词汇有不少带有偏见及负面的词汇,因此单纯凭借学习能力无法来清除这些训练数据。
《时代周刊》的报道显示,即使是一个由数百人组成的团体,也需要几十年的时间才能手动搜索庞大的数据库。OpenAI只能通过建立一个额外的、AI驱动的安全机制,才能控制上述弊端。
《时代周刊》报道称,为了获得这些有害内容的标签,OpenAI从2021年11月开始便向一家外包公司发送了数万条文本片段。其中大部分文字似乎都是从互联网“最黑暗的角落”挖掘出来的。
除了OpenAI,Sama还为谷歌、Mate和微软等硅谷科技巨头标注数据。此外,Sama还标榜其是一家“有道德的人工智能公司”,并称其已经帮助5万多人脱贫。
人工智能组织联盟Partnership on AI表示,“尽管这些丰富数据的专业人士发挥了基础作用,但越来越多的研究表明,这些工人都面临着不稳定的工作条件。这可能是庆祝技术效率提升的同时,试图掩盖人工智能对庞大劳动力依赖的结果。”
ChatGPT火爆背后有何法律风险?
ChatGPT的问世掀起了新一轮人工智能浪潮,但其使用过程中可能涉及的法律问题不容忽视,记者对此进行了调查采访。
《法治日报》记者近日采访发现,ChatGPT的火爆背后暗藏法律风险隐患。人工智能在给人们的生活增添乐趣、提供便利的同时,其信息真伪、知识产权等法律风险也愈发受到关注。
另一方面,不少人盯上了其热度想“搭便车”牟利,出现了大批“山寨”产品和账号转卖行为。
泰和泰(重庆)律师事务所高级合伙人朱杰说,ChatGPT在建立语料库、生成文本时,如果使用并非公开的开源代码、使用开源代码商用未办理许可证或者未按照许可证的要求实施的,可能会导致侵权。
他解释说,这类人工智能主要是通过挖掘人类日常交流以及文本,进而统计分析,因此,对于一些受著作权保护的文本、视频、代码等,如果没有经过权利主体的授权,直接获取复制到自己的数据库中,并在此基础上修改、拼凑,极可能侵害他人的著作权。
朱杰认为,ChatGPT生成的文本等内容是基于大量数据的统计和应用生成的,不具有自己的思想和创新,很难构成著作权法保护的作品。
谢连杰提到,ChatGPT的文本数据挖掘技术可能导致其在他人享有著作权的作品中“借鉴”部分内容。对于这部分内容,若不能构成我国著作权法所规定的“合理使用”的情形,则可能引发侵权纠纷。
借势贩卖租赁账号
ChatGPT走红后,由于服务端对中国大陆的IP有限制,无法注册使用,其账号一时在国内多个网购平台、社交平台上销售火热。在某电商平台上售卖成品账号的店铺,一天之内多达万人付款,价格最低1.68元。
记者在一家名为“ChatGPT账号供应商”的店铺购买了账号,商家随后私聊发来账号和密码,并特别标注输入时需要复制粘贴,还附有登录教程。登录后,记者发现这是一个多人共享账号,左侧聊天栏已经存在许多聊天窗口,系统运行十分缓慢,不一会记者就被提醒不能多人同时提问。
记者发现,某电商平台上,多数商家售卖的都是共享账号,而单人定制账号或者代注册账号的价格往往更高。
ChatGPT浪潮澎湃,其背后暴露出的人工智能法律风险、围绕ChatGPT展开的无序商业行为亦汹涌来袭,如何应对成为关注焦点。