
他在6月26日报道说,司法文件周一发布,据外国媒体ARS Technica称,人工智能公司人类已经花费了数百万美元来培训Chatgpt的AI的助手来拆除实物书籍并在数字文件中扫描它们。为了获得培训数据,该公司在系统中拆除并限制了许多书籍,并直接丢弃了原始书籍。该判决有32页,揭示了人类在2024年2月雇用汤姆·图里(Tom Turvey)的方式。Turvey负责Google Books Project,该公司要求他“从世界各地获取书籍”。这项战略性人力资源协议显然希望复制Google曾经确定为法院合理使用的书的数字模型。最后,威廉·阿尔萨普(William Alsap)法官确定这本书是由人类法律购买的,并在扫描后立即被摧毁,并且数字档案是用于内部用途而不是传播的,它c构成合理的用途。他认为,这种转变等同于“空间节省”的数字转换,并具有“转换能力”在理性使用中的属性。如果该公司从一开始就遵循这一道路,则可能已经建立了合理使用AI的第一个法学,但对版权的早期侵犯破坏了其合法性。实际上的主要原因实际上很简单。 IA培训需要许多高质量的教科书。为了建立大型语言模型,研究人员必须在神经网络中输入数十亿个单词,反复训练该模型并在单词和概念之间建立关系。培训数据的质量直接影响模型输出的准确性。与杂乱的信息(例如在线评论,书籍和编辑文章)相比,可以极大地提高他们对AI的语言技能。 AI的公司急需发布其内容,但在许多情况下,他们是不愿意的nt花时间谈论许可证。美国的“首次销售原则”提供了法律空间。购买实物书后,用户可以自己处理。这使得该书成为合法的“转移计划”。像许多同学一样,人类是第一个,他称捷径为避免版权。他从司法文件中得知,首席执行官Amodai曾提倡使用盗版电子书,以避免长期且复杂的权限过程。但是到2024年,出于法律原因,公司开始寻找更安全的选择。获得第二本书已成为理想的选择。您不必说授权并获得高质量的培训文本。为了加速数字化过程,人类采用“破坏性扫描”来购买大量的书籍,打开包装,农作物和扫描PDF文件中的PDF文件,并且一旦完成后将排除所有纸张。整个过程耗资数百万美元。大多数comPany的购买目标是零售频道中通常的旧书籍。然而,实际上,很长一段时间以来,非破坏性扫描技术已经成熟。例如,Internet文件开发了一种可以包含原始书籍的数字媒体。本月初,OpenAI和Microsoft还宣布了与哈佛大学图书馆的关联,计划使用大约一百万个发布的版本培训AI。