写点什么

网络爬取 / 机翻数据可能存在哪些雷区?

作者:澳鹏Appen
  • 2025-01-20
    上海
  • 本文字数:1373 字

    阅读完需:约 5 分钟

网络爬取/机翻数据可能存在哪些雷区?

网络爬取 &机翻数据的危害

Crisis of Web-Scraped & Machine-Translated Data


在大模型的数字世界中,语言学习与人工智能的结合是技术进步的关键。然而,大语言模型 (LLM) 正在面临来自网络抓取和机器翻译数据的风险,这可能引发模型质量和 AI 道德问题。教育技术专家、人工智能数据分析师和商业领袖纷纷表示,数据来源的不透明性将对人工智能的未来造成不利影响。


语言学习面临的新挑战

从理解 LLM 的训练机制开始


在人类社会,语言是通用的交流工具,对于各个领域的协作、创新和进步至关重要。在人工智能的世界,语言的重要性却不仅仅局限于通信,还扩展到智能翻译、自然语言处理 (NLP) 和对话式 AI 等技术。


语言学习工具的有效性取决于训练它们的数据质量。人们迫切需要符合道德规范的高质量数据,来确保语言模型的质量,并限制糟糕的内容对语言体系的侵占。



大语言模型 (LLM) 的训练过程需要精心标注的数据——每个单词、短语或句子,都需要具有上下文和语义。高质量训练数据是构建高级多语言模型的基石,决定了模型对人类语言学的忠实度以及适应各种方言和社会语言的能力。


准确的语言模型是人工智能真正理解最终用户并与人类互动的基石。用于训练这些模型的数据质量,决定了它们是否具备文化差异和不同情境下的个性化智能。


——澳鹏 Appen 首席语言学家 Josh Emanuel


网络抓取 &机器翻译

成本较低,但......?


网络抓取、机器翻译的数据的吸引力是可以理解的——它丰富、多样,而且更具成本效益。然而,采用这些充满风险的数据集通常会导致更加严重的后果。


网络抓取不是万能药,而是一个雷区,充满了丢失上下文、不准确表达以及遗失不同文化中语言细微差别的可能性。网络抓取是一个机械的过程,在不理解复杂的表达或语言特质的情况下直接替换单词,这种方法往往会引发偏见,并损害模型的准确性和文化敏感性。



在许多情况下,抓取数据的来源可能没有明确的使用条款,这将给数据的使用者带来道德风险。与此同时,在不明确数据来源的情况下,也很难确定其是否代表了不同的声音和观点,这又将进一步引发模型偏见问题。



在数据质量方面,从翻译错误到上下文缺失等等,网络抓取和机器翻译的低质量数据可能会导致错误信息的大量传播。模型可能在不知不觉间吸收了过多的错误信息,进一步对其学习能力造成损害。


语言本质上是复杂的,并且与文化背景交织在一起。数据准确性方面的失误可能会造成偏见的传播和放大,导致人工智能系统失效,并对多元文化互动产生糟糕的影响。


——澳鹏 Appen 首席语言学家 Josh Emanuel


高质量的替代方案

开创 LLM 新时代


专业的翻译内容、人工验证流程、系统性整合用户生成的数据...是提升数据质量的方法之一。澳鹏 Appen 专注于高质量且来源合规的数据,并优先考虑数据准确性和文化相关性。


通过我们全球上百万的不同语言使用者和语言学专家,澳鹏致力于确保语言模型的多样性并反映现实世界应用的细微差别。这种人机交互的方法可以持续验证和完善 AI 语言模型的复杂性和适用性。



随着大语言模型 (LLM) 在现实中的应用不断提升,人工智能数据分析师和教育技术专家拥有更大的能量及责任。通过他们的共同努力,业界将不断提高模型标准,真正增强模型使用体验,开创 LLM 的新时代。


*Resources:

A Shocking Amount of the Web is Machine Translated:Insights from Multi-Way Parallelism

Amazon Flags Problem of Using Web-Scraped Machine-Translated Data in LLM Training

发布于: 刚刚阅读数: 5
用户头像

澳鹏Appen

关注

还未添加个人签名 2021-03-15 加入

高质量的AI训练数据服务商

评论

发布
暂无评论
网络爬取/机翻数据可能存在哪些雷区?_数据标注_澳鹏Appen_InfoQ写作社区