写点什么

多模态 AI 时代的数据困局与机遇,Web Unlocker 赋能 LLM 训练以及 AEO 场景

作者:不觉心动
  • 2025-11-05
    北京
  • 本文字数:5059 字

    阅读完需:约 17 分钟

前言

单纯依赖文本训练的 LLM 时代正在落幕,多模态 AI 时代已经到来,在 LLM 训练中,尤其是多模态数据,已经成为 AI 大模型竞赛的核心战场。当无数 AI 团队和研究机构踏入多模态数据采集领域时,却发现自己面临着前所未有的困局:

  • 技术困局:使用 yt-dlp 等工具时,频繁遭遇 IP 封锁和 HTTP 429,成功率降至 30% 以下

  • 规模困局:从百级扩展到百万级时,陷入代理-IP-并发的瓶颈。有团队 4 个工程师 3 个月只采集到 5 万条数据

  • 合规困局:GDPR、CCPA 等法规要求下,大规模采集需确保合规性

随着 SEO 向 AEO(AI Engine Optimization)转型,实时监测 AI 搜索结果成为新需求,这同样依赖强大的数据采集能力。然而 Bright Data 提供企业级数据采集基础设施,7200 万+ 真实 IP、Web Unlocker 智能解锁技术,帮助 AI 团队构建完整的多模态训练数据管道。

一、Bright Data 亮数据 如何破解反爬虫

Bright Data 的 Web Unlocker 代表了数据采集技术的重大突破。它不同于传统代理或简单的请求重试,而是一个集成了多种反爬虫应对策略的智能系统:

1、自动绕过验证码

  • 集成 reCAPTCHA、hCaptcha、Cloudflare Turnstile 等主流验证码解决方案

  • 无需人工介入,自动识别并通过验证

2、动态 IP 轮换

  • 从 7200 万+ 真实住宅 IP 池中智能选择

  • 模拟真实用户行为,避免被识别为爬虫

3、浏览器指纹管理

  • 自动处理 User-Agent、Canvas 指纹、WebGL 指纹等

  • 确保每次请求看起来来自不同的真实用户

4、JavaScript 渲染

  • 支持动态网页内容加载

  • 完整执行 JavaScript,获取 AJAX 加载的数据

5、重试与容错机制

  • 智能识别失败原因(IP 封锁、超时、服务器错误等)

  • 自动切换策略重试,确保高成功率

二、基于 Bright Data 亮数据爬取音视频数据

1、创建 API

登录到Bright Data平台

这里我们选择左侧菜单栏中的 Web Access,然后点击 Create an API

选择 Web Unlocker API,其可以使用自定义的指纹和 cookies 来利用住宅代理,求解验证码,渲染 JS 的自动化单步抓取。

然后填写通道名称、通道描述,最后点击添加 API

我们可以看到 Web Unlocker API 已经创建成功

2、API 内容

Web Unlocker API 主要有以下几部分组成

  • API 地址:https://api.brightdata.com/request

  • Authorization: Bearer [INSERT YOUR API key]您的 API 密钥位于您的 Web Unlocker API 区域中。

  • zone:您的特定 Web Unlocker API 区域名称。

  • url:通过 Web Unlocker API 访问的目标 URL。

  • format:定义响应格式。用于 raw 接收来自目标站点的原始响应。

  • [可选] body:指定发送到目标 URL 的原始 POST 请求负载。例如"body": "{\"key\":\"value\"}"

3、测试 API 脚本

接下来测试下这个脚本,可以看到最终的输出结果,说明测试脚本是可以正常运行

4、爬取 YouTube 视频

(1)确定爬取 URL

目标 URL 如下,其中 keyword 就是搜索的关键字,

https://www.youtube.com/results?search_query=${encodeURIComponent(keyword)

(2)爬取关键字

这里我将 AI tutorial、machine learning、python programming 作为爬取关键字

 const searches = [    { keyword: 'AI tutorial', count: 10 },    { keyword: 'machine learning', count: 10 },    { keyword: 'python programming', count: 10 },  ];
复制代码

(3)使用 Web Unlocker API 爬取数据

使用 web unlocker api 获取数据,其中 BRIGHTDATA_TOKEN 需要替换自己的 token,需要在平台中获取

  const response = await fetch('https://api.brightdata.com/request', {    method: 'POST',    headers: {      'Authorization': `Bearer ${BRIGHTDATA_TOKEN}`,      'Content-Type': 'application/json'    },    body: JSON.stringify({      zone: 'web_unlocker2',      url: searchUrl,      format: 'raw'    })  }); 
复制代码

(4)数据处理

获取到数据之后,需要从结果中提取视频链接

  const html = await response.text();    // 提取视频ID  const videoIds = new Set();  const pattern = /"videoId":"([a-zA-Z0-9_-]{11})"/g;  let match;    while ((match = pattern.exec(html)) !== null && videoIds.size < maxResults) {    if (match[1].length === 11) {      videoIds.add(match[1]);    }  }    const links = Array.from(videoIds).map(id => `https://www.youtube.com/watch?v=${id}`);
复制代码

(5)爬取结果


最终可以在 youtobe_links.json 文件中看到爬取到的数据

[  "https://www.youtube.com/watch?v=JMUxmLyrhSk",  "https://www.youtube.com/watch?v=-NTzW2Jvris",  "https://www.youtube.com/watch?v=0vfZFL-ftz0",  "https://www.youtube.com/watch?v=9c7zh2MkslY",  "https://www.youtube.com/watch?v=yHk7Vavmc7Q",  "https://www.youtube.com/watch?v=Yq0QkCxoTHM",  "https://www.youtube.com/watch?v=sVcwVQRHIc8",  "https://www.youtube.com/watch?v=UyHy3HCry-A",  "https://www.youtube.com/watch?v=15PK38MUEPM",  "https://www.youtube.com/watch?v=2Sb1Gvo5si8",  "https://www.youtube.com/watch?v=ukzFI9rgwfU",  "https://www.youtube.com/watch?v=PeMlggyqz0Y",  "https://www.youtube.com/watch?v=wvgjo-87aVA",  "https://www.youtube.com/watch?v=OK0YhF3NMpQ",  "https://www.youtube.com/watch?v=r6Fv1F8YQCI",  "https://www.youtube.com/watch?v=9v7b8gOIkjw",  "https://www.youtube.com/watch?v=FbtYxPUrhq8",  "https://www.youtube.com/watch?v=2oOEctI1Uzo",  "https://www.youtube.com/watch?v=SL4FfHFGf0g",  "https://www.youtube.com/watch?v=Coe4XTW1-eE",  "https://www.youtube.com/watch?v=80yIVH2aOy0",  "https://www.youtube.com/watch?v=GfWRxr1OBm4",  "https://www.youtube.com/watch?v=fXxUYb0s-pc",  "https://www.youtube.com/watch?v=IfKlGhRc7Dc",  "https://www.youtube.com/watch?v=o4F3G5g5H-Y",  "https://www.youtube.com/watch?v=Mf9GCn_LsUI",  "https://www.youtube.com/watch?v=nluUYtejoIE",  "https://www.youtube.com/watch?v=_3Evgblmfwo",  "https://www.youtube.com/watch?v=XKYMGepj7Y8",  "https://www.youtube.com/watch?v=L5EWvj8wu_c"]
复制代码


5、源码

const BRIGHTDATA_TOKEN = 'bf45b275da3381a6de03d58dd50d8c134ca81c106a2f9b0b54eb103f3b85183b';const fs = require('fs'); // 搜索并获取视频链接async function searchVideoLinks(keyword, maxResults = 10) {  console.log(`🔍 搜索: "${keyword}" (获取 ${maxResults} 个)`);    const searchUrl = `https://www.youtube.com/results?search_query=${encodeURIComponent(keyword)}`;    const response = await fetch('https://api.brightdata.com/request', {    method: 'POST',    headers: {      'Authorization': `Bearer ${BRIGHTDATA_TOKEN}`,      'Content-Type': 'application/json'    },    body: JSON.stringify({      zone: 'web_unlocker1',      url: searchUrl,      format: 'raw'    })  });   const html = await response.text();    // 提取视频ID  const videoIds = new Set();  const pattern = /"videoId":"([a-zA-Z0-9_-]{11})"/g;  let match;    while ((match = pattern.exec(html)) !== null && videoIds.size < maxResults) {    if (match[1].length === 11) {      videoIds.add(match[1]);    }  }    const links = Array.from(videoIds).map(id => `https://www.youtube.com/watch?v=${id}`);    console.log(`✅ 找到 ${links.length} 个视频链接\n`);    return links;} // 主程序(async () => {  console.log('\n🎬 YouTube 视频链接采集器\n');  console.log('='.repeat(60) + '\n');    // 🎯 配置搜索关键词  const searches = [    { keyword: 'AI tutorial', count: 10 },    { keyword: 'machine learning', count: 10 },    { keyword: 'python programming', count: 10 },  ];    let allLinks = [];    for (const search of searches) {    const links = await searchVideoLinks(search.keyword, search.count);    allLinks.push(...links);        // 显示链接    links.forEach((link, i) => {      console.log(`  ${i + 1}. ${link}`);    });    console.log('');        // 延迟    await new Promise(r => setTimeout(r, 2000));  }    console.log('='.repeat(60));  console.log(`\n📊 总计: ${allLinks.length} 个视频链接\n`);    // 保存为简单的文本文件  fs.writeFileSync('youtube_links.txt', allLinks.join('\n'));  console.log('💾 已保存到: youtube_links.txt');    // 也保存为JSON  fs.writeFileSync('youtube_links.json', JSON.stringify(allLinks, null, 2));  console.log('💾 已保存到: youtube_links.json\n');  })()
复制代码

四、基于 Bright Data 亮数据 的 AEO 监测方案

当今用户可能不会再对传统的搜索引擎进行"最好的 AI 视频工具"进行搜索,而是直接问 AI 工具:"帮我推荐视频编辑 AI 工具"时,传统 SEO 的价值开始下降,AI Engine Optimization(AEO)正在成为新的营销战场,并且其优势非常显著。那么 AEO 数据采集能解决哪些问题呢?

  • 品牌需要实时监测自己在各类 AI 引擎中的表现,这涉及:多平台监测:ChatGPT、Claude、Perplexity、Google SGE、Bing Chat

  • 动态内容:AI 回答是实时生成的,传统爬虫无法获取

  • 高频采集:需要每天甚至每小时监测

  • 结构化提取:从自然语言回答中提取品牌提及、排名等信息

1、具体案例

检测的平台: Google、Bing、Baidu

监测的品牌:Amazon

检索的关键字:

 [    '跨境电商平台推荐',    '最好的跨境电商平台',    '跨境电商怎么做',    '跨境电商平台对比',    'cross-border e-commerce platform'  ]
复制代码

Web Unlocker 检索数据

const response = await fetch('https://api.brightdata.com/request', {    method: 'POST',    headers: {      'Authorization': `Bearer ${BRIGHTDATA_TOKEN}`,      'Content-Type': 'application/json'    },    body: JSON.stringify({      zone: 'web_unlocker1',      url: url,      format: 'raw'    })  });
复制代码

其中 URL,

//Googleconst searchUrl = `https://www.google.com/search?q=${encodeURIComponent(query)}`;//Bing const searchUrl = `https://www.bing.com/search?q=${encodeURIComponent(query)}`;//百度  const searchUrl = `https://www.baidu.com/s?wd=${encodeURIComponent(query)}`;
复制代码

这里呢,我以 Bing 为案例进行检索,从关键字选取两个进行检索。

2、输出结果

最终输出结果:

最终输出的 aeo_report.json 文件如下:

{  "brand": "Amazon",  "timestamp": "2025-11-03T01:42:06.713Z",  "queries": [    "跨境电商平台推荐",    "最好的跨境电商平台"  ],  "platforms": {    "bing": [      {        "query": "跨境电商平台推荐",        "platform": "Bing",        "mentioned": true,        "firstPosition": -1,        "totalLinks": 0,        "links": [],        "timestamp": "2025-11-03T01:41:12.104Z"      },      {        "query": "最好的跨境电商平台",        "platform": "Bing",        "mentioned": true,        "firstPosition": -1,        "totalLinks": 0,        "links": [],        "timestamp": "2025-11-03T01:42:03.684Z"      }    ]  },  "summary": {    "bing": {      "mentions": 2,      "total": 2,      "rate": "100.0"    },    "overall": {      "totalMentions": 2,      "totalQueries": 2,      "rate": "100.0"    }  }}
复制代码

最后

基于 Bright Data亮数据 的音视频数据采集以及 AEO 品牌监测方案展示出 Bright Data 如何破解行业痛点:一方面,通过企业级基础设施彻底解决 yt-dlp 等开源工具面临的封禁困境,让 YouTube、TikTok 等平台的视频、音频、字幕数据能够大规模、结构化地服务于 LLM 多模态训练;另一方面,针对传统 SEO 向 AI Engine Optimization (AEO) 转型的趋势,提供 Google、Bing、百度及 AI 搜索引擎的品牌监测能力,帮助企业掌握在 ChatGPT、Perplexity 等新一代智能入口中的曝光与排名。凭借 99.9% 高可用、无限并发、只为成功付费的优势,Bright Data 已在头部 AI 实验室与企业中得到验证,让数据不再成为 AI 创新的瓶颈,而是加速前行的引擎。

发布于: 2 小时前阅读数: 11
用户头像

不觉心动

关注

还未添加个人签名 2019-05-27 加入

还未添加个人简介

评论

发布
暂无评论
多模态 AI 时代的数据困局与机遇,Web Unlocker 赋能LLM 训练以及AEO场景_多模态_不觉心动_InfoQ写作社区