返回查询:Multimodal Web / 中国

硅谷初创AI团队寻找一位经验丰富的
高级爬虫工程师
,能够开发稳定、可扩展的多模态数据采集系统,并具备绕过主流反爬平台(如 Cloudflare)的实战经验。

该团队由前Google高管创办,且成功融到硅谷VC funding。该职位适用于远程工程师/在硅谷可以onsite,项目包括抓取文本、图片、视频等复杂内容,目标网站具有较强的防护机制。

职责描述:

  • 搭建应对复杂防护策略的分布式爬虫系统
  • 实现对 Cloudflare、滑动验证码、JavaScript Challenge 等的绕过
  • 抓取多模态内容:文本、图像、音视频等
  • 管理代理池、User-Agent 伪装、浏览器模拟等反侦测机制
  • 下载大规模多媒体资源,保证数据完整性和质量
  • 输出结构化数据供 AI 训练或分析使用

任职要求:

  • 精通 Python 爬虫开发,熟练掌握 Scrapy、Playwright、Selenium 等框架
  • 有成功绕过 Cloudflare、Akamai、PerimeterX 等防护系统的经验
  • 掌握高级技术如:TLS 指纹伪造、浏览器指纹控制、动态 JS 执行、验证码识别等
  • 熟悉代理网络(住宅代理、动态 IP)、浏览器自动化与虚拟化环境部署
  • 具备媒体资源下载与预处理能力(如 yt-dlp, ffmpeg)
  • 熟悉数据存储(MongoDB, MinIO, S3)及高并发抓取调度优化

加分项:

  • 有 JS 逆向经验或 Burp Suite / Fiddler 抓包分析能力
  • 具备移动端 App 抓包/模拟请求经验
  • 有过灰产风控对抗、反检测系统构建经验者优先

如有兴趣,欢迎发送简历至:-