硅谷初创AI团队寻找一位经验丰富的
高级爬虫工程师
,能够开发稳定、可扩展的多模态数据采集系统,并具备绕过主流反爬平台(如 Cloudflare)的实战经验。
该团队由前Google高管创办,且成功融到硅谷VC funding。该职位适用于远程工程师/在硅谷可以onsite,项目包括抓取文本、图片、视频等复杂内容,目标网站具有较强的防护机制。
职责描述:
- 搭建应对复杂防护策略的分布式爬虫系统
- 实现对 Cloudflare、滑动验证码、JavaScript Challenge 等的绕过
- 抓取多模态内容:文本、图像、音视频等
- 管理代理池、User-Agent 伪装、浏览器模拟等反侦测机制
- 下载大规模多媒体资源,保证数据完整性和质量
- 输出结构化数据供 AI 训练或分析使用
任职要求:
- 精通 Python 爬虫开发,熟练掌握 Scrapy、Playwright、Selenium 等框架
- 有成功绕过 Cloudflare、Akamai、PerimeterX 等防护系统的经验
- 掌握高级技术如:TLS 指纹伪造、浏览器指纹控制、动态 JS 执行、验证码识别等
- 熟悉代理网络(住宅代理、动态 IP)、浏览器自动化与虚拟化环境部署
- 具备媒体资源下载与预处理能力(如 yt-dlp, ffmpeg)
- 熟悉数据存储(MongoDB, MinIO, S3)及高并发抓取调度优化
加分项:
- 有 JS 逆向经验或 Burp Suite / Fiddler 抓包分析能力
- 具备移动端 App 抓包/模拟请求经验
- 有过灰产风控对抗、反检测系统构建经验者优先
如有兴趣,欢迎发送简历至:-