南京数据采集与爬虫开发工程师 - 外包人才简历详情

数据采集与爬虫开发工程师

驻场外包人员

工作年限：1年意向城市：杭州浏览：5次发布时间：近期

技能标签

Python Scrapy XPath 分布式爬虫反爬策略 Selenium 异步编程数据解析 IP代理池动态渲染数据库存储网络协议请求头伪装验证码识别分布式架构

专业技能

精通网络协议与爬虫架构设计，熟练掌握HTTP/HTTPS协议、Cookie/Session机制、反爬虫策略及应对方案。精通Python语言，熟悉Scrapy、Playwright等主流爬虫框架，具备分布式爬虫开发经验。精通数据解析技术，包括XPath、BeautifulSoup、PyQuery等解析工具。熟悉动态渲染页面抓取技术，掌握Selenium、Puppeteer等工具。精通数据存储方案，包括关系型数据库（MySQL/PostgreSQL）、非关系型数据库（MongoDB/Redis）及文件存储（CSV/JSON/TXT）。熟悉异步编程与并发处理，掌握aiohttp、asyncio等异步框架。具备反反爬技术能力，包括请求头伪装、IP代理池构建、验证码识别等。

工作履历（脱敏处理）

主导某影视数据采集项目，设计并实现基于Scrapy-Redis的分布式爬虫系统，日均采集10万+条影视数据。攻克动态渲染页面抓取难题，采用Selenium结合Playwright实现无头浏览器自动化，成功突破目标网站的反爬机制。构建IP代理池系统，通过动态切换代理IP及请求头伪装，实现稳定的数据采集。设计数据解析方案，采用XPath与PyQuery组合解析复杂页面结构，提升数据提取效率30%。优化存储架构，采用MySQL主从复制与MongoDB分片存储，实现数据高效持久化。

项目经验（脱敏处理）

负责某影视数据采集平台开发，针对目标网站的加密URL及动态token验证机制，设计多阶段解决方案。首先通过Selenium模拟浏览器行为，获取动态生成的token参数，建立token生成逻辑模型。其次采用Playwright实现无头浏览器自动化，处理JavaScript动态渲染内容，成功抓取1000+部影视作品详情数据。构建分布式爬虫架构，基于Scrapy-Redis实现任务分发与结果聚合，日均处理50万+页面请求。设计反反爬策略，包括请求头随机化、IP代理池轮换、请求间隔动态控制，系统稳定运行周期达30天。最终实现数据存储方案优化，采用MySQL主从架构与MongoDB分片存储，确保数据高并发写入与快速查询。

驻场外包优势

服从性高

严格遵守甲方管理制度

技术扎实

1年项目实战经验

可长期驻场

接受异地项目外派

快速响应

24小时内可到岗

企业人才对接

专业IT人力外包服务

如果贵公司有IT项目人手缺口、需要工程师驻场开发、短期人力支援需求，欢迎联系洽谈合作。

合作热线

18969108718

商务邮箱

ntit@163.com

微信扫码咨询

扫描二维码添加商务对接

立即申请人才对接

IT人力外包人才简历库