IT人力外包人才简历库

返回列表

数据采集与爬虫开发工程师

驻场外包人员
工作年限:1年 意向城市:杭州 浏览:5次 发布时间:近期

技能标签

Python Scrapy XPath 分布式爬虫 反爬策略 Selenium 异步编程 数据解析 IP代理池 动态渲染 数据库存储 网络协议 请求头伪装 验证码识别 分布式架构

专业技能

精通网络协议与爬虫架构设计,熟练掌握HTTP/HTTPS协议、Cookie/Session机制、反爬虫策略及应对方案。精通Python语言,熟悉Scrapy、Playwright等主流爬虫框架,具备分布式爬虫开发经验。精通数据解析技术,包括XPath、BeautifulSoup、PyQuery等解析工具。熟悉动态渲染页面抓取技术,掌握Selenium、Puppeteer等工具。精通数据存储方案,包括关系型数据库(MySQL/PostgreSQL)、非关系型数据库(MongoDB/Redis)及文件存储(CSV/JSON/TXT)。熟悉异步编程与并发处理,掌握aiohttp、asyncio等异步框架。具备反反爬技术能力,包括请求头伪装、IP代理池构建、验证码识别等。

工作履历(脱敏处理)

主导某影视数据采集项目,设计并实现基于Scrapy-Redis的分布式爬虫系统,日均采集10万+条影视数据。攻克动态渲染页面抓取难题,采用Selenium结合Playwright实现无头浏览器自动化,成功突破目标网站的反爬机制。构建IP代理池系统,通过动态切换代理IP及请求头伪装,实现稳定的数据采集。设计数据解析方案,采用XPath与PyQuery组合解析复杂页面结构,提升数据提取效率30%。优化存储架构,采用MySQL主从复制与MongoDB分片存储,实现数据高效持久化。

项目经验(脱敏处理)

负责某影视数据采集平台开发,针对目标网站的加密URL及动态token验证机制,设计多阶段解决方案。首先通过Selenium模拟浏览器行为,获取动态生成的token参数,建立token生成逻辑模型。其次采用Playwright实现无头浏览器自动化,处理JavaScript动态渲染内容,成功抓取1000+部影视作品详情数据。构建分布式爬虫架构,基于Scrapy-Redis实现任务分发与结果聚合,日均处理50万+页面请求。设计反反爬策略,包括请求头随机化、IP代理池轮换、请求间隔动态控制,系统稳定运行周期达30天。最终实现数据存储方案优化,采用MySQL主从架构与MongoDB分片存储,确保数据高并发写入与快速查询。

驻场外包优势

服从性高

严格遵守甲方管理制度

技术扎实

1年项目实战经验

可长期驻场

接受异地项目外派

快速响应

24小时内可到岗

企业人才对接

专业IT人力外包服务

如果贵公司有IT项目人手缺口、需要工程师驻场开发、短期人力支援需求,欢迎联系洽谈合作。

合作热线

18969108718

商务邮箱

ntit@163.com

微信扫码咨询

微信咨询二维码

扫描二维码添加商务对接

立即申请人才对接