影刀RPA实战:网页爬虫之药品数据
1 实战目标
这次给大家带来的实战示例是采集中国医药信息平台上的药品数据,主要获取药品名称,介绍,药品类型,处方类型,医保类型,参考价格,药品成分,性状,适应病症,用法用量等。我们依然使用excel将这些需要的数据字段展示出来
需要准备的影刀知识:
- 网页元素操作
- 流程判断与循环
- excel操作
- 列表及文本字符串处理
2 影刀机器人采集药品数据
2.1 打开药品数据网
2.2 循环每一页药品数据
2.2.1 进入列表页面
2.2.2 获取分页数据
获取总页码,便于我们使用循环,依次采集每个页面的药品数据
开始循环分页采集,演示中,我们只采集第一页
2.2.3 获取药品数据列表
使用循环相似元素,将本页面的药品数据放入到一个列表中
2.2.4 下一页数据
通过以上的操作步骤,我们可以获取到每一页的药品数据,然后,我们依次点击,进入详情页来正式采集药品数据
3.3药品详情页采集药品数据
药品数据都是在详情页面中获取的,前边我们已经做好了准备工作,现在我们正式开始,详情页大体可以看成2个部分,我们通过观察可以发现,这个2个部分都很有规律,可以使用循环相似元素指令获取,不用通过获取元素信息指令单个采集。
3.3.1 进入详情页
我们先设置一个列表变量,存放采集的数据,每次采集完成后,将其写入excel
3.3.2 药品采集
采集药品名称与介绍
采集类型与参考价
这里有个判断,主要是过滤我们不需要采集的信息
其他说明采集
通过以上的采集,我们把想要的数据都写入到一个列表中,准备写入。
3.4 保存数据到excel
新建excel文件,设置好字段
数据写入excel中,自动保存
最终展示:
3 数据采集后思考
数据采集后的数据处理是一个关键步骤,它直接影响到数据分析的质量和最终结果的准确性。以下是一些数据处理的思考和最佳实践:
3.1 数据清洗
- 处理缺失值:通过删除、填充或插值等方法处理缺失数据。
- 去除重复:识别并删除重复记录,确保数据的唯一性。
- 纠正错误:修正明显的错误或不一致的数据,如错误的格式、拼写错误等。
3.2 数据转换
- 格式统一:将数据转换成统一的格式,便于分析和处理。
- 归一化:对数据进行标准化或归一化处理,使其整洁,统一。
3.3 数据存储
- 选择合适的存储格式和数据库,如关系型数据库、NoSQL数据库或数据仓库。
- 同时需要考虑数据检索是否方便
3.4 持续维护
- 随着时间的推移和数据的更新,定期维护和更新数据处理流程。
3.5 遵守法规:
- 确保数据处理过程遵守相关的数据保护法规和行业标准。
通过这些步骤,可以确保数据采集后的数据处理既高效又准确,为数据分析和决策提供坚实的基础。
4 最后
最后,国庆马上到了,祝大家开开心心,快快乐乐!
感谢大家,请大家多多支持!
原文地址:https://blog.csdn.net/ddf128/article/details/142413070
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!