- 采集微博的
抗疫求助
超话的内容,希望能有相关的人提供相应的帮助。【因为本人在上海所以就只采集了上海相关的博文】 - 因为本人能力有限不认识相关救助或政府团队,还没有来得及开发相关的网页,更方便有能力的人给提供一些帮助,毕竟救人一命,胜造七级浮屠。
- 疫情期间都不容易,也希望都能相互理解。尽量利用身边的资源帮助更多的人
- 列表过滤
- 识别正文中的地址【覆盖省、市、区】相对准确一点
- 识别正文中的手机号及是否包含手机号【由于是敏感信息建议是使用是否包含手机号】
- 初步规则打分类标签【如果需要在untils>map_dict.py中修改或添加分类】
- 等级借鉴标签
scrapy数据采集+mongodb存储
pip install -i https://pypi.douban.com/simple -r requirements.txt
- python3.8
- mongodb
- python run_all_spider.py
- 数据源采集的是微博的m端,采集的微博的超话
- 感谢
jionlp
的作者