APP抓取数据违法吗?普通人用爬虫工具也要小心红线

早上刷微博,看到有人用某款“自动抢券APP”秒光超市优惠券;中午帮朋友查竞品App的活动文案,他顺手写了段Python脚本批量抓取页面标题;晚上又听说一个做电商代运营的哥们,因为扒了三个竞品APP的商品价格和评论,被发了律师函……这些操作,听着挺常见,但真不违法?

不是所有“抓”都叫技术,有些叫侵权

APP数据能不能抓,关键看三件事:你抓的是什么、怎么抓的、抓来干啥。比如,你打开微信,用录屏+OCR识别自己聊天记录里的地址——这不违法,因为数据属于你自己。但要是写个程序,绕过登录验证,批量爬取别人公众号后台的用户留言并导出成Excel卖钱,那基本就是踩线了。

法律盯得最紧的几个雷区

《反不正当竞争法》第十二条明确说:不得利用技术手段,妨碍、破坏其他经营者合法提供的网络产品或服务正常运行。去年就有案例:某公司开发APP,模拟用户行为高频调用某外卖平台API,导致对方服务器卡顿,法院判赔80万元。

还有《个人信息保护法》——如果你抓的数据里带手机号、收货地址、实名信息,哪怕只是存本地没外泄,也构成违法。更别说《刑法》第二百八十五条:非法获取计算机信息系统数据罪,最高能判7年。

看看真实代码边界在哪

下面这段看似普通的请求,在没授权时就可能出事:

import requests
headers = {
"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 16_0 like Mac OS X)"
}
response = requests.get("https://api.xxx-shop.com/v2/items?limit=100", headers=headers)
# 如果该接口要求登录态token,而你伪造cookie硬闯,风险陡增

再比如,有些APP在robots.txt里明文写着:User-agent: *\nDisallow: /api/,你还硬扫,司法实践中常被认定为“明知故犯”。

哪些情况相对安全?

公开网页上展示的信息,比如某招聘APP首页的职位列表(非登录后才显示的内容),用requests+BeautifulSoup解析HTML结构拿标题和薪资范围,一般没问题。前提是:控制频率(别1秒发100次)、留UA标识、避开登录墙、不存敏感字段。就像去图书馆抄公示栏上的招聘信息,没人拦你;但撬开HR办公室抽屉翻员工花名册,性质就变了。

另外,部分平台提供开放API(如高德地图、天气网),签个协议、配个key,合规调用完全OK。别总想着“自己写个爬虫更自由”,有时候官方渠道反而更快更稳。

小公司和个人最容易忽略的一点

不是“我没卖数据”就安全。某大学生写了个豆瓣电影评分爬虫,只给自己用,结果把整个影评数据库下到本地硬盘,还加了全文搜索功能。后来豆瓣起诉,法院认为:未经许可大量复制他人数据库内容,已构成著作权法意义上的“实质性替代”,哪怕没传播也算侵权。

说白了,技术没原罪,但权力要匹配责任。你手机里装的每个“一键采集”类APP,背后协议里那句“禁止用于非法用途”,真不是凑字数写的。