直通屏山|福建|时评|大学城|台海|娱乐|体育|国内|国际|专题|网事|福州|厦门|莆田|泉州|漳州|龙岩|宁德|南平|三明
您所在的位置:东南网 > 国内> 社会 > 正文

“爬虫”如何抢低价票?借助超链接信息抓取网页

2017-12-27 08:02:29 付丽丽 来源:科技日报  责任编辑:林晨   我来说两句

你的低价机票 被“虫子”吃了

不到两个月,2018年春节要来了。

“今年我得早下手,抢张回家的低价机票。”在北京打工的小王对科技日报记者说,由于老家在云南,春节机票太贵,他都选择坐两天两夜的火车回去,长途跋涉,苦不堪言。

然而,就在小王摩拳擦掌,准备使出“洪荒之力”抢张便宜机票时,看到网上曝出这样一则消息:航空公司放出的低价机票,80%以上被票务公司的“爬虫”抢走,普通用户很少能买到。

小王傻眼了,“爬虫”究竟是什么鬼?它又是怎么抢机票的?难道就没有办法治理吗?

借助超链接信息抓取网页

“‘爬虫’技术是实现网页信息采集的关键技术之一,通俗来说,‘爬虫’就是一段用来批量、自动化采集网站数据的程序,几乎不需要人工干预。”北京理工大学网络科学与技术研究院副教授闫怀志告诉科技日报记者。

闫怀志介绍,“爬虫”又称网页“蜘蛛”、网络机器人,它是一种按照一定规则自动抓取网页信息的程序或者脚本,通常驻留在服务器上。在Web网页中,既包含可供用户阅读的文字、图片等信息,还包含一些超链接信息。网络“爬虫”正是借助这些超链接信息来不断抓取网络上的其他网页。

“这种信息采集过程很像一个爬虫或蜘蛛在网络上漫游,网络‘爬虫’或网页‘蜘蛛’因此得名。”闫怀志说,“爬虫”最早应用在搜索引擎领域,比如谷歌、百度、搜狗等搜索引擎工具每天需要抓取互联网上数百亿的网页,它们需要借助庞大的“爬虫”集群来实现搜索功能。

当前,“爬虫”已被广泛用于电子商务、互联网金融等诸多领域。比如,“爬虫”可以抓取航空公司官网的机票价格,发现低价或紧俏机票后,“爬虫”可以利用虚假客源的真实身份信息实现抢先预订。再有,很多互联网浏览器都推出了自己的抢票插件,以高订票成功率来推广浏览器。

根据抓取任务和目标的不同,网络“爬虫”可大致分为批量型、增量型和垂直型。批量型“爬虫”的抓取范围和目标较为明确,可以是网页的设定数量,也可以是消耗时间的设定。增量型“爬虫”主要用于持续抓取更新的网页,以适应网页的不断变化。垂直型“爬虫”主要是用于特定主题内容或特定行业的网页。

打印 | 收藏 | 发给好友 【字号
今日热词
更多>>福建今日重点
更多>>国际国内热点
  • 新闻图片
更多>>娱 乐
  • 点击排行
  • 三天
  • 一周
  • 一月
关于我们 | 广告服务 | 网站地图 | 网站公告 |
国新办发函[2001]232号 闽ICP备案号(闽ICP备05022042号) 互联网新闻信息服务许可证 编号:35120170001 网络文化经营许可证 闽网文〔2019〕3630-217号
信息网络传播视听节目许可(互联网视听节目服务/移动互联网视听节目服务)证号:1310572 广播电视节目制作经营许可证(闽)字第085号
网络出版服务许可证 (署)网出证(闽)字第018号 增值电信业务经营许可证 闽B2-20100029 互联网药品信息服务(闽)-经营性-2015-0001
福建日报报业集团拥有东南网采编人员所创作作品之版权,未经报业集团书面授权,不得转载、摘编或以其他方式使用和传播
职业道德监督、违法和不良信息举报电话:0591-87095151 举报邮箱:jubao@fjsen.com 福建省新闻道德委举报电话:0591-87275327
全国非法网络公关工商部门举报:010-88650507(白)010-68022771(夜)