深网

没有搜索引擎索引的万维网内容

深网,即深层网站(英语:Deep web),是指不能被标准搜索引擎索引的万维网内容。与深网相反的术语是表网,任何人都可以使用互联网访问。

深网可以直接通过的URLIP地址访问,但可能需要输入密码或其他安全信息才能访问实际内容[1][2]。这类网站用途包括网络邮件网络银行、限制访问的社交媒体页面和资料以及用户必须付费的服务,如视频点播、网络杂志和报纸等。

名词

编辑

2009年,深网与暗网这两个名词首度被混为一谈,当时讨论了深网概念以及自由网黑暗网络上发生的非法活动[3]。这些犯罪活动包括个人密码、造假身份证件、毒品、枪支和儿童色情交易[4]

从那时起,在媒体报导丝绸之路之后,媒体开始使用深网作为黑暗网站黑暗网络的同义词,导致了长期的混乱[5][6]Wired记者Kim Zetter和Andy Greenberg建议使用不同的方式使用这些术语。虽然深网是指无法利用传统搜索引擎访问的任何网站,但暗网只是深网的一部分,被刻意隐藏并且无法利用一般浏览器和方法进入[7][8][9][10][11]

命名

编辑

伯格曼在The Journal of Electronic Publishing上发表一篇关于深网的重大论文中提到,吉尔.艾尔斯沃夫曾经使用“隐形网”这一术语表示那些没有被任何搜索引擎索引注册的网站[12]。伯格曼还引用法兰克·加西亚在1996年1月的一篇文章[13]

这些网站可能已经被合理地设计出来了,但是他们却没有被任何搜索引擎编列索引,以至于事实上没有人能找到他们。我可以这样对这些不可见的网站说,你们是隐藏了的。我称之为隐形网。

早期另一个使用“隐形网”这一术语的是一家叫做“个人图书馆软件”公司的布鲁斯·芒特和马修·B·科尔,当他们公司在1996年12月推出和发行的一款软件时,他们对深网工具的有过这样的一番描述。[14]

现在普遍接受的深网这一特定术语首次使用在2001年伯格曼的研究中[12]。2001年,计算机科学家迈克尔·伯格曼将当今万维网上的搜索服务比喻为像在地球的海洋表面的拉起一个大网的搜索,巨量的表面信息固然可以通过这种方式被查找得到,可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分这些隐藏的信息是须通过动态请求产生的网页信息,而标准的搜索引擎却无法对其进行查找。传统的搜索引擎“看”不到,也获取不了这些存在于深网的内容,除非通过特定的搜查这些页面才会动态产生。于是相对的,深网就隐藏了起来。据估计,深网要比表网大几个数量级[12]

深网资源

编辑

防止网页被传统搜索引擎索引的方法可以被分类为以下一个或多个:

  1. 被限制访问的内容:以技术方式限制访问其网页的网站,例如Robots.txtCAPTCHAs或是禁止搜索引擎建立缓存[15]
  2. 非HTML或文本的内容:图像或影片等多媒体或是特定文件格式无法被搜索引擎处理。
  3. 私人网站:需要注册或是登录的网站。
  4. 软件:某些内容刻意隐藏在一般的网络上,只能使用特殊软件如TorI2P或其他程序访问。例如Tor让用户匿名访问.onion网址的网站,以隐藏他们的IP地址。
  5. 未被链接的内容:未被其他网站链接或很少链接的网页,这可能防止被网络爬虫访问。
  6. 网站文件管理库网站时光机这类网站内容的网页无法被搜索引擎编入索引[16]

抓取深网内容

编辑

研究人员探寻了如何自动抓取深网内容。

2001年,斯利拉姆·拉格哈瓦(Sriram Raghavan)和赫克托·加西亚·莫利纳(Hector Garcia-Molina)[17][18]发明了一个从用户请求界面表格收集关键词的深网抓取模型并且抓取深网资源。加利福尼亚大学洛杉矶分校的Alexandros Ntoulas、Petros Zerfos和Junghoo Cho创建了一个自动生成有意义的查询词的程序。[19]

商业搜索引擎已经开始使用以上两种方法之一抓取深网。Sitemap协议(由Google于2005年首次开发并由Google引入)和mod oai是允许搜索引擎和其他网络服务探索深网解决方法。以上两种解决方法允许网络服务主动公布网址,这对于他们来说是容易的,因而允许自动探寻资源而不直接通过网络表面的链接。Google的深网探寻系统预先计算每个HTML表单并且添加结果HTML页面到Google搜索引擎索引。在这个系统里,使用三种方法计算提交词:

  1. 为输入搜索选择关键词允许的输入值,
  2. 确定是否只接受特定的值(例如时间),以及
  3. 选择少量的组合生成适合纳入网站的搜索索引网址。

2008年,为了方便Tor隐藏服务的用户访问和搜索隐藏的.onion网域,亚伦·斯沃茨设计了Tor2web—一个能够利用普通浏览器访问的代理应用程序[20]

参见

编辑

参考资源

编辑
  1. ^ Madhavan, J., Ko, D., Kot, Ł., Ganapathy, V., Rasmussen, A., & Halevy, A. (2008). Google's deep web crawl. Proceedings of the VLDB Endowment, 1(2), 1241–52.
  2. ^ Shedden, Sam. How Do You Want Me to Do It? Does It Have to Look like an Accident? – an Assassin Selling a Hit on the Net; Revealed Inside the Deep Web. Sunday Mail. June 8, 2014. (原始内容存档于March 1, 2020). 
  3. ^ Beckett, Andy. The dark side of the internet. November 26, 2009 [August 9, 2015]. (原始内容存档于2020-02-26). 
  4. ^ D. Day. Easiest Catch: Don't Be Another Fish in the Dark Net. Wake Forest University: TEDx Talks. (原始内容存档于November 13, 2021). 
  5. ^ Clearing Up Confusion – Deep Web vs. Dark Web. BrightPlanet. March 27, 2014 [2022-07-03]. (原始内容存档于2015-05-16). 
  6. ^ Solomon, Jane. The Deep Web vs. The Dark Web. May 6, 2015 [May 26, 2015]. (原始内容存档于2017-08-14). 
  7. ^ The Impact of the Dark Web on Internet Governance and Cyber Security (PDF). January 20, 2014 [January 15, 2017]. (原始内容 (PDF)存档于2017-01-16). 
  8. ^ Lam, Kwok-Yan; Chi, Chi-Hung; Qing, Sihan. Information and Communications Security: 18th International Conference, ICICS 2016, Singapore, Singapore, November 29 – December 2, 2016, Proceedings. Springer. November 23, 2016 [January 15, 2017]. ISBN 9783319500119. (原始内容存档于2022-03-20) (英语). 
  9. ^ The Deep Web vs. The Dark Web | Dictionary.com Blog. Dictionary Blog. May 6, 2015 [January 15, 2017]. (原始内容存档于2017-08-14). 
  10. ^ Akhgar, Babak; Bayerl, P. Saskia; Sampson, Fraser. Open Source Intelligence Investigation: From Strategy to Implementation. Springer. January 1, 2017 [January 15, 2017]. ISBN 9783319476711. (原始内容存档于2022-03-19) (英语). 
  11. ^ What is the dark web and who uses it?. The Globe and Mail. [January 15, 2017]. (原始内容存档于2017-07-21). 
  12. ^ 12.0 12.1 12.2 Bergman, Michael K. The Deep Web: Surfacing Hidden Value. The Journal of Electronic Publishing. August 2001, 7 (1) [2009-02-24]. (原始内容存档于2011-04-10). . According to that paper, the study was originally published on July 26, 2000, with data then updated to 2001.
  13. ^ Garcia, Frank (January 1996). "Business and Marketing on the Internet". Masthead 9 (1). (Citation from Flynn-Burhoe, Maureen (19 December 2006). "The Ultimate Guide to the Invisible Web页面存档备份,存于互联网档案馆)". oceanflynn @ Digg.) (Electronic copy archived by the Internet Archive.)
  14. ^ Personal Library Software (Dec 1996). "PLS introduces AT1, the first 'second generation' Internet search service". (Archived by the Internet Archive.)
  15. ^ Hypertext Transfer Protocol (HTTP/1.1): Caching. Internet Engineering Task Force. 2014 [2014-07-30]. (原始内容存档于2017-05-13). 
  16. ^ Wiener-Bronner, Danielle. NASA is indexing the 'Deep Web' to show mankind what Google won't. Fusion. June 10, 2015 [June 27, 2015]. (原始内容存档于2015-06-30). There are other simpler versions of Memex already available. "If you've ever used the Internet Archive's Wayback Machine", which gives you past versions of a website not accessible through Google, then you've technically searched the Deep Web, said Chris Mattmann. 
  17. ^ Sriram Raghavan; Hector Garcia-Molina. Crawling the Hidden Web (PDF). Stanford Digital Libraries Technical Report. 2000 [2008-12-27]. (原始内容存档 (PDF)于2018-05-08). 
  18. ^ Raghavan, Sriram; Garcia-Molina, Hector. Crawling the Hidden Web (PDF). Proceedings of the 27th International Conference on Very Large Data Bases (VLDB): 129–138. 2001 [2009-07-14]. (原始内容存档 (PDF)于2019-07-28). 
  19. ^ Alexandros, Ntoulas; Petros Zerfos, and Junghoo Cho. Downloading Hidden Web Content (PDF). UCLA Computer Science. 2005 [2009-02-24]. (原始内容存档 (PDF)于2020-06-05). 
  20. ^ Aaron, Swartz. In Defense of Anonymity. [February 4, 2014]. (原始内容存档于2018-10-31).