互联网档案馆

美國非營利組織

互联网档案馆(英語:Internet Archive)是美国的一個由Alexa创始人布鲁斯特·卡利创办于1996年的非營利性的、提供互联网多媒体资料档案阅览服务數位圖書館,总部位于加利福尼亚州旧金山的列治文区,其使命是“普及所有知识”(英語:universal access to all knowledge.[註 1][註 2]。该“档案馆”提供的数字资料有如网站、网页、图形材料音乐、视频、音频、软件、动态图像和数百万书籍等的永久性免费储存及获取的副本。 迄至2021年2月,其儲存了6250 億個網頁、3800萬本書和文本、1400 萬個錄音(包括 240,000 場現場音樂會)、700 萬個視頻(包括 200 萬個電視新聞節目)、400 萬張圖片 、790,000 個軟件程序。[5]除此之外,該檔案館也是網絡開放與自由化的倡議者之一。

互联网档案馆
Internet Archive
Internet Archive logo and wordmark.svg
Early screenshots from the Internet archive.jpg
互联网档案馆1997年1月26日的早期样式
公司类型501(c)条款非營利组织
网站类型
數位圖書館
语言英語
成立1996年5月12日,​26年前​(1996-05-12[1][2]
總部美國加利福尼亞州舊金山列治文区
37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W / 37.80000; -122.46028坐标37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W / 37.80000; -122.46028
创始人布魯斯特·卡利
服务存档、開放圖書館互聯網檔案館(2001年起)、网络标签、NASA图片、普林格档案英语Prelinger Archives
员工200
网址archive.org
http://archivebyd3rzt3ehjpm4c3bjky
xv3hjleiytnvxcn7x32psn2kxcuid.onion
Tor network (如何访问)[3]
推出时间1996年 (1996)
旧“互联网档案馆”总部(1996年 - 2009年11月)
新“互联网档案馆”总部(2009年11月 - )

数据来源编辑

该档案馆的數據是由自帶的網絡爬蟲自動搜集的,網站時光機抓取了超過1500億的網頁[6][7]

资金情况编辑

年度預算約为1000萬美元,來源則是其網頁爬蟲服務、合作關係、贊助以及卡利-奧斯丁基金會[8]。總部僱員只有數十人,大部份僱員工作於書籍掃描中心,在紅木城也有數據中心。

数据库编辑

档案馆的數據庫是國際網際網路保留協會英语International Internet Preservation Consortium成員[9],2007年被加利福尼亞州選為官方指定圖書館[10]。档案馆收集的数据是各种各样的。截止2015年年初,互联网档案馆共收录了2400款MS-DOS游戏[11]

歷史编辑

1996年,卡利(Brewster Kahle)在創建盈利性的Alexa Internet的同時也創立了互联网檔案館;同年10月開始收集儲存數據[12][13]。不過,直到2001年開發了「時光機」前,這些數據都無法存取。1999年末擴展收集範圍[14]

2012年8月,宣布[15]將在其現存的130萬檔案的下載選項中加入BitTorrent[16][17]。因為通過兩個檔案數據中心協調,這成為從該檔案館下載數據的最快方法[16][18]

2013年11月6日,檔案館在里奇蒙德區的總部失火,損壞了許多設備和一些附近的公寓[19][20],預計損失達到60萬美元[21]

网页存档编辑

时光机编辑

网站时光机是互联网档案馆最重要的服务之一,其名取自一部名为The Rocky and Bullwinkle Show英语The Rocky and Bullwinkle Show的美国卡通片。时光机允许人们去搜索和访问其网页存档。在一些国家和地区,时光机这个术语的使用已经非常普遍,“时光机”和“互联网档案馆”甚至开始被当做同义词使用。

 
互联网档案馆增量采购的存储盘
年份 存档页面的数量(亿)
2005 40[22]
2006 85[23]
2007 85[24]
2008 85[25]
2009 150[26]
2010 150[27]
2011 150[28]
2012 150[29]
2013 373[30]
2014 430[31]
2015 479[32]
2016 510[A][33]

273[B][34]

2017 286[35]
2018 344[36]
A 使用了2016年10月以前的旧版计数系统
B 使用了2016年10月以后的新版计数系统

Archive-It编辑

创始人布魯斯特·卡利正在谈论Archive-It

Archive-it是一款帮助机构和个人建立存档的工具。一旦目标网站的URL被输入并保存且该网站允许互联网档案馆所使用的robots.txt访问,该网页将会成为时光机的一部分。[37]截至2014年3月 (2014-03),Archive-it在美国的46个州和其他16个国家共有超过275个机构是其合作伙伴,共有超过74亿个网页的在线存档。

收集书目编辑

 
互联网档案馆的“抄写员”图书扫描工作站

互联网档案馆收集了世界各地的数字化图书以及各大图书馆和文化遗产机构的特殊藏品。互联网档案馆在5个国家经营着33个圖書掃描中心,其活动受图书馆和基金会的财政支持。[38][39]截至2013年7月 (2013-07),档案馆共收集了440万本书,每月的下载量超过1500万。[38]截至2008年11月 (2008-11),档案馆共有100万个网络文本,总大小高达0.5PB,涵盖了原始照相图像、裁剪和歪斜的图像、PDF文件和原始OCR数据。[40]

各语言的文本数编辑

1 语言 英语 法语 德语 西班牙语 汉语 阿拉伯语
文本数(2015年11月27日) 6,553,945[41] 358,721[42] 344,810[43] 134,170[44] 84,147[45] 66,786[46]
2 语言 荷蘭語 葡萄牙語 俄语 乌尔都语 日语 合计(2016年10月30日)
文本数(2015年11月27日) 30,237[47] 25,938[48] 22,731[49] 14,978[50] 14,795[51] 10,612,003[52]

各个年代的文本数编辑

1 年代 1800年代 1810年代 1820年代 1830年代 1840年代 1850年代
文本数

(2015年11月27日)

39,842[53] 51,151[54] 79,476[55] 105,021[56] 127,649[57] 180,950[58]
2 年代 1860年代 1870年代 1880年代 1890年代 1900年代 1910年代
文本数

(2015年11月27日)

210,574[59] 214,505[60] 285,984[61] 370,726[62] 504,000[63] 455,539[64]
3 年代 1920年代 1930年代 1940年代 1950年代 1960年代 1970年代
文本数

(2015年11月27日)

185,876[65] 70,190[66] 85,062[67] 81,192[68] 125,977[69] 206,870[70]
4 年代 1980年代 1990年代 2000年代 2010年代
文本数

(2015年11月27日)

181,129[71] 272,848[72] 579,905[73] 855,253[74]

影像资料编辑

 
读卡器
 
互联网档案馆的缩微胶片
 
互联网档案馆的录影带

除了上述内容之外,互联网档案库还收集了大量的数字媒体,这些数字媒体均符合美国公共领域CC授权协议。这些媒体文件均会根据媒体类型(moving images、audio、text、etc.)被组织成集合,并根据各项标准被分入子集合。例如大都會藝術博物館提供的相关资料就会被分入一个子集,目前该集合相关资料的数量已经超过了140,000个[75]。每个主集合都含有一个“社区”子集合(以前被称为“开源”)用于存储公众的贡献。

音频收藏编辑

音频档案包括音乐,有声读物,新闻广播,旧时广播的节目和各种其他音频文件。该系列中有超过200,000个免费数字录音。子集包括有声读物和诗歌,播客,[76]非英语音频等。[77]

Live Music Archive子集包括来自独立音乐家的超过170,000个音乐会录音,以及更为成熟的艺术家和音乐合奏,以及关于录制他们的音乐会的宽松规则,例如Grateful Dead,以及最近的The Smashing Pumpkins。此外,Jordan Zevon还允许互联网档案馆收藏他父亲Warren Zevon的音乐会录音。Zevon系列从1976年至2001年不等,包含126场音乐会,包括1,137首歌曲。[78]

布鲁克林博物馆编辑

此系列包含大约3,000件布鲁克林博物馆的物品。[79]

镜像網站编辑

宕機或資料庫出錯時,可於新亞歷山大圖書館鏡像網站查詢1996至2007年的備份資料[80]

註釋编辑

  1. ^ Internet Archive Frequently Asked Questions. Internet Archive. [2013-04-13]. (原始内容存档于2009-10-21). 
  2. ^ Internet Archive: Universal Access to all Knowledge. Internet Archive. [2013-04-13]. (原始内容存档于2013-03-10). 

参考文献编辑

  1. ^ Internet Archive: About the Archive. Wayback Machine. 2000-04-08 [2016-03-13]. (原始内容存档于2000-04-08). 
  2. ^ archive.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. (原始内容存档于2018-11-05). 
  3. ^ Internet Archive: Offline Archive. archive.org. [2019-11-22]. (原始内容存档于2019-10-29). 
  4. ^ archive.org Site Info. Alexa Internet. [2018年11月13日]. (原始内容存档于2018年11月13日). 
  5. ^ Internet Archive: About IA. archive.org. [2022-02-23]. 
  6. ^ Internet Archive: Projects. Internet Archive. [2013-03-06]. (原始内容存档于2013-03-01). 
  7. ^ Grotke, A. (2011). Web Archiving at the Library of Congress. Computers In Libraries, 31 no. 10 (December 2011), p. 15-19.
  8. ^ Womack, David. Who Owns History?. Cabinet Magazine. No. 10. Spring 2003 [2013-04-13]. (原始内容存档于2013-03-19). 
  9. ^ "Members" International Internet Preservation Consortium. Netpreserve.org
  10. ^ "Internet Archive officially a library"页面存档备份,存于互联网档案馆), May 2, 2007. Archive.org
  11. ^ Internet Archive 放大招,2400 款 MS-DOS 游戏任你玩. ifanr爱范儿. 2015-01-07 [2017-01-29]. (原始内容存档于2017-02-02). 
  12. ^ Wortham, Jenna. How an Archive of the Internet Could Change History. The New York Times. 2016-06-21. ISSN 0362-4331. (原始内容存档于2022-06-26) (美国英语). 
  13. ^ Internet Archive: In the Collections. Wayback Machine. 2000-06-06 [2016-03-15]. (原始内容存档于2000-06-06). 
  14. ^ "Daisy Books for the Print Disabled"页面存档备份,存于互联网档案馆), February 25, 2013. Internet Archive.
  15. ^ Kahle, Brewster (August 7, 2012). "Over 1,000,000 Torrents of Downloadable Books, Music, and Movies"页面存档备份,存于互联网档案馆). Internet Archive Blogs.
  16. ^ 16.0 16.1 Van der Sar, Ernesto. Internet Archive Starts Seeding 1,398,875 Torrents. TorrentFreak英语TorrentFreak. 2012-08-07 [2014-03-21]. (原始内容存档于2012-08-08). 
  17. ^ "Hot List for bt1.us.archive.org (Updated August 7 2012, 7:31 pm PDT)"页面存档备份,存于互联网档案馆). US Cluster. Internet Archive.
  18. ^ "Welcome to Archive torrents"页面存档备份,存于互联网档案馆). Internet Archive.
  19. ^ Alexander, Kurtis. Internet Archive's S.F. office damaged in fire. San Francisco Chronicle. 2013-11-06 [2014-03-21]. (原始内容存档于2013-12-12). 
  20. ^ Fire Update: Lost Many Cameras, 20 Boxes. No One Hurt. Internet Archive Blogs. 2013-11-06 [2014-03-21]. (原始内容存档于2014-03-14). 
  21. ^ Shu, Catherine. Internet Archive Seeking Donations To Rebuild Its Fire-Damaged Scanning Center. TechCrunch. 2013-11-06 [2014-03-21]. (原始内容存档于2014-03-17). 
  22. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2005-12-31). 
  23. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2006-12-28). 
  24. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2007-12-28). 
  25. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2008-12-24). 
  26. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2009-12-20). 
  27. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2010-12-30). 
  28. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2011-08-30). 
  29. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2002-10-14). 
  30. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2013-12-31). 
  31. ^ 430 Billion Web Pages Saved. ... Help Us Do More! | Internet Archive Blogs. blog.archive.org. [2018-06-10]. (原始内容存档于2018-07-07) (美国英语). 
  32. ^ Internet Archive. Internet Archive. [2018-12-09]. (原始内容存档于2015-05-31). 
  33. ^ Internet Archive. Internet Archive. [2018-12-09]. (原始内容存档于2016-09-30). 
  34. ^ Goel, Vinay. Defining Web pages, Web sites and Web captures. Internet Archive. 2016-10-23 [2018-12-09]. (原始内容存档于2018-12-09). 
  35. ^ Internet Archive. Internet Archive. [2018-12-09]. (原始内容存档于2017-06-01). 
  36. ^ Internet Archive. Internet Archive. [2018-12-09]. (原始内容存档于2018-12-09). 
  37. ^ Rossi, Alexis. Fixing Broken Links on the Internet. Internet Archive. 2013-10-25 [2013-12-29]. (原始内容存档于2013-12-16). 
  38. ^ 38.0 38.1 Hoffelder, Nate (July 9, 2013). "Internet Archive Now Hosts 4.4 Million eBooks, Sees 15 Million eBooks Downloaded Each Month"页面存档备份,存于互联网档案馆). The Digital Reader.
  39. ^ Kahle, Brewster (May 23, 2008). "Books Scanning to be Publicly Funded"页面存档备份,存于互联网档案馆). Internet Archive Forums.
  40. ^ "Bulk Access to OCR for 1 Million Books" Archived 2012-11-28 at WebCite. Open Library Blog. November 24, 2008.
  41. ^ Internet Archive Search : (language:eng OR language:"English"). Internet Archive. [2015-11-27]. (原始内容存档于2016-04-15). 
  42. ^ Internet Archive Search : (language:fre OR language:"French"). Internet Archive. [2015-11-27]. (原始内容存档于2016-03-17). 
  43. ^ Internet Archive Search : (language:ger OR language:"German"). Internet Archive. [2015-11-27]. (原始内容存档于2016-01-14). 
  44. ^ Internet Archive Search : (language:spa OR language:"Spanish"). Internet Archive. [2015-11-27]. (原始内容存档于2016-04-08). 
  45. ^ Internet Archive Search : (language:Chinese OR language:"chi") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-08). 
  46. ^ Internet Archive Search : (language:ara OR language:"Arabic"). Internet Archive. [2015-11-27]. (原始内容存档于2016-03-22). 
  47. ^ Internet Archive Search : (language:Dutch OR language:"dut") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-08). 
  48. ^ Internet Archive Search : (language:Portuguese OR language:"por") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-15). 
  49. ^ Internet Archive Search : (language:rus OR language:"Russian") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-19). 
  50. ^ Internet Archive Search : (language:urd OR language:"Urdu") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-15). 
  51. ^ Internet Archive Search : (language:Japanese OR language:"jpn") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-08). 
  52. ^ Internet Archive Search : mediatype:texts. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-05). 
  53. ^ Internet Archive Search : mediatype:texts AND date:[1800-01-01 TO 1809-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-09). 
  54. ^ Internet Archive Search : mediatype:texts AND date:[1810-01-01 TO 1819-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-26). 
  55. ^ Internet Archive Search : mediatype:texts AND date:[1820-01-01 TO 1829-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-15). 
  56. ^ Internet Archive Search : mediatype:texts AND date:[1830-01-01 TO 1839-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-09). 
  57. ^ Internet Archive Search : mediatype:texts AND date:[1840-01-01 TO 1849-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-26). 
  58. ^ Internet Archive Search : mediatype:texts AND date:[1850-01-01 TO 1859-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-17). 
  59. ^ Internet Archive Search : mediatype:texts AND date:[1860-01-01 TO 1869-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-13). 
  60. ^ Internet Archive Search : mediatype:texts AND date:[1870-01-01 TO 1879-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-15). 
  61. ^ Internet Archive Search : mediatype:texts AND date:[1880-01-01 TO 1889-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-16). 
  62. ^ Internet Archive Search : mediatype:texts AND date:[1890-01-01 TO 1899-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-11). 
  63. ^ Internet Archive Search : mediatype:texts AND date:[1900-01-01 TO 1909-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-18). 
  64. ^ Internet Archive Search : mediatype:texts AND date:[1910-01-01 TO 1919-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-19). 
  65. ^ Internet Archive Search : mediatype:texts AND date:[1920-01-01 TO 1929-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-09). 
  66. ^ Internet Archive Search : mediatype:texts AND date:[1930-01-01 TO 1939-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-09). 
  67. ^ Internet Archive Search : mediatype:texts AND date:[1940-01-01 TO 1949-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-26). 
  68. ^ Internet Archive Search : mediatype:texts AND date:[1950-01-01 TO 1959-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-16). 
  69. ^ Internet Archive Search : mediatype:texts AND date:[1960-01-01 TO 1969-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-15). 
  70. ^ Internet Archive Search : mediatype:texts AND date:[1970-01-01 TO 1979-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-09). 
  71. ^ Internet Archive Search : mediatype:texts AND date:[1980-01-01 TO 1989-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-09). 
  72. ^ Internet Archive Search : mediatype:texts AND date:[1990-01-01 TO 1999-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-11). 
  73. ^ Internet Archive Search : mediatype:texts AND date:[2000-01-01 TO 2009-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-26). 
  74. ^ Internet Archive Search : mediatype:texts AND date:[2010-01-01 TO 2015-11-27]. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-09). 
  75. ^ Metropolitan Museum of Art - Gallery Images: Free Image : Download & Streaming : Internet Archive. Internet Archive. [2014-12-04]. (原始内容存档于2015-01-03). 
  76. ^ How to Host Podcast MP3 on Archive.org. TurboFuture. [2019-02-25]. (原始内容存档于2017-08-04) (英语). 
  77. ^ Download & Streaming : Audio Archive : Internet Archive. archive.org. [2019-02-25]. (原始内容存档于2019-02-24) (英语). 
  78. ^ Clarke, John. Warren Zevon Live Shows Hit the Web, Possible Film in the Works. Rolling Stone. 2009-06-03 [2019-02-25]. (原始内容存档于2019-02-26) (美国英语). 
  79. ^ Brooklyn Museum : Free Image : Free Download, Borrow and Streaming : Internet Archive. archive.org. [2019-02-25]. (原始内容存档于2019-02-24) (英语). 
  80. ^ International School of Information Science (ISIS). www.bibalex.org. International School of Information Science. [2016-10-30]. (原始内容存档于2016-10-31). 

延伸阅读编辑

外部連結编辑

参见编辑