網頁抓取
此條目沒有列出任何參考或來源。 (2016年3月15日) |
網頁抓取(英語:web scraping)是一種從網頁上取得頁面內容的電腦軟體技術。通常透過軟體使用低階別的超文字傳輸協定模仿人類的正常訪問。
網頁抓取和網頁索引極其相似,其中網頁索引指的是大多數搜尋引擎採用使用的機器人或網路爬蟲等技術。與此相反,網頁抓取更側重於轉換網路上非結構化資料(常見的是HTML格式)成為能在一個中央資料庫和電子試算表中儲存和分析的結構化資料。網頁抓取也涉及到網路自動化,它利用電腦軟體類比了人的瀏覽。網頁抓取的用途包括線上的價格比較,聯絡人抓取,氣象資料監測,網頁變化檢測,科研,混搭和Web資料整合。
技術層面
編輯網路抓取用於自動化取得全球資訊網上的資訊
- 人工複製與貼上:最好的網頁抓取技術也比不上人類的手工複製與貼上,尤其是在某些網站採取技術手段禁止自動化網頁抓取的情況下,人工的複製與貼上就成了唯一的解決方案。