从archive下载网站（Xshell、virmach）

从archive下载网站有三种方法：

一、wayback-machine-downloader

一个Ruby语言写的小工具，可以从archive网站下载任何网站，开源，免费，强烈推荐！

二、warrick

三、Wayback downloader

收费的，$15一个网站。

四、archivarix

这个我也用了，它还有一个Archivarix CMS，介绍挺不错的。

在他们网站提取200个以下的文件是免费的，超过200个文件要收费，我试了一下，不过提取一个70多个文件的网站非常慢。而且不知道什么原因，提取到的网站没有图片。

五、waybackmachinedownloader

也是收费的，一个网站$15，具体没有测试了。

最后自己选了wayback-machine-downloader ,下面是详细的安装过程：

A step by step help for windows users (win8.1 64bit for me) new to Ruby, here is what I did to make it works :

一)安装ruby

到rubyinstaller.org/downloads 下载rubyinstaller-2.3.3-x64.exe安装文件，然后安装。

二)下载 wayback-machine-downloader

下载wayback-machine-downloader，下载地址：github.com/hartator/wayback-machine-downloader/archive/… ，然后解压缩。

三)安装wayback-machine-downloader

在开始菜单搜索"Start command prompt with Ruby"这个启动项目，然后打开命令行窗口。执行以下命令

gem install wayback_machine_downloader

四)下载网站
在命令行中输入以下命令，开始下载网站。

wayback_machine_downloader https://seotoolsaccess.com

不过，我第一次使用的时候就碰到以下的错误提示：

Getting snapshot pagesC:/Ruby23-x64/lib/ruby/2.3.0/net/http.rb:882:in `rescue in
block in connect': Failed to open TCP connection to web.archive.org:80 (A conne
ction attempt failed because the connected party did not properly respond after
a period of time, or established connection failed because connected host has fa
iled to respond. - connect(2) for "web.archive.org" port 80) (Errno::ETIMEDOUT)

真晕啊，好像是因为墙，archive.com在国内访问不了的缘故，所以这脚本在国内根本用不了。

没办法，只能用其它办法，想到之前自己花$9买的virmach VPS还一直没有使用呢，配置如下：

就用这个吧！

Updated on Jan-20-2019:

还是不要用这个下载网站了，速度太慢了，根本受不了！最后改用linode2，即尾号为113的vps.

（一）连接VPS
以前没用过Xshell，今天特意试用了一下，在自己经常混的一个论坛找到了坛友提供的绿色版本，一连接就连接成功了。
不过不得不说的是，这么便宜的VPS，那速度是非常慢，输入一条命令都不顺畅，

（二）执行以下代码：

apt-get install ruby
gem install wayback_machine_downloader
wayback_machine_downloader https://seotoolsaccess.com

如果你要压缩文件夹，可以使用以下命令：

#压缩文件夹
tar zcvf FileName.tar.gz DirName

如果你要下载指定日期的数据，可以使用：

wayback_machine_downloader https://acrepairvannuys.net --from 20170711190606 --to 20180410120203

#复制数据
cp -ri /home/websites/acrepairvannuys.net/* /home/wwwroot/www.acrepairvannuys.net/

小提示：
1.你在哪下文件夹下面执行上面的命令，就会在当前文件夹下面生成一个叫websites的文件夹，里面有你的域名命名的文件夹，里面就是下载的数据。

2.用不同的日期可以得到不同的结果，我测试了一下三个日期，分别下载到了6个网页、42个网页、244个网页（不限定日期）。

3.下载的网站在本地无法正常显示，因为css文件调用的原因，所以必须传到网站才能显示效果。

（三）下载网站
打开Sftp.exe，输入ssh登陆的账号，密码就可以连接到VPS。

（四）预览效果
打开下载的网站，可以看到效果。除了部分代码有问题，其他一切显示正常。

（五）下载单个文件
我使用以下的命令

wayback_machine_downloader http://www.charteroakstatecollege.org/Charter-Oak-State-College-bookstore-hours.php --exact-url

结果输出成这样了：

1 files to download:
http://charteroakstatecollege.org/Charter-Oak-State-College-bookstore-hours.php/ -> websites/www.charteroakstatecollege.org/Charter-Oak-State-College-bookstore-hours.php/index.html (1/1)

参考：https://segmentfault.com/q/1010000008986220

官方的使用教程在这儿

蜗牛之路

最新

从archive下载网站（Xshell、virmach）

暧昧帖

发表评论点击这里取消回复。

最新

推荐

暧昧帖

发表评论 点击这里取消回复。

发表评论点击这里取消回复。