2020/08/02

curl、wget、httrack、w3mの特徴について

LinuxコマンドラインからWebサイトの情報を得るときに使うコマンドの特徴を簡単に説明します。

まず、標準出力に情報を表示させる場合にはcurlが便利です。
もちろんwgetでもできますが、curlの方がひと手間少ないです。
通常はcurlは標準でインストールされていないと思います。
次のようにインストールします。

$ sudo apt update
$ sudo apt install curl

典型的な使い方は次のとおりです。

$ curl [リモートURL]

サポートしているプロトコル、HTTP認証などはcurlの方が多いため、curlの方が高機能と言えると思います。

wgetは、GNUプロジェクトに含まれ、ライセンスGPLv3+で提供され、通常は標準でインストールされています。
リモートURLで指定したファイルをダウンロードする際によく使われます。

$ wget [リモートURL]

curlのように標準出力に表示させる場合は次のようにしますが、この用途ではやはりcurlの方が便利です。

$ wget -O - [リモートURL]

wgetで特徴的なのは、再帰的なダウンロードであると言われていて、これはcurlではできません。
Webページをローカルに、再帰的にリンクをたどってダウンロードすることができます。

$ wget -r [リモートURL]

同様な再帰的なダウンロードではhttrackも便利だったと思いますので、興味があれば次のようにインストールして試してみてください。
wgetより取りこぼしが少ないと言われています。

$ sudo apt update
$ sudo apt install httrack

またHTMLコードを簡単に確認したい場合、w3mも便利です。
これはテキストベースのブラウザであり、次のようにインストールします。

$ sudo apt update
$ sudo apt install w3m

使い方は、まず次のようにして、リモートURLで示したページをテキストベースで表示させます。

$ w3m [リモートURL]

この状態で情報が画面に収まらなかった場合、スペースキーや上下矢印キーなどでスクロールさせることができ、tabキーとenterキーを使ってリンクをたどることができます。
そしてvを押下するとHTMLコードのソース表示となり、再度vキーを押すと元に戻ります。

<環境>
・chromebookのLinux(ベータ版)環境
Chromebook 311 / C721-N14N / Acer
Chrome OS バージョン: 84.0.4147.94(Official Build) (64 ビット)
chromebookのLinux(ベータ版)環境 / Debian 9: 9.12 (Stretch)
・crouton環境
Chromebook 11 / C740-F34N / Acer
Chrome OS バージョン: 84.0.4147.94(Official Build) (64 ビット)
crouton環境 / Ubuntu 18.04.4 LTS (Bionic Beaver)


0 件のコメント:

コメントを投稿