タグ「Java」が付けられているもの

RunNutchInEclipseInMac1.0

http://developer.apple.com/java/
によると、Mac OS X 10.4ではオフィシャルなJava1.6が提供されていない。
が、Nutch1.0はJava1.5だとコンパイルが通らないので
(IOExceptionのコンストラクタの引数が違うと怒られる)
SoyLatte - Port of BSD Javaをインストールしておく。
Eclipseはバージョン3.5(GALILEO)を利用。
Preferences > Java > InstalledJREs、CompilerでJava1.6を指定する。

あとはRunNutchInEclipse1.0 - Nutch Wikiの手順に沿って進める。
nutch-default.xmlの中でhttp.agent.nameの設定は必須。
crawl-urlfilter.txtでMY.DOMAIN.NAMEはクローリング対象のドメインに書き換えること。

csvをsplit関数でパースしようとすると、行によって要素数がまちまち。
javadocを調べると、区切り文字だけ指定するsplit関数では
末尾の空要素を省略した配列を返すということが判明。
省略させたくない場合は、split関数の第二引数に-1を指定すればよい。
String (Java 2 プラットフォーム SE v1.4.0)

例)
$ cat SplitTest.java
import java.io.*;
class SplitTest {
public static void main (String[] args) {
System.out.println("1,,3".split(",").length);
System.out.println("1,,".split(",").length);
System.out.println("1,,".split(",", -1).length);
}
}
$ javac SplitTest.java
$ java SplitTest
3
1
3

参考
split の研究 - bkブログ