きっかけは、巨大なテキスト ファイルの加工でした。
ある日、正規表現をテストする際の大規模サンプルとして、国立研究開発法人情報通信研究機構が CC ライセンスで公開している XML 形式の対訳コーパスを取り込もうと思い立ちました。
ファイル数が多いので、ちまちま加工していられません。スクリプトを書く気にもならず、コマンド プロンプトで全部連結してから加工することにしました。そしたら、タグも含めて 3 億文字超えのファイルになってしまいました。
昔使ったことのある Sakura Editor を思い出し、早速インストール。3 億文字の XML を開くのに 10 秒未満。しかも、軽快にスクロールできます。正規表現での TSV 化加工でも、私が頭をひねる時間を除けば、実質 30 秒くらい。開発者すげーな。50 万文字とかの大きめの案件のチェックや加工なら一瞬です。
もちろん、探せば他にも同等の性能を持つエディタがあると思います。乗り換えを進めているのではなく、大きなファイルの加工で困っている方には役立つかなぁと思って紹介してみました。
ソースも公開しているフリー ソフトウェアですが、コードの著作権は放棄していないようです。正規表現は perl 互換 (Onigmo) です。
Sakura Editor ダウンロード ページ
0 件のコメント:
コメントを投稿