2017年5月19日金曜日

最近のお気に入りエディタ - Sakura Editor

さまざまなエディタを渡り歩いてきましたが、最近は Sakura Editor を使用しています。かなり昔 (20 年前くらい) から開発が続けられているらしいです。

きっかけは、巨大なテキスト ファイルの加工でした。

ある日、正規表現をテストする際の大規模サンプルとして、国立研究開発法人情報通信研究機構が CC ライセンスで公開している XML 形式の対訳コーパスを取り込もうと思い立ちました。

ファイル数が多いので、ちまちま加工していられません。スクリプトを書く気にもならず、コマンド プロンプトで全部連結してから加工することにしました。そしたら、タグも含めて 3 億文字超えのファイルになってしまいました。


インストール済みのエディタでは開くこともままなりません。運よく開けても、加工が遅すぎます。

昔使ったことのある Sakura Editor を思い出し、早速インストール。3 億文字の XML を開くのに 10 秒未満。しかも、軽快にスクロールできます。正規表現での TSV 化加工でも、私が頭をひねる時間を除けば、実質 30 秒くらい。開発者すげーな。50 万文字とかの大きめの案件のチェックや加工なら一瞬です。

もちろん、探せば他にも同等の性能を持つエディタがあると思います。乗り換えを進めているのではなく、大きなファイルの加工で困っている方には役立つかなぁと思って紹介してみました。

ソースも公開しているフリー ソフトウェアですが、コードの著作権は放棄していないようです。正規表現は perl 互換 (Onigmo) です。

Sakura Editor ウンロード ページ




0 件のコメント:

コメントを投稿