七転八倒バナナ: 便利ツール

ラベル 便利ツール の投稿を表示しています。すべての投稿を表示

2017年10月27日金曜日

スタイルチェックテクニック - カタカナ複合語

カタカナ複合語間にスペースや中黒を入れない案件では、次の正規表現でスタイルエラーを検出できます。正規表現エンジンに文字クラスが定義されているときは、できるだけ使用しましょう。

.NET 表現: \p{IsKatakana}[\s・·]+\p{IsKatakana}
Perl: [\p{Katakana}ー][\s・·]+[\p{Katakana}ー]
汎用表現: [ァ-ヶー][\s・·]+[ァ-ヶー]

では、スペースありの案件では、どのようにしたらよいのでしょうか。過去に、正規表現で検出しようとしたことがあります。

過去のボツ手法

現在の手法

現在はテキストエディタを使用してチェックしています。「自動検証が無理なら、手動検証を楽にすればいいじゃない」というわけです。高機能エディタであれば、この操作が可能です。必須機能は、正規表現、並べ替え、重複削除です。

1. 全訳文をテキストエディタに貼り付けます。
2. カタカナ語以外を改行に変換します。
3. 並べ替えます。
4. 重複を削除します。
5. エラーを簡単に確認できる状態になります。

Sakura Editor を使用している場合は、次のマクロを使用して簡単に処理できます。10 万語くらいは一瞬で、1 億語でも 30 秒程度で処理が完了します。

//キーボードマクロのファイル
S_ReplaceAll('[^ァ-ヶ]ー', '', 28); // カタカナ語以外に続く長音を削除
S_ReplaceAll('[^ァ-ヶー\\s]+|[\\s\\r\\n]+', '\\r\\n', 28); // カタカナ語以外をすべて改行に置換
S_ReDraw(0); // 再描画
S_SelectAll(0); // すべて選択
S_SortAsc(0); // 選択行の昇順ソート
S_Merge(0); // 連続した重複行の削除
S_GoFileTop(0); // ファイルの先頭に移動

この手法の利点

実際の 50 万語の案件では、カタカナ語は約 1000 種類でした。これだけ多くても、次に示すように、エラーを簡単に視認できるので、チェック自体には数分しかかかりません。実際に試してみれば、かなりのスクロール速度でチェックできることがわかると思います。

...
コンソール
コンテキスト
コンテナ
コンテンツ
コントロール
コントロールパネル
コンパイラ
コンパイル
コンパニオン
コンピュータ
コンプレックス
コンポーネント
コーディング
...

本来の意図とは異なりますが、類似語が連続して表示されるので、単語の末尾にある長音の有無、タイポ、表記揺れなどの一部も発見できます。

まとめ

語数の多い案件では、必ずと言ってよいほどカタカナ複合語のスタイル違反が見つかります。リリース後の文書からも発見されます。しっかりと処理しないと、検索や索引作成に影響します。

こういう手法もあることを知っておけば、いつか役に立つかもがネギしょって鍋にバンジー。

2017年5月19日金曜日

最近のお気に入りエディタ - Sakura Editor

さまざまなエディタを渡り歩いてきましたが、最近は Sakura Editor を使用しています。かなり昔 (20 年前くらい) から開発が続けられているらしいです。

きっかけは、巨大なテキストファイルの加工でした。

ある日、正規表現をテストする際の大規模サンプルとして、国立研究開発法人情報通信研究機構が CC ライセンスで公開している XML 形式の対訳コーパスを取り込もうと思い立ちました。

ファイル数が多いので、ちまちま加工していられません。スクリプトを書く気にもならず、コマンドプロンプトで全部連結してから加工することにしました。そしたら、タグも含めて 3 億文字超えのファイルになってしまいました。

インストール済みのエディタでは開くこともままなりません。運よく開けても、加工が遅すぎます。

昔使ったことのある Sakura Editor を思い出し、早速インストール。3 億文字の XML を開くのに 10 秒未満。しかも、軽快にスクロールできます。正規表現での TSV 化加工でも、私が頭をひねる時間を除けば、実質 30 秒くらい。開発者すげーな。50 万文字とかの大きめの案件のチェックや加工なら一瞬です。

もちろん、探せば他にも同等の性能を持つエディタがあると思います。乗り換えを進めているのではなく、大きなファイルの加工で困っている方には役立つかなぁと思って紹介してみました。

ソースも公開しているフリーソフトウェアですが、コードの著作権は放棄していないようです。正規表現は perl 互換 (Onigmo) です。

Sakura Editor ダウンロードページ

2011年6月11日土曜日

ApSIC Xbench 2.9 BETA リリース

先月、ApSIC Xbench 2.9 BETA がリリースされていたようです (以前の記事)。

ダウンロードはこちらから
http://www.apsic.com/en/downloads.aspx

日本語に対する正規表現はまだバグがあります。でもMicrosoft Word のワイルドカードの一部は日本語に対してきちんと動作するようです。まぁ、グロッサリー検索には問題ないでしょう。

日本語環境を持たない外国の方が開発していると、ダブルバイト文字への対応は難しいのでしょうね。優れものなのに、もったいないなぁ。

2010年10月27日水曜日

翻訳便利ツール (5) - Tortoisesvn パージョン管理

今回は、バージョン管理のソフトウェアです。

翻訳者向けというより、翻訳会社や PM さん向けになると思います。ですが、翻訳者さんに SVN サーバーからのダウンロードを要求したり、SVN サーバーへの納品を要求するエージェントさんも存在するので、知っておいて損はないと思います。

また、バージョン管理を CAT ツール任せにしている翻訳会社さんが有償ツールから脱却する際に活用できると思います。

元々はプログラムのコードの管理に使用されていましたが、大手翻訳会社さんも採用しているようです。その中でも Windows OS で使用しやすい TortoiseSVN をお勧めします。

TortoiseSVN ホームページ

要は時系列で全てのバージョンを保持できるということです。大量のファイルを複数の翻訳者さんとやり取りする際にも役立ちます。それに、バージョン管理をコーディネーターさんの手作業に任せっぱなしだと引継ぎが大変だと思いますよ。

Windows OS にもファイルバージョンの管理システムがあるようですが、いつ消去されるかわかりませんので信用してませんw

この記事は紹介だけですので、詳細な操作方法は How-to 編 (仮名) で取り上げたいと思います。あっ、前に紹介したツールなども詳細に解説したいと思います。

しばらく待ってくださいね、だって今ちょっと忙しいんだもんぶらん。

2010年10月25日月曜日

翻訳便利ツール (4.5) - ApSIC Xbench その後

七転八倒バナナ: 翻訳便利ツール (4) - ApSIC Xbench で紹介した ApSIC Xbench 2.8 ですが、他の言語 (ロシア語など) でも色々とバグが発生しているようです。

海外では、旧バージョンに戻して使用している人が多いようです。少し問題が多いので、全体的な修正には時間がかかるかもしれません。でも旧バージョンのリンクが残っていないので、持っていない人はしばらく我慢するしかないような気がします・・・。

とりあえずご連絡まデカメロン。

2010年10月19日火曜日

用語抽出の理論

用語抽出プログラムなるものが数万円で販売されていたりします。何か特殊なアルゴリズムを使用しているのかと思ったら、高い値段のものもフリーのものも基本は同じでした。

かなりシンプルです。多分プログラマさんなら簡単に作成できるんじゃないかなぁ。

1. 用語の語数範囲を決める
1～4 語ぐらいになると思います。通常はユーザーが指定します。

2. 出現頻度を指定します。
用語であれば、複数回出現するはずです。例えば 3 回以上などと指定します。

3. 除外リストを作成します。
冠詞や be 動詞にヒットしたらたまりませんから、用語から除外する単語のリストを作成します。まともな用語抽出ソフトウェアであれば、このパラメータを指定できます。

4. 文節から単語の組を抽出します。
例えば "This method is used in powder metallurgy" という文章に対して、適切に除外リストが作成されていれば、次のように検出されます。

powder
metallurgy
powder metallurgy

5. さらに、長い単語に含まれる短い単語を除外するオプションを使用すると、次のようになります。

powder metallurgy
(粉末冶金学)

-----------

用語抽出を試してみたい場合は、有償のプログラムを購入する前に、Okapi Framework などのフリーウェアを使いましょう。

オカピーのレインボーちゃん

最後に Okapi Framework の Rainbow を使用して Wikipedia の Powder Metallurgy の記事から用語を抽出した結果を示します。

30 powder
20 metal
16 mold
15 particles
15 pressing
14 materials
14 sintering
12 edit
12 techniques
10 gas
10 isostatic pressing
10 material
10 pressure
9 compacting
9 die
9 powders
9 process
9 temperature
8 compaction
8 high
8 products
8 psi
8 strength
7 atomization
7 manufacturing
7 metallurgy
7 powder metallurgy
7 processes
7 range
6 action
6 alloys
6 distribution
6 extrusion
6 jet
6 operations
6 powder compaction
6 pressures
6 produce
6 sintered
6 thin
6 tooling
--- 以下省略 ---

まぁ、調整するとさらに精度が上がると思いますが、このままでも実使用に耐えうると思います。
他のソフトウェアとの統合が必要なければ、有償のものは買わなくても大丈夫だと思いますよこはま黄昏ホテルの小部屋。

2010年10月8日金曜日

翻訳便利ツール (4) - ApSIC Xbench

ApSIC Tools の ApSIC Xbench を紹介します。これも無料です。

用途1: 用語集作成
ソースクライアントさんから渡された資料を、エージェントさんが翻訳者に丸投げすることがあります。指定ツール以外の形式で用語集を送ってきたり、酷い時には、旧訳のバイリンガルファイルをそのまま送ってきたり・・・。

そんな時に、下記の形式のファイルから、おまとめグロッサリーを作成できます。検索速度も、まあ高速だと思います。また、それぞれのファィルに優先度を指定できます。各種の変換が苦にならない方なら、そのまま指定ツールに変換すればいいので、特に使用する必要はないかも。

用途2: 品質管理

読み込んだファイルに、「そのファイルは何か」を割り当てできます。チェックするファイルを On-going translation 扱いにすれば、そのファイルに対して各種の品質管理を実行できます。Trados の Terminology Verifier のようなこともできます。

下記に品質管理項目の一覧を示します。

Untranslated segments
Segments that have the same source text but a different target text
Segments that have the same target text but a different source text
Segments where the target text matches the source text
Segments with tag errors
Segments with numerical errors
Segments with double blanks
Segments that deviate from the key terms of the project
Segments that meet the search criteria of entries in the Project or the Personal Checklist.

また正規表現ペアでのチェックリスト作成も可能なので上級の処理もできます。しか～し、日本語での正規表現サポートが今ひとつなので、開発元にバグ報告中です。改善されたら報告します。

現時点で品質/用語管理を別のソフトウェアで実行している方には不要かもしれません。でもまぁ、使い込むと、スルメのように味が出てくると思いまするめ。

2010年10月2日土曜日

翻訳便利ツール (3) - 正規表現チェッカー

あーもー、1 日に何度も更新してごめんなさい。これ、「・・・のための正規表現」シリーズにしようかなと思ったんですけど、ちょっとちがうなと。どちらかというと、ツール扱いではないかと。

えーっと、CAT ツールで正規表現を組むときにイラつくことがあります。えぇ、間違った正規表現を登録してしまった時です。登録時点では、テストできないのです。

まずい正規表現を入れてしまったら、また数回クリックして、ダイアログ開いて、登録し直して、再度チェックするという作業になります。えらいめんどくさいんですよ、これが。

目的の正規表現を、登録前にテストできたらいいですよね。

-----

SDL Trados TagEditor の正規表現エンジン部分は .NET Framework ライブラリを使用しているようなので、.NET Framework で作成された正規表現チェッカーが必要です。そこで Asterworld さん開発のフリーソフト「正規表現チェッカー (vector へのリンク)」ですよ・・・名前がストレートすぎて男を感じます。Free と Share のモードがありますが、Free で全然問題ないです。

一番上の窓に、対象となる文章を張り付けて、二段目に正規表現を書いて [実行] ボタンをぽちりとおすと、一致した文字列のリストが三段目に表示されます。この例では、見えないけどスペースにもヒットしていることに注意してください。もちろん文字コードも \u0000 のパターンで指定できます。

元となるライブラリが同じはずなので、これでチェックしてから TagEditor の QA Checker に登録すると、余計な手間が必要ありません。正直 QA Checker 上で試行錯誤なんてできません。

この情報で、皆様の翻訳肉体労働が軽減されるといいですネモ船長。

2010年9月28日火曜日

翻訳便利ツール (2) - Okapi

私のポリシーは「楽に仕事をするためなら、どんな苦労も厭わない」です。なので、仕事の合間に、世界のどこかで凄いツールが開発されていないか探し回っています。

どちらかというと、少し高度な内容なので、CAT ツール翻訳 (棺桶) に深く片足を突っ込んでいない方は、ここで引き返したほうが良いかも。

Okapi Framework
上の見出しがダウンロードページへのリンクになっています。随分前から開発され続けているのですが、いまひとつ知名度が低い (少なくとも私は日本人が解説しているページを知らない) 翻訳管理ソフトウェアです。翻訳パッケージの準備から品質管理まで実行できます。しかも無料。

頼まれて十数人の翻訳者を同時に管理したときに使用しました。新し物好きな IT 系の人は、この UI を見てワクワクするでしょう。

ちびりそうです。もう、素敵なことができまくりです。
自分が使用したわずかな機能だけをピックアップすると・・・

用語の抽出
Term Extraction で頻出用語を抽出できます。もちろん抽出パラメータもカスタマイズできます。普通は結構な値段するので本当に助かりました。

翻訳パッケージの作成
XLIFF、OmegaT、RTF (Trados 互換) 向けに翻訳パッケージを作成できます。まぁ、この種類をエクスポートできれば問題ありません。OmegaT や XLIFF で出力できれば、Trados どころか Windows さえ不要です。また、ものすごい数の入力ファイル形式に対応しています。書ききれません。

Quality Check
QA Checker も強力です。翻訳終了後のパッケージを受け取ったら、普通の正規表現チェックはもちろん、正規表現でソースとターゲットの特定の内容を抽出し、そのまま維持されているかどうか確認できます。メールアドレス、IP アドレス、URL アドレスとかは、TM を使用していると類似セグメントのアドレスをそのまま入れてしまうミスがあります。

下記はメアドが異なることが検出された例です。

乱数文字列を含む馬鹿長い URL のチェックは死ぬほど疲れるので、これは便利です (上記のメアドは両方とも私が所有していますが、ほとんどチェックすることはないのでスパムしても無駄ですよw)。

この他にも、鼻水出そうな機能があるんですけど、説明しきれないや。このソフトウェアの欠点は、機能と操作に慣れるまでが大変なことw

--
通常の翻訳者が使用する機会はあまりないと思いますが、仕事がなく、家の片付けも終わり、食うものも食い、遊ぶものも遊びつくして何もすることがなくなった時にでもいじってみてくだサイボーグ 009 は萌える。
--

2010年9月25日土曜日

翻訳便利ツール (1) - Grep

正規表現はとても便利ですが、ある程度の勉強が必要です。ということで、翻訳業で生計を立てていく中で、手放せなくなったツールを紹介していこうかなと思います。おそらく、既に多くの翻訳者が使用していると思います。

今回は GREP について話します。ちなみに、元はラインエディタのコマンド g/re/p からきています。つまり、「全体から (Global) 正規表現 (Regular Expression) に一致する行を表示 (Print) する」という意味です。

翻訳で取引を開始すると、翻訳対象ファイル以外に多くの資料を受け取ると思います。UI 対訳リスト、固定対訳表、翻訳仕様書、関連製品資料、その他の資料などです。

技術翻訳であれば、最低でも数ファイル、多いときで数十ファイルの資料が送られてきます。形式は、テキスト、MS Excel、MS Word、HTML、PDF などさまざまです。これらをいちいち開いて検索してなどいられません。数万語クラスの対訳であれば、MultiTerm に変換してしまいますが、こまごまとした 20 ファイルなど検索していられません。

エージェントにとって大事なお客さんであれば、データベース化して末端の翻訳者まで配布するのが筋だと思いますが、そんなことする時間はないのでしょうね。

不明 UI やスタイルに出会うたびに、Excel 検索 → Notepad 検索 → Word 検索 → Acrobat 検索 → TTX 検索なんてやっていられません。これらをそのまま横断検索できたら便利ですよね。Windows 標準の検索は精度が悪くてあまり使えません。

そこで Grep ですよ。使用に耐えるものはいくつかありますが、資料検索で私がずーっと使用している VxGrep を紹介します。VxGrep は VxEditor に付属しています。開発者のページからダウンロードできます。

VxGrep を愛用しているのは、次の理由からです。

pdf、doc、rtf、xls、html、txt、ttx、その他テキストファイルをまとめて検索できる
必要なライブラリ全部入り
正規表現検索が可能
文字コードは自動検出

ひとつの資料フォルダに、全部放り込んで一発検索です。自分の場合、これがなければ翻訳速度は 2/3 ぐらいになるでしょう。また、数百ファイルある翻訳済み TTX や Word ファイルを串刺し検索して、目的のファイルをダブルクリックして開いて修正なんていう素敵なことが、いとも簡単にできます。

好みに合うかどうかはわかりませんが、Grep を使用したことがない人は、一度試してみてはいかがでしょうか。それではこの辺デラウェア。 (火山はキラウェアでした・・・)