いやぁ、久々に真面目に仕事していますよw
更新もままならないのですが、見上げると東京タワーの近くを雲がすごい速度で流れていました。
短い動画ですがアップロードしておきます。PCパワーがある方は720pにして拡大すると迫力があります。手ぶれを抑えきれなくてすみません。
最後になりますが、台風の経路にお住いの方々の安全をお祈りしております。
2010年10月29日金曜日
2010年10月27日水曜日
翻訳便利ツール (5) - Tortoisesvn パージョン管理
今回は、バージョン管理のソフトウェアです。
翻訳者向けというより、翻訳会社や PM さん向けになると思います。ですが、翻訳者さんに SVN サーバーからのダウンロードを要求したり、SVN サーバーへの納品を要求するエージェントさんも存在するので、知っておいて損はないと思います。
また、バージョン管理を CAT ツール任せにしている翻訳会社さんが有償ツールから脱却する際に活用できると思います。
元々はプログラムのコードの管理に使用されていましたが、大手翻訳会社さんも採用しているようです。その中でも Windows OS で使用しやすい TortoiseSVN をお勧めします。
TortoiseSVN ホームページ
要は時系列で全てのバージョンを保持できるということです。大量のファイルを複数の翻訳者さんとやり取りする際にも役立ちます。それに、バージョン管理をコーディネーターさんの手作業に任せっぱなしだと引継ぎが大変だと思いますよ。
Windows OS にもファイル バージョンの管理システムがあるようですが、いつ消去されるかわかりませんので信用してませんw
この記事は紹介だけですので、詳細な操作方法は How-to 編 (仮名) で取り上げたいと思います。あっ、前に紹介したツールなども詳細に解説したいと思います。
しばらく待ってくださいね、だって今ちょっと忙しいんだもんぶらん。
翻訳者向けというより、翻訳会社や PM さん向けになると思います。ですが、翻訳者さんに SVN サーバーからのダウンロードを要求したり、SVN サーバーへの納品を要求するエージェントさんも存在するので、知っておいて損はないと思います。
また、バージョン管理を CAT ツール任せにしている翻訳会社さんが有償ツールから脱却する際に活用できると思います。
元々はプログラムのコードの管理に使用されていましたが、大手翻訳会社さんも採用しているようです。その中でも Windows OS で使用しやすい TortoiseSVN をお勧めします。
TortoiseSVN ホームページ
要は時系列で全てのバージョンを保持できるということです。大量のファイルを複数の翻訳者さんとやり取りする際にも役立ちます。それに、バージョン管理をコーディネーターさんの手作業に任せっぱなしだと引継ぎが大変だと思いますよ。
Windows OS にもファイル バージョンの管理システムがあるようですが、いつ消去されるかわかりませんので信用してませんw
この記事は紹介だけですので、詳細な操作方法は How-to 編 (仮名) で取り上げたいと思います。あっ、前に紹介したツールなども詳細に解説したいと思います。
しばらく待ってくださいね、だって今ちょっと忙しいんだもんぶらん。
2010年10月25日月曜日
増上寺 安国殿
昨日の写真です。
いつの間にか増上寺の隣の安国殿の内装が終わり、一般の方も参拝できるようになっておりました。
まずは、向かって左側を撮影いたしますと皇女和宮さまの像がございました。
幕末に第十四代将軍徳川家茂にご降嫁された皇女和宮さまにございます。ものの本には政略結婚などとか、幕末悲劇のヒロインとか書かれております。
皇女和宮さまについては、下記のエレキテル影絵がわかりやすいかと存じます。
http://www.youtube.com/watch?v=0SuzRHv3Stc
(口調戻します)
えっと、右側を見ると仏舎利なんとかと読めますが、不勉強な私にはよくわかりません。
そして中央が安国殿の黒本尊の御代仏、2尺ちょっとの阿弥陀仏像です。本当の黒本尊は確か年に数回しか開帳されないはずです。
徳川家康将軍は合戦場には、必ず御代仏を持っていったとのことです。そのおかげで、この地位に登りつめることができたとか。
まぁ、こういう場所に来るとなぜか、権力と幸福は別物だろうなということを感じます。
いつの間にか増上寺の隣の安国殿の内装が終わり、一般の方も参拝できるようになっておりました。
まずは、向かって左側を撮影いたしますと皇女和宮さまの像がございました。
一番左が皇女和宮さま |
幕末に第十四代将軍徳川家茂にご降嫁された皇女和宮さまにございます。ものの本には政略結婚などとか、幕末悲劇のヒロインとか書かれております。
皇女和宮さまについては、下記のエレキテル影絵がわかりやすいかと存じます。
http://www.youtube.com/watch?v=0SuzRHv3Stc
(口調戻します)
えっと、右側を見ると仏舎利なんとかと読めますが、不勉強な私にはよくわかりません。
そして中央が安国殿の黒本尊の御代仏、2尺ちょっとの阿弥陀仏像です。本当の黒本尊は確か年に数回しか開帳されないはずです。
徳川家康将軍は合戦場には、必ず御代仏を持っていったとのことです。そのおかげで、この地位に登りつめることができたとか。
まぁ、こういう場所に来るとなぜか、権力と幸福は別物だろうなということを感じます。
翻訳便利ツール (4.5) - ApSIC Xbench その後
七転八倒バナナ: 翻訳便利ツール (4) - ApSIC Xbench で紹介した ApSIC Xbench 2.8 ですが、他の言語 (ロシア語など) でも色々とバグが発生しているようです。
海外では、旧バージョンに戻して使用している人が多いようです。少し問題が多いので、全体的な修正には時間がかかるかもしれません。でも旧バージョンのリンクが残っていないので、持っていない人はしばらく我慢するしかないような気がします・・・。
とりあえずご連絡まデカメロン。
海外では、旧バージョンに戻して使用している人が多いようです。少し問題が多いので、全体的な修正には時間がかかるかもしれません。でも旧バージョンのリンクが残っていないので、持っていない人はしばらく我慢するしかないような気がします・・・。
とりあえずご連絡まデカメロン。
2010年10月24日日曜日
実りのない一日、充電の一日、日本の一日
昨日はゆっくりすごしました。早起きしたので都会の日の出をマンションから撮影。
ま、風情はないですが、人工物からの日の出も良いものです。
でもって、ぼちぼち出かけて公園で花を撮影。
ここまでは良かったのですが、次の写真をご覧ください。茎を見るとバラのようですが、花びらの枚数が非常に少ないようです。色々調べてみると、バラの原種は花びらが 5 枚のようですので、それかもしれません。(訂正: ツイッターでご指摘をいただきました。ハマナスでしたっ m(_ _)m)
で、面白い花も発見。葉っぱも花びらみたいなんです。例によって勝手に命名しました。花の部分はちっちゃいけど綺麗です。
増上寺の安国殿も公開されていましたが、それらの写真はまたあとデルモンテ。
ま、風情はないですが、人工物からの日の出も良いものです。
でもって、ぼちぼち出かけて公園で花を撮影。
ここまでは良かったのですが、次の写真をご覧ください。茎を見るとバラのようですが、花びらの枚数が非常に少ないようです。
で、面白い花も発見。葉っぱも花びらみたいなんです。例によって勝手に命名しました。花の部分はちっちゃいけど綺麗です。
タイリョウノブーン |
増上寺の安国殿も公開されていましたが、それらの写真はまたあとデルモンテ。
2010年10月22日金曜日
翻訳支援ツールを使用している方のためのブログ
ここはまだまだ新米ブログなので、歴史のあるテクニカル リソース ブログを紹介いたします。
禿頭帽子屋の独語妄言 side TRADOS
Trados 系の記事の量でここに勝るところはないと思います。以前にお会いしたことがありますが、とても良い人でした。SDL International さんは、この方の記事を見て改善していくべきです。
in Tandem
Transit NXT に関する記事が貴重です。Transit を使用している方は必見です。Transit について、ここまで詳しく書いている人なんかいるのでしょうか。まだお会いしたことはありませんが、きっと良い人です。シュタールジャパンさんは、この方にお中元のひとつでも贈るべきです。
そして翻訳会社さんは、私に割の良い仕事をよこすべきですw てへっ
---
禿頭帽子屋の独語妄言 side TRADOS
Trados 系の記事の量でここに勝るところはないと思います。以前にお会いしたことがありますが、とても良い人でした。SDL International さんは、この方の記事を見て改善していくべきです。
in Tandem
Transit NXT に関する記事が貴重です。Transit を使用している方は必見です。Transit について、ここまで詳しく書いている人なんかいるのでしょうか。まだお会いしたことはありませんが、きっと良い人です。シュタールジャパンさんは、この方にお中元のひとつでも贈るべきです。
そして翻訳会社さんは、私に割の良い仕事をよこすべきですw てへっ
---
2010年10月21日木曜日
今後の予定
2010年10月19日火曜日
用語抽出の理論
用語抽出プログラムなるものが数万円で販売されていたりします。何か特殊なアルゴリズムを使用しているのかと思ったら、高い値段のものもフリーのものも基本は同じでした。
かなりシンプルです。多分プログラマさんなら簡単に作成できるんじゃないかなぁ。
1. 用語の語数範囲を決める
1~4 語ぐらいになると思います。通常はユーザーが指定します。
2. 出現頻度を指定します。
用語であれば、複数回出現するはずです。例えば 3 回以上などと指定します。
3. 除外リストを作成します。
冠詞や be 動詞にヒットしたらたまりませんから、用語から除外する単語のリストを作成します。まともな用語抽出ソフトウェアであれば、このパラメータを指定できます。
4. 文節から単語の組を抽出します。
例えば "This method is used in powder metallurgy" という文章に対して、適切に除外リストが作成されていれば、次のように検出されます。
powder
metallurgy
powder metallurgy
5. さらに、長い単語に含まれる短い単語を除外するオプションを使用すると、次のようになります。
powder metallurgy
(粉末冶金学)
-----------
用語抽出を試してみたい場合は、有償のプログラムを購入する前に、Okapi Framework などのフリーウェアを使いましょう。
最後に Okapi Framework の Rainbow を使用して Wikipedia の Powder Metallurgy の記事から用語を抽出した結果を示します。
30 powder
20 metal
16 mold
15 particles
15 pressing
14 materials
14 sintering
12 edit
12 techniques
10 gas
10 isostatic pressing
10 material
10 pressure
9 compacting
9 die
9 powders
9 process
9 temperature
8 compaction
8 high
8 products
8 psi
8 strength
7 atomization
7 manufacturing
7 metallurgy
7 powder metallurgy
7 processes
7 range
6 action
6 alloys
6 distribution
6 extrusion
6 jet
6 operations
6 powder compaction
6 pressures
6 produce
6 sintered
6 thin
6 tooling
--- 以下省略 ---
まぁ、調整するとさらに精度が上がると思いますが、このままでも実使用に耐えうると思います。
他のソフトウェアとの統合が必要なければ、有償のものは買わなくても大丈夫だと思いますよこはま黄昏ホテルの小部屋。
かなりシンプルです。多分プログラマさんなら簡単に作成できるんじゃないかなぁ。
1. 用語の語数範囲を決める
1~4 語ぐらいになると思います。通常はユーザーが指定します。
2. 出現頻度を指定します。
用語であれば、複数回出現するはずです。例えば 3 回以上などと指定します。
3. 除外リストを作成します。
冠詞や be 動詞にヒットしたらたまりませんから、用語から除外する単語のリストを作成します。まともな用語抽出ソフトウェアであれば、このパラメータを指定できます。
4. 文節から単語の組を抽出します。
例えば "This method is used in powder metallurgy" という文章に対して、適切に除外リストが作成されていれば、次のように検出されます。
powder
metallurgy
powder metallurgy
5. さらに、長い単語に含まれる短い単語を除外するオプションを使用すると、次のようになります。
powder metallurgy
(粉末冶金学)
-----------
用語抽出を試してみたい場合は、有償のプログラムを購入する前に、Okapi Framework などのフリーウェアを使いましょう。
オカピーのレインボーちゃん |
最後に Okapi Framework の Rainbow を使用して Wikipedia の Powder Metallurgy の記事から用語を抽出した結果を示します。
30 powder
20 metal
16 mold
15 particles
15 pressing
14 materials
14 sintering
12 edit
12 techniques
10 gas
10 isostatic pressing
10 material
10 pressure
9 compacting
9 die
9 powders
9 process
9 temperature
8 compaction
8 high
8 products
8 psi
8 strength
7 atomization
7 manufacturing
7 metallurgy
7 powder metallurgy
7 processes
7 range
6 action
6 alloys
6 distribution
6 extrusion
6 jet
6 operations
6 powder compaction
6 pressures
6 produce
6 sintered
6 thin
6 tooling
--- 以下省略 ---
まぁ、調整するとさらに精度が上がると思いますが、このままでも実使用に耐えうると思います。
他のソフトウェアとの統合が必要なければ、有償のものは買わなくても大丈夫だと思いますよこはま黄昏ホテルの小部屋。
2010年10月18日月曜日
ブログを長く続けるために
2010年10月17日日曜日
勝手に命名
ずっと撮りたかった花
2010年10月16日土曜日
フリーランス翻訳者について
友人の友人が翻訳に興味があって、ぜひ翻訳業になりたいということで、自分のエージェントを紹介したことがあります。どこにでも転職できるような語学の経歴を持っている人だったんですが、トライアルに不合格。少々気まずかったです。
ある程度の翻訳のルールを知らないと、英語力があっても失敗するという例でしょうか。あと、独立するという覚悟も足りなかったかもしれません。
フリーランス翻訳者になるということは、転職ではなく独立なので、それなりの覚悟が必要です。フリーランスの語源は、傭兵団にも入らずひとりで戦う兵士。所属のない兵士は、すべてを自分で片付けなくてはなりません。まぁ、金次第でどちらの味方にもなるポリシーのないやつとも言えますがw
翻訳は英語できるだけじゃだめだにゃー |
私が同業者と一緒にいて安心するのは、しょっちゅうときどき辛い目に遭いながらも困難を乗り越えて、翻訳を続けてきた匂いを感じるからでしょうか。
格好良く言えば、フリーランスが戦場で出会い「よう」という感じかな。自分が経験したことを、この人も経験しているんだろうなという意識。
ツイッターでも、気持ちがわかりすぎるので翻訳関係の話題では「あるある」の連続。一致しないことといえば、「たい焼きの尻尾にあんこが入っているべきか否か」という翻訳とは関係のない話題ですw
今日は少しいいこと言った感じだニャロメ。
2010年10月15日金曜日
ひとやすーみ
2010年10月13日水曜日
今日も行くあてもなく
2010年10月11日月曜日
行くあてもなく
えーと、自然を撮影しにどっか行こうと山手線に向かいました。通り道の増上寺で撮った写真を何枚か。
随分珍しいですよね。メカ系の鬼瓦、それとも徳川家の伝統的なデザインなんでしょうか。個人的には、ナマハゲを思い出しました。
増上寺に参拝の際は、ぜひ裏側にも回ってください。期間限定ですが徳川家の霊廟が公開されていることがあります。
帰りも増上寺を通りました。いい感じの夕焼けをパシャリ。
で、増上寺の五時の鐘を録画したのでどうぞ。手持ち撮影なので、手ぶれが酷いです。
メカゴジラのような鬼瓦 |
随分珍しいですよね。メカ系の鬼瓦、それとも徳川家の伝統的なデザインなんでしょうか。個人的には、ナマハゲを思い出しました。
増上寺の裏道 |
増上寺に参拝の際は、ぜひ裏側にも回ってください。期間限定ですが徳川家の霊廟が公開されていることがあります。
そして、浜松町駅から山手線に乗り、なぜか秋葉原で下車。だって、あてもなく歩くと、少しはあてがありそうなところに向かっちゃうんだもの、しょうがないでしょw 秋葉原では写真を撮りませんでした。回転寿司で飯食って、カメラ用のメモリを購入してリターン。
帰りも増上寺を通りました。いい感じの夕焼けをパシャリ。
いい感じに雲がありました |
で、増上寺の五時の鐘を録画したのでどうぞ。手持ち撮影なので、手ぶれが酷いです。
最後って 2 回突くんですね。知りませんでした。
それでは、またたび。
翻訳者と校正者のための正規表現 (12) - 空白検出のベース
前回は、正規表現を構築する際に最初に設定するべき正規表現を書きました。次に設定するのはスペースの検出でしょう。
以前から、正規表現の基本の説明に絡めて、スペース (正確には空白文字) の検出をしてきましたが、実務でベースとして使用する場合に適切と思われる正規表現を次に示します (折り返されていますが 1 行の表現です)。
(\p{IsCJKUnifiedIdeographs}|\p{IsHiragana}|\p{IsKatakana}|\p{IsCJKSymbolsandPunctuation})\s+(\p{IsCJKUnifiedIdeographs}|\p{IsHiragana}|\p{IsKatakana}|\p{IsCJKSymbolsandPunctuation})
はい、これで漢字、ひらがな、カタカナ、句読点の間の不要なスペースをすべて検出できます。IsBasicLatin が含まれていないのは、もちろん英数文字間や英数字と和文の空白を許容するためです。.NET 系以外のソフトウェァでは、[ぁーん] や文字コードに置き換える必要があります。
カタカナ間のスペースを許容する場合 (ダイアログ ボックスなど) は、上記から IsKatakana を取り去り、Terminology Verifier などの英和ペア方式の検出に任せます。カタカナの部分が少しなら、検出されるままにして自分の目で確認するのもよいでしょう。
前回の (11) の表現とこの (12) の表現は、広いジャンルでベースとして使用できると思います。あとは、クライアントさんごとに工夫していくだけです。
そろそろ書くことがなくなってきました。正規表現エンジンがいくつかあるので混乱しやすいのですが、覚えることは結構少なくて、あとは応用です。
とりあえず、今までの記事をまとめたページを近々作成しようと考えています。次回以降の記事は未定です。何か思いついたら書いてみたいと思います。「これを検出したい」というコメントをいただけたら、できるだけ回答していきたいと思います。
(・∀・)シゴトクレ♪ ヒマダ♪シャンティ♪*・゜゚・*:.。. .。.:*・゜゚・*
以前から、正規表現の基本の説明に絡めて、スペース (正確には空白文字) の検出をしてきましたが、実務でベースとして使用する場合に適切と思われる正規表現を次に示します (折り返されていますが 1 行の表現です)。
(\p{IsCJKUnifiedIdeographs}|\p{IsHiragana}|\p{IsKatakana}|\p{IsCJKSymbolsandPunctuation})\s+(\p{IsCJKUnifiedIdeographs}|\p{IsHiragana}|\p{IsKatakana}|\p{IsCJKSymbolsandPunctuation})
はい、これで漢字、ひらがな、カタカナ、句読点の間の不要なスペースをすべて検出できます。IsBasicLatin が含まれていないのは、もちろん英数文字間や英数字と和文の空白を許容するためです。.NET 系以外のソフトウェァでは、[ぁーん] や文字コードに置き換える必要があります。
カタカナ間のスペースを許容する場合 (ダイアログ ボックスなど) は、上記から IsKatakana を取り去り、Terminology Verifier などの英和ペア方式の検出に任せます。カタカナの部分が少しなら、検出されるままにして自分の目で確認するのもよいでしょう。
そろそろ書くことがなくなってきました。正規表現エンジンがいくつかあるので混乱しやすいのですが、覚えることは結構少なくて、あとは応用です。
とりあえず、今までの記事をまとめたページを近々作成しようと考えています。次回以降の記事は未定です。何か思いついたら書いてみたいと思います。「これを検出したい」というコメントをいただけたら、できるだけ回答していきたいと思います。
(・∀・)シゴトクレ♪ ヒマダ♪シャンティ♪*・゜゚・*:.。. .。.:*・゜゚・*
夜の散歩
久しぶりに六本木方向へと散歩しました。夏の間は六本木方向は暑くて、散歩を避けていたんですよ。
Twitter 上でも「六本木って他より暑いよね」と同意してくれる人がいました。自分だけじゃないようです。だから、真夏はもっぱら新橋方面に散歩してました。あと、汐留とか。
で、お決まりのコース (国道319号) を歩いて行くと、10 分ほどで例のビルがあり、パシャリ。
誰が撮っても同じになる某ヒルズビル |
さすがに、今日のこの時間は仕事している階が少ないようです。でそそのまま進んでいくと、ヒルズと美容専門学校の下の地下道。
滑降してくる自転車に注意
ここ、夏は暑かった~。で、ヒルズの広場から下の広場を見下ろしてパシャリ。
さすがに人が少ないですね |
2010年10月9日土曜日
オフ会 (五反田の攻防編)
10 月 7 日に、翻訳クラスタのオフ会に行ってきました。大阪支部への報告も兼ねてブログに掲載します。
目的地は、五反田のフランクリン アベニュー。参加者の写真を掲載します。
左から順に・・・
ura_mami さん
エージェントが頭を下げて依頼してくるエース翻訳者さん。MGMG 隊の隊長でもあります。ラーメンLOVE
gentapoppa さん
役者でありながら特許翻訳もこなし、さらにフォークリフトまで運転できるマルチな方。MGMG 隊の宴会軍曹でもあります。奥様LOVE
ucchysnow さん
DVD、海外ドラマなどを大量に翻訳している映像翻訳者さん。MGMG 隊の副隊長でもあります。ウサギLOVE
moko_uiro さん
翻訳関係の大規模なコンテストで最終選考に残る優秀な翻訳者さん。MGMG 隊の読書軍曹でもあります。ういろうLOVE
m_toka さん
登録するなりエージェントに羽交い締めにされる優秀な IT 系翻訳者さん。MGMG 隊の音楽軍曹でもあります。音楽LOVE
兵卒の私は、クラス写真の日に風邪で休んだみたいに、右上にアイコンで存在しております。
それではフランクリン アベニューのハンバーガー
続きましては、ファミレスに移動してカレーライス (いや、食ったのは私だけですが)
続きましては、スイーツ 3 点
夕方になり、ここで ura_mami 隊長がやむなく離脱。
続きましては、カラオケボックス
大丈夫だよね? 顔とかギリギリわからないよね? ちなみに歌っている姿のビデオも存在しますw
続きましては、居酒屋・・・あー、写真ないやw そしてほぼ全員終電。gentapoppa さんにいたっては終バスw
いい年のおっさんと遊んでいただいてありがたいと思っています。実際に仕事をバリバリされている方は顔つきが違うんですよ、ホントに。笑顔も皆さん素敵です。ぜひまた遊んでください。
sagtran より愛を込めてんやわんや
迷子のサイト
なんか、不まじめな教科書っぽいブログになってきたので、てきとーに雑文を。
実は、自分のサイトを真面目に (?) 作成するのは 2 回目です。最初は、30代の頃にアメリカの無料サーバーを使用して、個人事業主でもないのに翻訳事務所のサイトを立ち上げました。
「こんな、あからさまに無料の Web サイトに仕事なんかこねーだろ」とたかをくくっていたら、いきなりアメリカのソフトウェア会社から引き合いがきたので、もうびっくりしてしまいました。結構デカイ会社です。もうね、テンパって「すまぬ、今忙しいんでできない」なんて回答してしまいました。そしてサイト放置w
翻訳はじめた頃は、生意気盛りで「なんでもやってみせるぜ」みたいなノリで意気込んでいたんですが、実際は基礎もなく、「CAT って何」という有様でした。商取引の知識もありませんでした。正直、この仕事を引き受けなくてよかったと思います。
と、懐かしい話のつもりで、ここまでブログを書いていて、「サイトはもう消えてるよね」なんてググってみたら、今でも生き残ってるんですよ!!! 無茶苦茶たまげましたよ。
私の出来心で作成したサイトが生き残ってるんですよ! 10 数年の間、問い合わせしても返事が来ないサイト。資源の無駄、ディスク領域の無駄、インターネット上のゴミ。
パスワードなんだっけ・・・、と思いながら当時の自分のパスワード パターンを次々に入力してみると、見事にログイン、そしてめでたく全消去 (今さっき)。
いや、なんか、罪悪感がありますね。今日は自分の罪をひとつ消せたような気がします。記事の題名も「ちょっと一休み」から「迷子のサイト」に変更しました。
こうして考えてみると、インターネット上にはオーナーが既に亡くなられたサイトが大量に存在する気がします。特に無料の Web スペースなんかは、自動的に消去されることが少ないように思えます。
実は、自分のサイトを真面目に (?) 作成するのは 2 回目です。最初は、30代の頃にアメリカの無料サーバーを使用して、個人事業主でもないのに翻訳事務所のサイトを立ち上げました。
「こんな、あからさまに無料の Web サイトに仕事なんかこねーだろ」とたかをくくっていたら、いきなりアメリカのソフトウェア会社から引き合いがきたので、もうびっくりしてしまいました。結構デカイ会社です。もうね、テンパって「すまぬ、今忙しいんでできない」なんて回答してしまいました。そしてサイト放置w
翻訳はじめた頃は、生意気盛りで「なんでもやってみせるぜ」みたいなノリで意気込んでいたんですが、実際は基礎もなく、「CAT って何」という有様でした。商取引の知識もありませんでした。正直、この仕事を引き受けなくてよかったと思います。
-----
と、懐かしい話のつもりで、ここまでブログを書いていて、「サイトはもう消えてるよね」なんてググってみたら、今でも生き残ってるんですよ!!! 無茶苦茶たまげましたよ。
私の出来心で作成したサイトが生き残ってるんですよ! 10 数年の間、問い合わせしても返事が来ないサイト。資源の無駄、ディスク領域の無駄、インターネット上のゴミ。
パスワードなんだっけ・・・、と思いながら当時の自分のパスワード パターンを次々に入力してみると、見事にログイン、そしてめでたく全消去 (今さっき)。
いや、なんか、罪悪感がありますね。今日は自分の罪をひとつ消せたような気がします。記事の題名も「ちょっと一休み」から「迷子のサイト」に変更しました。
こうして考えてみると、インターネット上にはオーナーが既に亡くなられたサイトが大量に存在する気がします。特に無料の Web スペースなんかは、自動的に消去されることが少ないように思えます。
2010年10月8日金曜日
翻訳便利ツール (4) - ApSIC Xbench
ApSIC Tools の ApSIC Xbench を紹介します。これも無料です。
用途1: 用語集作成
ソース クライアントさんから渡された資料を、エージェントさんが翻訳者に丸投げすることがあります。指定ツール以外の形式で用語集を送ってきたり、酷い時には、旧訳のバイリンガル ファイルをそのまま送ってきたり・・・。
そんな時に、下記の形式のファイルから、おまとめグロッサリーを作成できます。検索速度も、まあ高速だと思います。また、それぞれのファィルに優先度を指定できます。各種の変換が苦にならない方なら、そのまま指定ツールに変換すればいいので、特に使用する必要はないかも。
用途1: 用語集作成
ソース クライアントさんから渡された資料を、エージェントさんが翻訳者に丸投げすることがあります。指定ツール以外の形式で用語集を送ってきたり、酷い時には、旧訳のバイリンガル ファイルをそのまま送ってきたり・・・。
そんな時に、下記の形式のファイルから、おまとめグロッサリーを作成できます。検索速度も、まあ高速だと思います。また、それぞれのファィルに優先度を指定できます。各種の変換が苦にならない方なら、そのまま指定ツールに変換すればいいので、特に使用する必要はないかも。
用途2: 品質管理
読み込んだファイルに、「そのファイルは何か」を割り当てできます。チェックするファイルを On-going translation 扱いにすれば、そのファイルに対して各種の品質管理を実行できます。Trados の Terminology Verifier のようなこともできます。
下記に品質管理項目の一覧を示します。
- Untranslated segments
- Segments that have the same source text but a different target text
- Segments that have the same target text but a different source text
- Segments where the target text matches the source text
- Segments with tag errors
- Segments with numerical errors
- Segments with double blanks
- Segments that deviate from the key terms of the project
- Segments that meet the search criteria of entries in the Project or the Personal Checklist.
また正規表現ペアでのチェックリスト作成も可能なので上級の処理もできます。しか~し、日本語での正規表現サポートが今ひとつなので、開発元にバグ報告中です。改善されたら報告します。
現時点で品質/用語管理を別のソフトウェアで実行している方には不要かもしれません。でもまぁ、使い込むと、スルメのように味が出てくると思いまするめ。
2010年10月7日木曜日
東京タワー (ノーマル ライティング)
なんか久し振りに白色光のタワーを見たような気がする。まだ日が暮れていないうちにライトアップが始まっていた。まずは、下から舐めるようにw
いいね。ノーマルいいね。紫やピンクもそそられるけど、
ノーマルもなかなか良い。
なので、ノーマル アングルで撮影してみた。
うーん、日が暮れる前のライトアップも魅力的だ。
ちょっと足元まで移動して、撮影してみた。
なんか凛々しいw
この後、新橋まで散歩しました~。
全然関係ないけど、途中で慈恵医大を撮影しておきましたw
これ、全部病床ですよね・・・なんか桁がちがうな。
あと最上階付近の室内灯の色が違うのは VIP ルーム?
いずれにしろ、ご快復をお祈りしています。
翻訳業って、たまに体動かさないとどんどん太るんですw
それではこのへんデカダンス。
2010年10月5日火曜日
翻訳者と校正者のための正規表現 (11) - 常識的な文字以外の検出
いい加減、すぐに使用できる実用的なものを提示しないと、投稿末尾のダジャレしか読んでくれなくなりそうですw
今回は、以下の .NET 表現を使用します。なので TagEditor とかの .NET ベース向けです。
[^\p{IsBasicLatin}\p{IsCJKUnifiedIdeographs}\p{IsHiragana}\p{IsKatakana}\p{IsCJKSymbolsandPunctuation}]
これで作業しても良いのですが、IsHalfwidthandFullwidthForms (半角カタカナ全角英数記号) が含まれていないので、割とよく許容される全角丸括弧がありません。なので文字クラスに加えてみます。他にも許容できる文字があったら、任意に加えていきます。
今回は、以下の .NET 表現を使用します。なので TagEditor とかの .NET ベース向けです。
- IsBasicLatin (基本ラテン文字)
- IsCJKUnifiedIdeographs (CJK 統合表意文字 (漢字))
- IsHiragana (ひらがな)
- IsKatakana (カタカナ)
- IsCJKSymbolsandPunctuation (CJK 句読点)
この 5 つで、日本語の文章はほとんどカバーされます。というわけで、これらをクラスにまとめて否定形を作成すればよいのです。
[^\p{IsBasicLatin}\p{IsCJKUnifiedIdeographs}\p{IsHiragana}\p{IsKatakana}\p{IsCJKSymbolsandPunctuation}]
これで作業しても良いのですが、IsHalfwidthandFullwidthForms (半角カタカナ全角英数記号) が含まれていないので、割とよく許容される全角丸括弧がありません。なので文字クラスに加えてみます。他にも許容できる文字があったら、任意に加えていきます。
[^\p{IsBasicLatin}\p{IsCJKUnifiedIdeographs}\p{IsHiragana}\p{IsKatakana}\p{IsCJKSymbolsandPunctuation}()]
これで、常識的な文字以外はすべて検出されるはずです。Wikipedia の文章で試してみましょう (末尾に通常使用しない文字を追加しています)。
はい、無事に「通常使用しない文字」だけ検出されました。
英日の翻訳であれば、これをベースに改造するなり、別の正規表現を追加するなりして発展させるとよいでしょう。日本語以外への翻訳者は MSDN や Wiktionary で文字範囲を確認して工夫してください。
これからは、実用的なものをポツポツ書いていくつもりですこんぶうま。
2010年10月3日日曜日
翻訳者と校正者のための正規表現 (10) - 文字列の引き算
] ミ(ノ ̄^ ̄)ノスチャッ!(o_ _)oドテッ(o― ―)oムクッ.......(o ̄ii ̄)ゞハナヂブー
いや、面白い AA をいただいたのでついw
今回は引き算です。数学の時間ではありません。文字の引き算です。
以前の投稿で、文字範囲を指定して記述する方法について書きましたが、その範囲内に 1 つだけ検出したくない文字が含まれていたら嫌ですよね。
[a-z] の範囲で g だけ外したいときに、[a-fh-z] とかにするのもありです。でも、飛び飛びで複数個あったら面倒ですよね。そんなときに、次のような正規表現を使用できます。
[ ] の中に -[ ] を書くと引き算になります。上の表現は、[a-z] の範囲から [ikw] の文字クラスを除外するという意味になります。ちょっと試してみましょう。
うむ、kiwi が消えましたね。でもこの表現は、反キウイフルーツ革命市民団体全国連絡会議しか使用できません。どんな場面に実用的でしょうか。
前に、.NET 系で使用できる IsHalfwidthandFullwidthForms (半角カタカナ、全角英数記号などを検出) を紹介しました。含まれる文字はUnicord.org のこの PDF を参照してください。ほとんどの場合、そのまま使用できます。だって普通は使用しない文字ですから。
ところが、これには全角括弧類も含まれているんです。お客様の大半は、半角カタカナと全角英数記号を禁止しているんですが、かなりの数のクライアントさんが「後生ですから丸括弧は、丸括弧だけは全角にしてあげたいんです。返済はもう少し待っていただけませんか (T^T)」と懇願します。
そういう場合に、次の表現を使用できます。
これは半角カタカナと全角英数記号を検出しながら、全角丸括弧だけは例外という正規表現になります。実際にやってみましょう。
いや、面白い AA をいただいたのでついw
今回は引き算です。数学の時間ではありません。文字の引き算です。
以前の投稿で、文字範囲を指定して記述する方法について書きましたが、その範囲内に 1 つだけ検出したくない文字が含まれていたら嫌ですよね。
[a-z] の範囲で g だけ外したいときに、[a-fh-z] とかにするのもありです。でも、飛び飛びで複数個あったら面倒ですよね。そんなときに、次のような正規表現を使用できます。
[a-z-[ikw]]
[ ] の中に -[ ] を書くと引き算になります。上の表現は、[a-z] の範囲から [ikw] の文字クラスを除外するという意味になります。ちょっと試してみましょう。
うむ、kiwi が消えましたね。でもこの表現は、反キウイフルーツ革命市民団体全国連絡会議しか使用できません。どんな場面に実用的でしょうか。
前に、.NET 系で使用できる IsHalfwidthandFullwidthForms (半角カタカナ、全角英数記号などを検出) を紹介しました。含まれる文字はUnicord.org のこの PDF を参照してください。ほとんどの場合、そのまま使用できます。だって普通は使用しない文字ですから。
ところが、これには全角括弧類も含まれているんです。お客様の大半は、半角カタカナと全角英数記号を禁止しているんですが、かなりの数のクライアントさんが「後生ですから丸括弧は、丸括弧だけは全角にしてあげたいんです。返済はもう少し待っていただけませんか (T^T)」と懇願します。
そういう場合に、次の表現を使用できます。
[\p{IsHalfwidthandFullwidthForms}-[()]]
文字コードの場合は
[\uFF00-\uFFEF-[()]]
これは半角カタカナと全角英数記号を検出しながら、全角丸括弧だけは例外という正規表現になります。実際にやってみましょう。
全角丸括弧にはヒットしませんでしたね。正規表現の引き算は、例外の作成に適しています。それではこの辺たいじゃないよ、変態という名の紳士だよ!
2010年10月2日土曜日
翻訳便利ツール (3) - 正規表現チェッカー
あーもー、1 日に何度も更新してごめんなさい。これ、「・・・のための正規表現」シリーズにしようかなと思ったんですけど、ちょっとちがうなと。どちらかというと、ツール扱いではないかと。
えーっと、CAT ツールで正規表現を組むときにイラつくことがあります。えぇ、間違った正規表現を登録してしまった時です。登録時点では、テストできないのです。
まずい正規表現を入れてしまったら、また数回クリックして、ダイアログ開いて、登録し直して、再度チェックするという作業になります。えらいめんどくさいんですよ、これが。
目的の正規表現を、登録前にテストできたらいいですよね。
SDL Trados TagEditor の正規表現エンジン部分は .NET Framework ライブラリを使用しているようなので、.NET Framework で作成された正規表現チェッカーが必要です。そこで Asterworld さん開発のフリーソフト「正規表現チェッカー (vector へのリンク)」ですよ・・・名前がストレートすぎて男を感じます。Free と Share のモードがありますが、Free で全然問題ないです。
一番上の窓に、対象となる文章を張り付けて、二段目に正規表現を書いて [実行] ボタンをぽちりとおすと、一致した文字列のリストが三段目に表示されます。この例では、見えないけどスペースにもヒットしていることに注意してください。もちろん文字コードも \u0000 のパターンで指定できます。
元となるライブラリが同じはずなので、これでチェックしてから TagEditor の QA Checker に登録すると、余計な手間が必要ありません。正直 QA Checker 上で試行錯誤なんてできません。
この情報で、皆様の翻訳肉体労働が軽減されるといいですネモ船長。
えーっと、CAT ツールで正規表現を組むときにイラつくことがあります。えぇ、間違った正規表現を登録してしまった時です。登録時点では、テストできないのです。
まずい正規表現を入れてしまったら、また数回クリックして、ダイアログ開いて、登録し直して、再度チェックするという作業になります。えらいめんどくさいんですよ、これが。
目的の正規表現を、登録前にテストできたらいいですよね。
-----
SDL Trados TagEditor の正規表現エンジン部分は .NET Framework ライブラリを使用しているようなので、.NET Framework で作成された正規表現チェッカーが必要です。そこで Asterworld さん開発のフリーソフト「正規表現チェッカー (vector へのリンク)」ですよ・・・名前がストレートすぎて男を感じます。Free と Share のモードがありますが、Free で全然問題ないです。
一番上の窓に、対象となる文章を張り付けて、二段目に正規表現を書いて [実行] ボタンをぽちりとおすと、一致した文字列のリストが三段目に表示されます。この例では、見えないけどスペースにもヒットしていることに注意してください。もちろん文字コードも \u0000 のパターンで指定できます。
元となるライブラリが同じはずなので、これでチェックしてから TagEditor の QA Checker に登録すると、余計な手間が必要ありません。正直 QA Checker 上で試行錯誤なんてできません。
この情報で、皆様の翻訳肉体労働が軽減されるといいですネモ船長。
良い天気の定義
登録:
投稿 (Atom)