2010年12月20日月曜日

ファジーマッチレートについても書いてみた

前に、単価のことを書いたんですが、Trados などの CAT ツールを使用している方は、8 円だとか 10 円だとかの基本単価以外に、ファジーマッチレートにも気をつける必要があります。

単価だけではなく、ファジーマッチレートを気にかけていないと冗談抜きで辛い目に会います。というか、ファジーマッチレートのほうが、作業語数に影響を与えるのでたちが悪いと言えます。

下記にレートの例を示します。

No.Rep10099-9594-8584-7574-50No Match
13030100100100100100
230303050100100100
31030305070100100
4100305070100100
510010203050100


1 番のレートは、「全体的にブラッシュアップしたい。どこを変えてもいいからドキュメントの質を向上させたい」という太っ腹な某企業がときどき提示するレートです。数回受注したことがあります。改版時のドキュメントの質が一番優れています。

個人的には、上記の 2~4 番のレートが最も一般的だと感じます。実作業時間のリサーチなどをしっかり行っている大手ソースクライアントやエージェントが提示するレートです。

4 番のレートは、いわゆる「100% Match, No Pay」案件です。これも費用節減が課されている企業の案件に良く見かけますが、エージェントの前処理さえしっかりしていればイラつかないで済むと思います (しっかりしていないことも多いですが・・・)。

個人的には、この付近が実際の翻訳作業時間に即したまともなレートだと思います。上の表は例としてあげただけで、微妙なゆれとかは結構あります。でも低マッチ率部分のレートはだいたい次の式の計算結果範囲内に収まります。個人的には 74-50% は 100% の支払いをするべきだと思っています。

(100% - CATツールのマッチ率) × 2.0~2.5


問題は、5 番のレートです。ときどきあるんですよね。見たことがない人は幸せです。

これは、ファジーマッチの作業時間のリサーチを行っていない会社のレートです。改版の原稿であれば既にどうしようもなく品質が低く、向上させる気も起きないと思います (まれにエース社内翻訳者がリライトしたと思われる素晴らしい原稿もありますが、そういうのはラッキーだと思います)。次のような計算式になると思います。

(100% - CATツールのマッチ率) × 1


このレートを出すエージェントは次の覚悟をしていると思われます。

- 翻訳者は単語の置き換えだけすればいい
- マッチで引っ張ってきたセグメント内のスタイルなんか修正しなくてもいい
- マッチで引っ張ってきたセグメントの日本語が変でも再利用してかまわない

で、率直に言って 5 番目のレートの案件は、品質を落としてよいと思います。あなたの絵を 10 万で買いたいという人と 5 万で買いたいという人に同じ絵を描いてはいけないと思います。こういった案件に対しては、私は正規表現によるチェックもしませんし、マッチで引っ張ってきた差分以外の場所のスタイルエラーも修正しません。まぁ、気になり過ぎたら少し直すぐらいです。

私は不誠実な翻訳者でしょうか?


でも、皆さんが通常のファジーマッチレートと同じ品質で仕上げようとしても、品質は落ちてしまうのです。単価を気にするのにファジーマッチのレートを気にしないと本当に地獄を見ますよ。これから説明しますね。

繰り返しになりますが、作業時間のリサーチをきちんと行った会社のファジー レート (特に低マッチ率部分) は (100% - CATツールのマッチ率) × 2.0~2.5 の付近にあります。これは、ファジーの比率が上下しても翻訳者に過剰な負荷がかからないようにしているんです。誠実だと思いますし、翻訳者に作業時間の予測を正確に行わせるうえでエージェント側にも利益があると思います。

翻訳者側も「うひょー、80% マッチで Full Rate かよ。もうけもうけ」などと喜ぶだけではなく、それほどの品質が期待されていることに応える気持ちでとりかからなくてはなりません。


次のようなよくある比率を例にして、語数の変化を見てみましょう (実際の案件を加工したものです)。

Rep10099-9594-8584-7574-50No MatchTotal
015000150010005001000300022000



5 番のレートでは、語数が 4000 word になります。

1500 x 0.1 + 1000 x 0.2 + 500 x 0.3 + 1000 x 0.5 + 3000 x 1.0 = 4000

ところが、4 番のレートでは、語数が 5300 word になるんです。

1500 x 0.3 + 1000 x 0.5 + 500 x 0.7 + 1000 x 1.0 + 3000 x 1.0 = 5300

つまり、2000w/day の作業者が本来 3 日近くかかる作業があたかも 2 日で可能な分量として計算されて依頼されてきます。もちろん 4000 ワード分しか支払われないので基本単価 10 円でも 40000 円にしかなりません。

基本単価が 8 円でファジーレートが 4 番であれば、42400 円になります。基本単価の 2 円ぐらいはファジーマッチレートを低めに設定されるだけで軽く吹っ飛ぶのです。


つまり、ファジーマッチレートを低くするだけで、翻訳者に意識させることなく翻訳納期を短縮でき、なおかつ 10 円の単価の翻訳者に実質 7 円台で作業させることができます。依頼側にとってこれほどおいしい方法はありません。

ですが、大きな穴があります。処理能力を超えた語数を翻訳者 (特に Trados 初心者) に意識させずに作業させているので品質は低下する傾向にあります。時間という大きな足かせがあるんです。

低ファジーレートを受けるなとは言いません。ですが作業時間の現実に即していないということを早めに察知して、色々な品質管理手順や文章の向上手順を省き通常の 1.5 倍の速度で処理する気でとりかかる必要があります。

こういう心構えでできあがった文章と、「あれぇ、そんなに難しくないのになんでこんなに苦しいんだ」と思いながら時間に追われて仕上げた文書の品質はあまり変わらないと思います。というか、時間に追われた翻訳者の品質のほうが低くなると思います。

私がさっき「品質を落としてもよい」と書いたのは、こういう理由からです。

私はよっぽど機嫌が良くない限り、低ファジーレートの案件に対しては高度な品質管理手順は使いません。妥当なレートを維持してくれているエージェントやソースクライアントに失礼だと思います。というか、既存の翻訳がチェックに引っかかり過ぎて使用できません。もちろん 1~4 番付近のレートではベロチューできるほど愛を込めて翻訳していますよw

1~5 番にかけて手を抜いていっていいと言うと語弊があるので、5~1 番にかけて品質を上げていく必要があると言ったほうがいいのかなぁ。まぁ、響きの善い悪いだけで、結局同じなんですけどね。

そのうちに「Penalty の数値を動かすだけで翻訳者を苦しめることもできる」について書きたいと思います。単価を気にするなら Trados のからくりの隅々まで知ることが必要です。

追記: 少し誤解を生んだ部分があり、計算式がよく当てはまるのは特に低ファジー部分であると書き直しました。また、それに伴い、式の係数を少し変更しましまた。

2010年12月2日木曜日

翻訳者と校正者のための正規表現 (14) - JIS第1水準以外の漢字の検出

えーと。

ムシャクシャしてやった
どの正規表現でも良かった
今は反省している

次にJIS第1水準漢字以外の漢字を検出する正規表現を示します。なぜこんなことになったか・・・それはUnicodeにとってJISの水準なんか知ったこっちゃないから、あちこちに散らばってるんです。こうやって全指定する方法しか考えつきませんでしたw

[一-龠-[亜唖娃阿哀愛挨姶逢葵茜穐悪握渥旭葦芦鯵梓圧斡扱宛姐虻飴絢綾鮎或粟袷安庵按暗案闇鞍杏以伊位依偉囲夷委威尉惟意慰易椅為畏異移維緯胃萎衣謂違遺医井亥域育郁磯一壱溢逸稲茨芋鰯允印咽員因姻引飲淫胤蔭院陰隠韻吋右宇烏羽迂雨卯鵜窺丑碓臼渦嘘唄欝蔚鰻姥厩浦瓜閏噂云運雲荏餌叡営嬰影映曳栄永泳洩瑛盈穎頴英衛詠鋭液疫益駅悦謁越閲榎厭円園堰奄宴延怨掩援沿演炎焔煙燕猿縁艶苑薗遠鉛鴛塩於汚甥凹央奥往応押旺横欧殴王翁襖鴬鴎黄岡沖荻億屋憶臆桶牡乙俺卸恩温穏音下化仮何伽価佳加可嘉夏嫁家寡科暇果架歌河火珂禍禾稼箇花苛茄荷華菓蝦課嘩貨迦過霞蚊俄峨我牙画臥芽蛾賀雅餓駕介会解回塊壊廻快怪悔恢懐戒拐改魁晦械海灰界皆絵芥蟹開階貝凱劾外咳害崖慨概涯碍蓋街該鎧骸浬馨蛙垣柿蛎鈎劃嚇各廓拡撹格核殻獲確穫覚角赫較郭閣隔革学岳楽額顎掛笠樫橿梶鰍潟割喝恰括活渇滑葛褐轄且鰹叶椛樺鞄株兜竃蒲釜鎌噛鴨栢茅萱粥刈苅瓦乾侃冠寒刊勘勧巻喚堪姦完官寛干幹患感慣憾換敢柑桓棺款歓汗漢澗潅環甘監看竿管簡緩缶翰肝艦莞観諌貫還鑑間閑関陥韓館舘丸含岸巌玩癌眼岩翫贋雁頑顔願企伎危喜器基奇嬉寄岐希幾忌揮机旗既期棋棄機帰毅気汽畿祈季稀紀徽規記貴起軌輝飢騎鬼亀偽儀妓宜戯技擬欺犠疑祇義蟻誼議掬菊鞠吉吃喫桔橘詰砧杵黍却客脚虐逆丘久仇休及吸宮弓急救朽求汲泣灸球究窮笈級糾給旧牛去居巨拒拠挙渠虚許距鋸漁禦魚亨享京供侠僑兇競共凶協匡卿叫喬境峡強彊怯恐恭挟教橋況狂狭矯胸脅興蕎郷鏡響饗驚仰凝尭暁業局曲極玉桐粁僅勤均巾錦斤欣欽琴禁禽筋緊芹菌衿襟謹近金吟銀九倶句区狗玖矩苦躯駆駈駒具愚虞喰空偶寓遇隅串櫛釧屑屈掘窟沓靴轡窪熊隈粂栗繰桑鍬勲君薫訓群軍郡卦袈祁係傾刑兄啓圭珪型契形径恵慶慧憩掲携敬景桂渓畦稽系経継繋罫茎荊蛍計詣警軽頚鶏芸迎鯨劇戟撃激隙桁傑欠決潔穴結血訣月件倹倦健兼券剣喧圏堅嫌建憲懸拳捲検権牽犬献研硯絹県肩見謙賢軒遣鍵険顕験鹸元原厳幻弦減源玄現絃舷言諺限乎個古呼固姑孤己庫弧戸故枯湖狐糊袴股胡菰虎誇跨鈷雇顧鼓五互伍午呉吾娯後御悟梧檎瑚碁語誤護醐乞鯉交佼侯候倖光公功効勾厚口向后喉坑垢好孔孝宏工巧巷幸広庚康弘恒慌抗拘控攻昂晃更杭校梗構江洪浩港溝甲皇硬稿糠紅紘絞綱耕考肯肱腔膏航荒行衡講貢購郊酵鉱砿鋼閤降項香高鴻剛劫号合壕拷濠豪轟麹克刻告国穀酷鵠黒獄漉腰甑忽惚骨狛込此頃今困坤墾婚恨懇昏昆根梱混痕紺艮魂些佐叉唆嵯左差査沙瑳砂詐鎖裟坐座挫債催再最哉塞妻宰彩才採栽歳済災采犀砕砦祭斎細菜裁載際剤在材罪財冴坂阪堺榊肴咲崎埼碕鷺作削咋搾昨朔柵窄策索錯桜鮭笹匙冊刷察拶撮擦札殺薩雑皐鯖捌錆鮫皿晒三傘参山惨撒散桟燦珊産算纂蚕讃賛酸餐斬暫残仕仔伺使刺司史嗣四士始姉姿子屍市師志思指支孜斯施旨枝止死氏獅祉私糸紙紫肢脂至視詞詩試誌諮資賜雌飼歯事似侍児字寺慈持時次滋治爾璽痔磁示而耳自蒔辞汐鹿式識鴫竺軸宍雫七叱執失嫉室悉湿漆疾質実蔀篠偲柴芝屡蕊縞舎写射捨赦斜煮社紗者謝車遮蛇邪借勺尺杓灼爵酌釈錫若寂弱惹主取守手朱殊狩珠種腫趣酒首儒受呪寿授樹綬需囚収周宗就州修愁拾洲秀秋終繍習臭舟蒐衆襲讐蹴輯週酋酬集醜什住充十従戎柔汁渋獣縦重銃叔夙宿淑祝縮粛塾熟出術述俊峻春瞬竣舜駿准循旬楯殉淳準潤盾純巡遵醇順処初所暑曙渚庶緒署書薯藷諸助叙女序徐恕鋤除傷償勝匠升召哨商唱嘗奨妾娼宵将小少尚庄床廠彰承抄招掌捷昇昌昭晶松梢樟樵沼消渉湘焼焦照症省硝礁祥称章笑粧紹肖菖蒋蕉衝裳訟証詔詳象賞醤鉦鍾鐘障鞘上丈丞乗冗剰城場壌嬢常情擾条杖浄状畳穣蒸譲醸錠嘱埴飾拭植殖燭織職色触食蝕辱尻伸信侵唇娠寝審心慎振新晋森榛浸深申疹真神秦紳臣芯薪親診身辛進針震人仁刃塵壬尋甚尽腎訊迅陣靭笥諏須酢図厨逗吹垂帥推水炊睡粋翠衰遂酔錐錘随瑞髄崇嵩数枢趨雛据杉椙菅頗雀裾澄摺寸世瀬畝是凄制勢姓征性成政整星晴棲栖正清牲生盛精聖声製西誠誓請逝醒青静斉税脆隻席惜戚斥昔析石積籍績脊責赤跡蹟碩切拙接摂折設窃節説雪絶舌蝉仙先千占宣専尖川戦扇撰栓栴泉浅洗染潜煎煽旋穿箭線繊羨腺舛船薦詮賎践選遷銭銑閃鮮前善漸然全禅繕膳糎噌塑岨措曾曽楚狙疏疎礎祖租粗素組蘇訴阻遡鼠僧創双叢倉喪壮奏爽宋層匝惣想捜掃挿掻操早曹巣槍槽漕燥争痩相窓糟総綜聡草荘葬蒼藻装走送遭鎗霜騒像増憎臓蔵贈造促側則即息捉束測足速俗属賊族続卒袖其揃存孫尊損村遜他多太汰詑唾堕妥惰打柁舵楕陀駄騨体堆対耐岱帯待怠態戴替泰滞胎腿苔袋貸退逮隊黛鯛代台大第醍題鷹滝瀧卓啄宅托択拓沢濯琢託鐸濁諾茸凧蛸只叩但達辰奪脱巽竪辿棚谷狸鱈樽誰丹単嘆坦担探旦歎淡湛炭短端箪綻耽胆蛋誕鍛団壇弾断暖檀段男談値知地弛恥智池痴稚置致蜘遅馳築畜竹筑蓄逐秩窒茶嫡着中仲宙忠抽昼柱注虫衷註酎鋳駐樗瀦猪苧著貯丁兆凋喋寵帖帳庁弔張彫徴懲挑暢朝潮牒町眺聴脹腸蝶調諜超跳銚長頂鳥勅捗直朕沈珍賃鎮陳津墜椎槌追鎚痛通塚栂掴槻佃漬柘辻蔦綴鍔椿潰坪壷嬬紬爪吊釣鶴亭低停偵剃貞呈堤定帝底庭廷弟悌抵挺提梯汀碇禎程締艇訂諦蹄逓邸鄭釘鼎泥摘擢敵滴的笛適鏑溺哲徹撤轍迭鉄典填天展店添纏甜貼転顛点伝殿澱田電兎吐堵塗妬屠徒斗杜渡登菟賭途都鍍砥砺努度土奴怒倒党冬凍刀唐塔塘套宕島嶋悼投搭東桃梼棟盗淘湯涛灯燈当痘祷等答筒糖統到董蕩藤討謄豆踏逃透鐙陶頭騰闘働動同堂導憧撞洞瞳童胴萄道銅峠鴇匿得徳涜特督禿篤毒独読栃橡凸突椴届鳶苫寅酉瀞噸屯惇敦沌豚遁頓呑曇鈍奈那内乍凪薙謎灘捺鍋楢馴縄畷南楠軟難汝二尼弐迩匂賑肉虹廿日乳入如尿韮任妊忍認濡禰祢寧葱猫熱年念捻撚燃粘乃廼之埜嚢悩濃納能脳膿農覗蚤巴把播覇杷波派琶破婆罵芭馬俳廃拝排敗杯盃牌背肺輩配倍培媒梅楳煤狽買売賠陪這蝿秤矧萩伯剥博拍柏泊白箔粕舶薄迫曝漠爆縛莫駁麦函箱硲箸肇筈櫨幡肌畑畠八鉢溌発醗髪伐罰抜筏閥鳩噺塙蛤隼伴判半反叛帆搬斑板氾汎版犯班畔繁般藩販範釆煩頒飯挽晩番盤磐蕃蛮匪卑否妃庇彼悲扉批披斐比泌疲皮碑秘緋罷肥被誹費避非飛樋簸備尾微枇毘琵眉美鼻柊稗匹疋髭彦膝菱肘弼必畢筆逼桧姫媛紐百謬俵彪標氷漂瓢票表評豹廟描病秒苗錨鋲蒜蛭鰭品彬斌浜瀕貧賓頻敏瓶不付埠夫婦富冨布府怖扶敷斧普浮父符腐膚芙譜負賦赴阜附侮撫武舞葡蕪部封楓風葺蕗伏副復幅服福腹複覆淵弗払沸仏物鮒分吻噴墳憤扮焚奮粉糞紛雰文聞丙併兵塀幣平弊柄並蔽閉陛米頁僻壁癖碧別瞥蔑箆偏変片篇編辺返遍便勉娩弁鞭保舗鋪圃捕歩甫補輔穂募墓慕戊暮母簿菩倣俸包呆報奉宝峰峯崩庖抱捧放方朋法泡烹砲縫胞芳萌蓬蜂褒訪豊邦鋒飽鳳鵬乏亡傍剖坊妨帽忘忙房暴望某棒冒紡肪膨謀貌貿鉾防吠頬北僕卜墨撲朴牧睦穆釦勃没殆堀幌奔本翻凡盆摩磨魔麻埋妹昧枚毎哩槙幕膜枕鮪柾鱒桝亦俣又抹末沫迄侭繭麿万慢満漫蔓味未魅巳箕岬密蜜湊蓑稔脈妙粍民眠務夢無牟矛霧鵡椋婿娘冥名命明盟迷銘鳴姪牝滅免棉綿緬面麺摸模茂妄孟毛猛盲網耗蒙儲木黙目杢勿餅尤戻籾貰問悶紋門匁也冶夜爺耶野弥矢厄役約薬訳躍靖柳薮鑓愉愈油癒諭輸唯佑優勇友宥幽悠憂揖有柚湧涌猶猷由祐裕誘遊邑郵雄融夕予余与誉輿預傭幼妖容庸揚揺擁曜楊様洋溶熔用窯羊耀葉蓉要謡踊遥陽養慾抑欲沃浴翌翼淀羅螺裸来莱頼雷洛絡落酪乱卵嵐欄濫藍蘭覧利吏履李梨理璃痢裏裡里離陸律率立葎掠略劉流溜琉留硫粒隆竜龍侶慮旅虜了亮僚両凌寮料梁涼猟療瞭稜糧良諒遼量陵領力緑倫厘林淋燐琳臨輪隣鱗麟瑠塁涙累類令伶例冷励嶺怜玲礼苓鈴隷零霊麗齢暦歴列劣烈裂廉恋憐漣煉簾練聯蓮連錬呂魯櫓炉賂路露労婁廊弄朗楼榔浪漏牢狼篭老聾蝋郎六麓禄肋録論倭和話歪賄脇惑枠鷲亙亘鰐詫藁蕨椀湾碗腕]]

「なげーよ」と言ったそこのあなた。いい方法があったら教えてくださいよ。ちなみに .Net Framework の正規表現エンジンを使用しているソフトでは、ちゃんと動作しますよ。文字長で弾かれると思いましたが Trados でも動作しました。正規表現の代入先変数は余裕があるんですね・・・。

だれか正規表現の仕事くれないかなぁ。そうだ、このブログのデータを使用できるのは、フリーランスの皆様、および私に単価の高い仕事くれたエージェントのみということにしよう。フリーランスの方はご自由に。エージェントが社内で使用するときは私に仕事をw 名づけて「バナナライセンス」。


outsideofjis1

使用できるとはいえ、私も少し嫌なので、他に方法がないか考えてみますねこ飼いたい。