安斎利洋の日記全体に公開

2006年03月10日
17:31
 貧乏人のOED
写真

何日か前、コーパスを電子的に収集する話でフォマールさんがOEDのことを言っていらした。思い出して、コンパクト版のOEDを引っ張り出してきた。Oxford English Dictionary全20巻を1冊に縮刷したもので、ライトつき拡大鏡が付属している。

OEDが電子辞書になってから、この「貧乏人のOED」を使っている人はあまりいないみたいだけれど、ひとつのラングを写像しようとした物質、というふうに考えると、こんな美しいアート作品はないんじゃない?

写真
写真
写真
 

コメント    

2006年03月10日
18:45
木村健一
河原温。
2006年03月10日
20:16
河原温。
2006年03月10日
20:42
常微分方程式…間違えた…
2006年03月10日
21:17
安斎利洋
幸村真佐男。
2006年03月10日
21:42
ミレイ
一番上の写真の厚みと奥行きが、なんとも美しいです。
2006年03月10日
22:30
バベルの塔みたいですね。
それと、老眼にはきつー。

安斎さん、翻訳メモリはいくつか研究してみました?
2006年03月10日
22:50
安斎利洋
>バベルの塔みたいですね

ボルヘス。

>翻訳メモリはいくつか研究してみました?

いえ、気になっているんですけど。オープンな翻訳コーパスがあったら、面白いことがいろいろできるんだけどな。
2006年03月10日
23:19
安斎利洋
>厚みと奥行きが、なんとも美しいです。

本の存在感を撮るのは、人の存在感を撮るより難しいかもしれません。建築もしかり。
2006年03月10日
23:22
コーパスの収集って、えらい大変ですよね。
メモリの中身を公開してくれるところは、多分、ないかもしれないですが、メモリで何を重視するかとかの思想は、各社さまざまでけっこう面白いですよー。

あと、某社のメモリ+自動翻訳の実験台になったことがあるのですが、数人の、レベルや経験の違う翻訳者を集めて、ひとつの素材をそのツールでひたすら翻訳し続けるという実験を、何回かやってみたりしてたです。そのときの私の個人的な感覚として、翻訳者の人力翻訳のメモリのデータには使用したくなるものがあるのに、機械による自動翻訳の結果の中にはほとんど使用したくなるものがなかったです。他の人の感想も似たようなものでした。なぜだろう、ということも、こういう実験すると推察しやすいのかも。費用があれば面白いかも。
2006年03月10日
23:23
>オープンな翻訳コーパス
ありそうです。ないのかな?
2006年03月10日
23:48
思い出した〜〜。
立教大の大学院に、異文化コミュニケーションの課程があって、あそこの修士論文にはときどきメモリ関係の論文が出てくることがあるみたいなんです。
そういうのの書き手にインタビュしてみるとか。
2006年03月11日
00:11
書きわすれた、、、T大の翻訳論の課程とは、一味ふた味違うみたいで、これまた面白そーなんですよ。
2006年03月11日
02:49
安斎利洋
翻訳メモリをいちばんお金をかけずに体験するには、何がいいんでしょう。

僕は、EBの英和活用辞典からテキストファイルを抽出しています。秀丸で全文検索をすると、非常に便利。これって、一種の翻訳メモリです。
2006年03月11日
12:37
昨日はかなりお酒が入っていたので、いろいろ関係ないことを先走って考えてしまったかも。
メモリは、既存の原文と訳文のペアがないとあまり役に立たないし、既存の原文・訳文ペアが公開されていることはめったにないし。
>EBの英和活用辞典からテキストファイルを抽出
これ、非常に効率がいいのではないでしょうか。
2006年03月11日
12:57
あと、有料なので使ったことがないのですが、大きなコーパスサイトがあります。BNCというイギリスのサイトなんですけど、みてみました?
2006年03月11日
13:40
安斎利洋
コーパスについて、このポインタが充実していますね。
http://www2.kct.ne.jp/~suga/jfirst.htm

BNCについて、こんな解説が。
『かつてはその中に含まれていたデータの著作権者の一人が,どういうわけかEU以外での販売の禁止を主張したため,わが国でも入手が不可能となり,研究の進展を妨げていた。しかし,BNCは世界からの要望に答え,この「問題の」データをはずしたため,現在誰でも購入できるようになった。契約書(End User Licence)を2枚送って申し込めば,CD−ROM2枚が送られてくる(SARAというコンコーダンサが付いている)。シングルユーザーで£50。クレジットカードでの申し込みが可能。今後コーパスを本格的に使おうという人は買って損はしない。ただ,なにぶん1億語なので解凍するときに,パソコンがフリーズしたかと思うほど時間がかかるので覚悟しておくこと』

なるほど、日本語コーパス収集で著作権を気にしているのは、こういういきさつがあったか。
2006年03月11日
23:28
50ポンドで買える= 1ポンド、いまいくら??
200円として、10000円。

小学館のBNCネットワークというのは、限定的なサービスらしいのですが、最初に2000円ほどライセンス料を払って、年会費1ライセンス15000円前後払うと。

直接買ったほうが、やぱり安いですよね、、、
2006年03月12日
00:49
しつこくてごめんなさい。よーく考えてみると、コーパス使って何やるかというのは、実は私よくわかってなかったりします。
私は、コロケーション調べたい、っていうか、コーパスってそのためにあるんだと今まで思ってました。
2006年03月12日
01:27
安斎利洋
>コーパス使って何やるかというのは、実は私よくわかってなかったりします。

それはうさださんの頭の中に、ある程度コーパスがあるからでしょう。

抽象的な言い方をすると、言語というのはすべてコロケーションじゃないかと思うわけです。ありうる言い回しと、ありえない言い回しがあって、ありうる言い回しを生成する規則があると仮定すると、そこに文法があらわれてくる。

つまり、膨大なコーパスを頭の中にもっていれば、文法は必要なくて、実際ネイティブはそうやって言語を取得しているわけです。

逆に文法だけを頭の中に叩き込むと言葉がしゃべれるかというと、文法的に合っていても言わない言い回しがあるから、それはうまくいかない。

僕みたいに英語ダメダメにとっては、頭の中に言い回しがないから、文法なんかよりコーパスのほうがずっと役に立ちます。こういう言い回しがあるかな、なんていうときは、僕は””で囲ってその文の基本部分をgoogleにかけたりします。たくさん出てきたら、あ、こういう言い方はOKか、みたいな。

翻訳メモリーは、専門家のツールとして開発されているみたいですが、僕はむしろ英語ダメダメのためのサポートツールに特化したほうが、売れるし役立つと思うんですよね。
2006年03月12日
12:36
うっすらと思い浮かべてみると、安斎さんのこのお仕事が完成すると、ソース&ターゲット言語の膨大なコーパスと、それのマッチングをしてくれるものができあがるのでしょうか。

ところで、googleのフレーズ検索、私もよくやります、じつは。
2006年03月12日
13:38
安斎利洋
そういうソフト、あったらいいと思うけれど、僕が作るのは適任じゃないでしょうね。

僕はむしろ、コーパスとカンブリアンを結びつけて、言葉が勝手に組み変わっていくようなシステムを夢想しています。なーんの役にもたたないけれど。
2006年03月13日
01:03
よかった〜。

 安斎利洋mixi日記 一覧へ