安斎利洋の日記全体に公開

2006年03月13日
14:03
 コーパス型知識
《承前》

仮にまっさらの人工知能があったとして、言語を教え込むときに文法と単語辞書を与えるべきか、あるいは膨大なコーパスだけを与えるべきか。

知識の表現には文法型とコーパス型があって、僕もふくめて無精者は文法型が好きでコーパスが嫌い。僕は掛け算の九・九を、約半分しか覚えなかった。四・七=21は覚えたけれど、七・四=21は必要ないから覚えなかった。九・九のすべてのルックアップテーブルを覚えた人に比べて、変換が入るぶん遅くなる。小学生にとってこれは致命的な戦略ミスだった。

ネイティブが言語を習得するときは膨大なコーパスを浴びる。第二外国語を習得するときに、文法の知識が役に立つ。この順番は、たぶん変えることができない。

歴史から学ぶ知識も、コーパス型だ。歴史に類型はあるが、文法はない。もし、文法だけを教えた人工知能があったら、彼は「意味はあるけれど普通言わないよね」というような文章を吐き出し続けるだろう。コーパスの中には、歴史の智恵に似た言葉の力学があり、言語の本質はむしろそこにある。

たとえば掛け算の九・九で、四・七だけ、なぜか理由がわからないが19だ、というシステムがあったとする。ひとつの例外を特記した法則に意味はないから、このひとつの例文が掛け算九・九を別のシステムに変えてしまう。

コーパス型の知識は、ひとつの例文がシステム全体を無効にする力がある。だから、芸術はコーパスとして表現される。表現したい文法型の知識を、作家は時間をかけて多数の作品群として積み上げていく。四・七=19のような作品を作るたびに、彼の中の仮想文法はずたずたになる。そこに芸術の本質がある。

愚かな芸術家は、一生同じ仮想文法からコーパスを作り続ける。優れた芸術家は、コーパスを作りながら仮想文法をどんどん更新していく。無精者の僕の野望は、この仕組み自体を九・九にすることだ。
 

コメント    

2006年03月13日
14:36
しゅわっち
>表現したい文法型の知識を、作家は時間をかけて多数の作品群として積み上げていく。

作家は文法を表現したいんですか?
文法とは万人に当てはまる原則的な知識だとすると,作家が時間をかけて積み上げて行くのは,やはり文法を表現することではなくて,彼自信のコーパスを表現する行為なのでは? で,そこに含まれている法則性なるものを安斎さんは「仮想文法」って言っているように思うけど,文法って言わない方がいいと思うなあ...
2006年03月13日
14:38
>意味はあるけれど普通言わないよね
というような言葉にも2通りあって、でも少しはいうかもしれないと思えたり、これ、新しいじゃない、おもしろいじゃない、と思えるというタイプのものと、もう、絶対言わない、ダサダサ、どっか外国の人が考えたんじゃないの、というタイプのものですね。

母語じゃないと、こういうのが見分けついてないんじゃないかという不安がいつもお友達です。
2006年03月13日
14:42
安斎利洋
たとえば小説家が、ある女との関係を書いたとします。彼はその女のきわめて個人的なことを書きたかったのか、人類の問題としてそのことを書きたかったのか、たぶんどちらも正しいと思う。

無限に濃度の大きい集合は、どの部分をとっても全体と同じ濃度があるわけですが、そういう意味で作家は文法を表現したいんです。
2006年03月13日
14:53
安斎利洋
>新しいじゃない、おもしろいじゃない、と思えるというタイプのものと

翻訳は変換ではなくて創造だ、というのはこういうエッジの部分の面白さにあると思います。酢鶏の面白さや、IMEの誤変換の面白さもそこにあって、コーパスを撹乱するから言語そのものを背負い投げてしまう力がある。
膨大な日本語コーパスがあったら、こういうエッジを見つけるプログラムを書いてみたい。
2006年03月13日
15:15
かーるすてん2こと
ありがとうございます。
すばらしい ヒント をえました。
2006年03月13日
17:09
びすけっと
僕は,三角関数の山のような公式をまったく覚えられなくて,
テストのたびに,それを導出して解いていました.
九九も安斎さんと同じ記憶法.

そういう人は任天堂の脳年齢を計るゲームをやると,
悲惨な結果になります.ゲームを何度もやるうちに
コーパスが増えて行き,スコアが良くなるので,
頭が良くなったように錯覚します.
2006年03月13日
19:25
安斎利洋
九九をどう覚えたかによって、脳の類型がわかれるかもしれませんね。アンケートしてみたい。

一般的に文系の知はコーパス型で、理系の知は文法型だと思いますが、文系理系の区別と同様そんなに単純な話ではなくなってきているから、どっちにも行き来できるのがいいんだろうな。
2006年03月13日
22:04
MATANGO
ふと浮かんだんですが、コーパスを、例のマルコフ過程でさらうと、できたものには「文法」はあるんでしょうか?

「ぶんぽうがあるんでしょうか」という文がコーパスからできてきたとして、「ぶんぽう」が主語で、「ある」が述語だというのを、ニンゲンを介さずに、なにか自動的な過程で区別する方法はあるんでしょうか?

....それに関連して...例の有弘さんのデタラメ外国語は、文法は関係ないですね。
ありがちなシラブルと、音調とか抑揚とかを、まさにコーパスからひっこぬいてならべただけで、文法は誰にもわからない...。

コーパスというのは、言語ごとにプロジェクトがあるそうですが、言語をこえたコーパスというのは、どうやらないらしい...ということも、ちょっと思いました...。
2006年03月13日
22:50
安斎利洋
こういう問題はチェスにたとえて考えるとわかりやすいのですが、相手がクィーンをあるAのマスからBのマスに動かしたときに次の一手は何がいいか、という問題に答はないですよね。しかし、周りの盤面のパターンか、一手目からその手までの棋譜か、そのどちらかがわかれば(このふたつは同じことを意味する)次の一手を導き出すために、定石というコーパスを使うか、分岐をしらみつぶしにして次の手を考えることができます。

つまり、言語は微視的な単語から単語への過程じゃなくて、盤面から盤面への過程です。盤面というのはそのときの脳の発火パターンと言ってもいいし、記憶と言ってもいい(このふたつは同じことを意味する)。盤面の推移と考えてはじめて、ことばを確率的に操作する意味が出てくるんじゃないでしょうか。
2006年03月14日
01:24
文法というのをもっとミクロな意味で、というのは、品詞がどうのとか、主語と述語の構文がどうだとか、そういう見方で考えると、いい翻訳というのは、ぜんぜん文法的じゃないことがあります。
英語と日本語でいえば、英語は名詞的な言語だといわれていて、日本語での収まりをよくするためには、名詞的な用法を述語的に訳すのがよい技法であると、よくいわれます。
よい例が思いつかないですけど。うーんと、すっごく簡単な例なら思い出した。「He is a good tennis player.」とあったとして、日本語で「かれはよいテニス選手です」と言ったとしたら、これは翻訳的には間違いで、「彼はテニスが上手です」とかいうのがよい翻訳だということになってます。(趣味でテニスしてるだけで、選手じゃないかもしれないから)
でも、「彼はよいテニス選手です」という日本語も、先の英語のテキストと切り離してしまえば、正しい日本語です。
文法的に正しいけど、間違ってる文章というのがあるのといっしょで、文章としてぜんぜん間違ってないけど、この文脈では間違ってるとか、一方の言語では完全に正しいんだけど、別の言語にそのまま移し変えると、いわゆる「ヘンな直訳」みたいになるとか。コンピュータも、そういう判断をできるようになるためには、どんな理屈を覚えさせたらいいんでしょう。
(職業的に考えれば、コンピュータがそんなもの覚えてくれなくてもいいんですけど)
2006年03月14日
22:02
MATANGO
>九九をどう覚えたか
ぼくも、「計算」という原理・原則がある(メタなルールがある)ものを、片っ端からおぼえなきゃならないというのが、すごく理不尽に思えていました。

割り算もそうで、たとえば35を5で割るのに「5×5かな...25でまだ足りない。5×6かな...30でまだ足りない。5×8かな...40...わっはみでちゃった....」といいかげんに見当をつけてアホみたいに試行錯誤してるのがむしょうに腹立たしく、母親を呼びつけて「どうしてこんなことしなくちゃならんの!?」とくってかかったおぼえがあります....。

...ま、そのうちコーパス的に見当がついてきて、「いいではないか、四の五のいわずにおぼえればいいのだ...」とオトナになっていったんですが...。

コーパス的知識が「いい」という話のながれではありますが、少なくとも人間が学習して扱うコーパス的知識は「ま、世間ではこんなこと、普通いいませんわね、ああ恥ずかしい...ああたどこの生まれですか?」というように「排除・硬直」にむかってしまうところもあるのかなと...。

その点、酢鶏さんのこころみは「文法さえあってりゃ、あとはどうでもいいんだろ」というので、「世間の手前」を置き去りにして傍若無人...そこがすがすがしいところかなとも...。

「仕組み自体を九・九にすること」というのは、単にコーパスを営々と積み重ねるのより、すごく面白いかも...と、いまいちよく理解していないながら思ったりしました...。
2006年03月15日
00:35
安斎利洋
>「排除・硬直」にむかってしまうところもあるのかなと...。

僕もそう思います。でも、反コーパスも同じように硬い知識なんじゃないか、っていう逆説にはまっているところです。

 安斎利洋mixi日記 一覧へ