イノベーション感

(私は将棋を全く指さないので誤った表記が多く存在するかもしれません。悪しからず。)

■ コンピューター将棋“ボナンザ”の誕生
保木邦仁(ほきくにひと)さんという学者がいます。専門は分子化学です。2005年、彼はカナダで働いていました。「チェスの世界では、コンピューターが人間に勝ったけど将棋でも勝てるのかなぁ」という気楽な気持ちで、本業の片手間に作った人工知能を搭載したコンピューター将棋が「ボナンザ」です。実はこのころ日本ではすでにコンピューター将棋は盛んに研究され、まあまあ強いものもありました。しかし、それまでのコンピューター将棋は、作成者自身が将棋に強く、自分の指し方をコンピューターに教え込むという作り方がほとんどでした。例えば、「飛車」は「歩」より価値が高いということは明示的に教えていますし、「こういう局面ではこう打て」と詳細に教え込みます。保木さんはカナダにいたためどんなコンピューター将棋があるかも知りませんでしたし、自身、将棋が強くないので別の方法をとりました。それは、コンピューターに将棋のルールと過去のプロ棋士がうった譜面だけを学習させ、どう打つべきかをコンピューター自身に考えさせるという手法です。彼はコンピューターに「飛車」より「歩」のほうが価値が高いなどということは教えません。

■ 強いかどうかよく分からない
 保木さんは自分が作ったボナンザが自分よりは圧倒的に強いことは分かったのですが、どのくらい強いのかよく分かりませんでした。そのためインターネット上で日本にいる将棋が強い人と戦わせることにしました。実は当時からインターネット上の将棋対戦ではコンピューター将棋で参加する人が多くいることが知られていましたが、打ち方が機械っぽいので、対戦した人はすぐに分かったそうです。しかしボナンザは人間っぽい打ち方だったため皆、驚いたそうです。しかも、相当強いと評判になってしまいました。

■ コンピューター将棋世界選手権でいきなり優勝
 ボナンザの評判は瞬く間に広がりました。そして世界選手権にオファーされます。保木さんは自分が作ったボナンザがどれくらい強いのかぜんぜん理解しないまま2006年の世界コンピューター将棋選手権に出場します。出場したといっても日本で行われるこの選手権にカナダからわざわざ行くのは面倒なので、プログラムだけを送って他の人に代理でうってもらいました。そしていきなり優勝してしまうのです。今までとまったく違う作り方で作られたボナンザはコンピューター将棋のみならず人工知能の革命だといわれました。保木さんは将棋を知らなかったから、そして日本にいなかったからこそ、このような画期的なコンピューター将棋を作れたといいます。イノベーションとは現在からの連続的な延長線上にあるのではなく、不連続なまったく別の世界から生まれるのです。

■ “人間最強 対 コンピューター最強”が実現、人間代表は渡辺竜王
2007年、ボナンザはついに、渡辺明(わたなべあきら)竜王と対戦します。渡辺竜王は将棋の7大タイトルのうち最高のタイトルと言われる竜王を史上はじめて5年連続で獲得・防衛し、唯一の永世竜王となった、現在もっとも強いプロ棋士、すなわち人間最強の棋士であるといって過言ではないでしょう。2008年12月の竜王戦(七戦制で四勝したほうが勝ち)で挑戦者の羽生善治名人に初戦から三連敗したあと、驚異的な粘りを見せ逆転四連勝して防衛したことでも話題になりました。このあきらめない姿勢は学ぶべきものがありますが、ここでは話をボナンザ戦に戻します。

■ ボナンザの強さを理解していた渡辺竜王
渡辺竜王が負けるはずがない、100%勝てる。将棋関係者の多くはそう思っていたそうです。というのもこれまでのコンピューター将棋は圧倒的にプロ棋士より弱かったからです。しかし渡辺竜王は、100回に1回くらいは負ける可能性があると的確に分析できていました。ボナンザとの対戦は一発勝負でしたので100回に1回でも負ける可能性があればその1回がたまたま来てしまえば全敗です。人間はコンピューターより将棋が弱いと言われかねません。渡辺竜王はどうしても負けるわけにはいかないと思い、竜王ともあろう方が、ボナンザの弱点を研究し始めます。

■ 数万回に一回しか出てこない棋譜を過剰に学習するという弱点
 保木さんは誰でもボナンザといつでも対戦できるようにプログラムを公開していました。そのため渡辺竜王はボナンザと何度も対戦して弱点を探します。そしてある弱点を見つけました。それを正確に述べるのは難しいので誤解を恐れずに簡単に述べます。過去のプロ棋士同士の対戦の中で、数万回に一回程度しか現れない場面があります。データが少ないためボナンザはそのときプロがたまたま打った手が良い手であると学習してしまいます。しかし、本当はそれがミス手である場合が希にあります。そのためそれと同じ場面がくると、ボナンザは必ず同じミスをしてしまうのです。たまたま打ったミス手を“過剰”に学習してしまうのです。

■ 渡辺竜王は大人気なくボナンザの弱点を突く
結局、渡辺竜王はボナンザのその弱点をつくことに専念しました。すなわち、同じ局面を作り出しミスさせるのです。実はボナンザは日々学習し成長しているので、試合当日のボナンザはまったく同じ挙動は示さなかったのですが、おおむね似たようなミスを犯し渡辺竜王が勝利しました。

■ その棋譜は関係ないから学習させないということの難しさ
「過剰な学習を回避する」、もっと簡単な言葉で言えば「がんばりすぎない人工知能」、まさにこれこそが、人工知能の最先端の研究課題なのです。

■ 今年の世界選手権は、ボナンザの改良版ばかりが活躍
 その後、ボナンザが世界選手権で優勝することはありませんでした。保木さんは不連続なイノベーションを起こすことに向いた人で、そこから連続的にコツコツと改良を重ねることに向いてなかったのでしょう。どちらかが向いている人はどちらかに向いてないことが多いものです。さて、2009年に優勝したGPS将棋を始め上位に食い込んだコンピューター将棋はほとんどがボナンザを改良したものでした。保木さんはボナンザのプログラムを公開し誰でも使ってよいことにしました。そのため本家ボナンザは5位に終わりました。

■ 弱いボナンザをいっぱい集めて多数決を取る「文殊
そのなかで、3位の「文殊」に注目が集まりました。過剰な学習を避けるため少し弱いボナンザを何体も集め多数決を取らせるという珍しい手法をとっているからです。実は、弱い個体を排除し強いものを生き残らせるという手法よりも、弱い個体を残し多数決を取らせたほうが強いのではと言われています。これは過去強かった個体が未来強いかどうかは分からないからです。環境変化が激しい状況では、優秀な個体が行った成功手法が未来には通用しないことが多いため、多様な個体を抱えその時々で活躍する個体が変わっていく集団のほうがうまくいくということでしょう。これは将棋以外でも言えることかもしれません。

■ 保木さんから学んだこと、仕事の範囲を制限しないこと
 保木さんから学んだことは、自分の仕事が何なのかを制限してしまうとイノベーションは生まれないということです。保木さんがもし、人工知能は分子化学とは関係ないからやらないと思ったらこのイノベーションは生まれませんでした。また、保木さんがコンピューター将棋の作成に専念していたらやはり、このイノベーションは起こらなかったと思います。というのも、ボナンザには分子化学で使われる手法が多く取り入れられているからです。自分の活動範囲を制限しない、これが保木さんから学んだことです。Google社では勤務時間の20%は、日ごろの作業とは関係ないことをやることが義務づけられていますが、まさにそれがイノベーションを生む源泉になっているのだと思います。

■ 渡辺竜王から学んだこと、手段を柔軟に選ぶこと
渡辺竜王から学んだことは手段を柔軟に選ぶということです。渡辺竜王はボナンザ対策として、第一手目で端にある「香車」をひとつ前にあげることを本気で検討したといいます。ボナンザは過去に存在していない棋譜は学習していないので混乱し、ミス手を打つ場合があるからです。「竜王たるものがそんな大人気ないことをするのか、竜王たるもの胸を貸すつもりで戦え」と思う方もいるかもしれませんが、プロ棋士仲間達からはそのような声はあまりでなかったと思います。当たり前です、そんな甘い世界ではありません。彼らの目的は“勝つ”ことです。どんな勝負も全力です。圧勝して文句を言う人などいません。胸を貸すような戦い方をして負ければ、それこそ大バッシングです。渡辺竜王は人間を代表して、コンピューターに“勝つ“という目的を見失いませんでした。そして、そのための手段を柔軟に選びました。

イノベーションは、確固たるぶれない目的、柔軟で多様な手段、から生まれる
 イノベーションをし続けないと生き残れない時代であるといわれています。それは国も、企業も、スポーツ選手も、あらゆる場所でそうなっています。イノベーションを起こす為に必要な共通要素は何か?それは私ごときに分かるわけもないのですが、今のところこんな感じかなと思っています。すなわち、「確固たる、ぶれない目的」を持つこと、「柔軟で多様な手段」を試すこと。目的と手段はキチンと分けて考える、目的は見失わないように、手段は柔軟に変える、って感じかなと思います。日々忙しければ忙しいほど、特定の手段にこだわり、目的を見失ってしまいがちです。そんなことを考える今日この頃でありました。