おむすびとしぐさと Tranformers Squared

大切なのは「圧縮」なのです。

ご飯を持ち運びたければ、おにぎりにする。旅行に行くならパッキングする。
言葉も脳で行われる概念の圧縮です。グラフも事象の圧縮であり、MPEGやMP3も映像や音響の圧縮技術です。
後者がご飯と違うのは密度の方向です。ご飯は字義通りの圧縮なのに対して、言葉やグラフは縮約であり、スカスカ化とも言える。だから上手い人も下手な人もいる。それでも日常では、人の能力を思えば手ごろで絶妙な効率化と言えるでしょう。

さて空間的なものは圧縮できても、時間方向の意味や文脈の圧縮は難しい。人の話しことば、書きことばの圧縮のことです。

日曜日の朝、子どもが起きて「パパ、晴れてるよ!」と言えばそれは遊園地に行きたいという意味だし、同じ朝でも妻が目を合わせればそれは「家事をして」の意味とみて間違いない。
(これぞ圧縮の極北、目線やしぐさによる情報伝達に勝るものはない。意図や状況をも一切の無駄なく圧縮した上、圧迫まで加えるとは。)

閑話休題、こんなひとのような対話を機械が出来るようになるとは思ってもみませんでした。
それが、GPTをはじめとするLLMでほぼ実現してしまいました。Attention(注意機構)によって長い文脈が覚えられるようになった。
そこではうまい行列演算が膨大に走り、そこに森羅万象の文章を放り込むことで、エッセンスを圧縮して抽出し、次の単語から文章まですらすら編み出すまでできるようになった。
内燃機関のように圧縮は爆発的なパワーも秘めるのでした。

まずは知識モデルとしてそれは起こりました。GPT3.5、4、を組み込んだチャットGPTとして。

そしてこの半年、いやこの一ヶ月、推論モデルが一気に進化しました。推論というからには論理の領域てす。GPT o1、o3系列が登場し、コスト1/1000というDeepSeek R1が発明され、人類は紛うかたなく次のステージに立ちました。

推論能力を高めるため、人を鍛えるかのようにAIを鍛える、さらにAI同士で高め合うところまで。囲碁のアルファ碁ZEROと同じ方法論。AI同士なので疲れを知らず、はやりの7.5時間睡眠も何のその、人の千年分の対局を数日で終えた結果、人の世界チャンピオンでさえ、いえ、その人に勝利したAIでさえ勝てない最強AIが完成しました。
それと同じことが、ことばの領域で急進行しています。

しかし、LLMは固定化が問題でした。いくら最強とは言え、変化しない種は滅びる。

この一カ月で、ついにリアルタイム自己適応学習の仕組みが発明されたようです。(前回「一緒に生活するだけで、主人友人の見方に触れて学んでいくかもしれません。(そのようなLLM / AI Agent が登場するでしょう。)」と書きましたが、その一歩目はもう登場してしまいました。)
恐らく一斉同時進行ですが、ここではサカナAIの Transformers-Squared に触れましょう。

image おむすびとしぐさと Tranformers Squared


ここでの肝がまた「圧縮」なのです。SVD(SingularValueDecomposition)という、行列分解・圧縮の美しい数学手法がコアアイデアとして使われます。(私も以前、コンテクストをレコメンダーに組み込む研究で適用した手法でした1
SVDを、推論時にタスクに応じて行列演算に適用し肝の重みだけ調整するという、言われてみれば誰もが思いつくべき手法です。

カギは、タスクごとに学習された zベクトルを強化学習により作っておくこと、推論時にはSVDの Σ (対角行列)をタスクに応じて、例えば 数学専用zベクトルで調整するメカニズムです。これを著者らは特異値微調整 (SVF)と呼んでいます。

image-2-1024x84 おむすびとしぐさと Tranformers Squared

モデルが入力されたタスクをまず分析し(第1段階)、そのタスクに適した上記重み調整メカニズムを経て応答を生成する(第2段階)。​

これはひょっとすると、汎用的で柔軟な適応性を持たせうるという点で、革命的なことが起きたのかもしれません。

手法はともかく、
自己適応学習ができるということは個人化LLMができるということ。すなわち自分だけのアシスタント、最適な万能教師、決して飽きさせないおしゃべり相手、ちょっと心が疲れた時にはおばあちゃんにだってなってくれる、ということ。

この続きは次回。

  1. 以前、コンテクストをレコメンダーに組み込む研究で適用した手法でした。いやはや20年前とは:https://patents.google.com/patent/JP2006048286A/ja ↩︎

好みのバイアスとLLM(とDeepSeekの方法論)

人は好みに応じて情報を選び取る。つまりバイアスがかかった情報が脳にインプットされる。

選択は環境のせいかもしれませんが、本人は本人の意志だと感じている。その繰り返しがまた好みを作ります。


一方、AIに好みはありません。教師データによってバイアスが生じるだけ。しかし、LLM(Large Language Model)の時代になり、そのデータが世界全体となった結果、バイアスは(一般的レベルでは)消えました。

バイアス無しに意思決定できるでしょうか?意思を持てるでしょうか?
そもそもバイアス無しの好みとは言語矛盾ではないか?

バイアスを持ったAIを想定しましょう。昔のMicrosoft Tayでもよい。
あれは、善悪で問題を引き起こしたわけですが、そのバイアスゆえに人っぽい存在にはみえたのではないか。一貫性が感情・感覚の所在として捉えられたのかもしれません。

LLMを巨大知識・常識マシンに据え置くか、人格を感じて付き合いたいか?

後者を求めるなら、特定の偏り、バイアスを持たせることが必須でしょう。
(これは身体性や世界の理解の話1※1とは異なります)

AIにバイアスを与えるには、どうすればよいのでしょう?
論理でなく、感性(好み)でも、LLMには言語化して伝えるしかありません。
教師ありのFineTuning 、あるいは、DeepSeekR1Zero の取った方法論である、強化学習、知識蒸留が、推論モデルでなく感性の制御に活用できるのでしょうか?

偏り強化学習は生活環境で生じさせるのがよいのかもしれません。寝食を共にすることがAIにとっても大切。
その過程なしでLLMを友達とみなしたら、不気味の谷に落ちて悲しくなるのが落ち。AIは友達でなく先生、とみなしても、おそらく同じ結末になるでしょう。

人と人との関係性は、偏りに対する違和感あってこそ。

~「煙草くさき国語教師が言うときに明日という語は最もかなし」(寺山修司)

  1. 例えば、“AIのゴッドファーザー”が提案する、未来のAIを友好的に保つ方法(Wired 23.08.16) ↩︎

智慧と知識とシンギュラリティ

70f21f32c9ac8f47d0481367cc5c0d5c-1024x682 智慧と知識とシンギュラリティ

 「智慧はコピーされることがない」という言葉に出会いました。
~「ソニーから学んだ「差別化戦略」 養うべきは知識ではなく智慧」茶谷公之氏

 智慧とは「真理を見極める認識力」であり、Wikipediaによれば「一切の現象や、現象の背後にある道理を見きわめる心作用を意味する仏教用語」とあります。いやこれは確かに容易に伝達できそうにはありません。 

 一方、知識はコピーし伝達できる。法則化され原理が明確になったものが「知識」なので伝わりやすいのですね。

 単なる知識でなく智慧が生んだイノベーションの差は決定的であり、それぞれの分野で経験を積んで智慧を養おうという氏の説に大いに納得しました。

 

 少し考えてみると、AIに「知識処理」はあっても、「智慧処理」はありません。そもそも智慧処理という語感からしてなんか異な感じがします。処理対象として、知識はあっても智慧は無いということは万人共通の感覚ではないでしょうか。

 また逆に、「知恵の輪」はあっても、「知識の輪」はありません。知恵の輪は知識では解けません。つまり智慧には、「試行錯誤」が深く関わっているようです。

 知識は処理できる対象であることから、よりエレガントに整理され、ますます伝達されやすくなるのでしょう。数学の証明がまさにその例です。

 若い頃憧れた広中平祐氏。氏のフィールズ賞受賞業績である「特異点解消定理」※1。世紀の難問をいわば力業でねじ伏せた証明は218ページとか。当時の数学史上最長論文で「広中の電話帳」として有名なくらいです。理解できる人は世界に10人と、よく言われる表現で語られました。

 その後、証明は洗練されて、今では「大学院初年級の学生でも“ごまかしなし”に全体が読める証明がある程に理解が進んでいる.」(松木謙二, 数学69巻1号2017年1月)といいます。さらに、智慧の結晶である数学理論が、知識化のおかげで、今では機械学習モデルを支える定理として、実世界の課題に対して具体的な解決をもたらしているそうです。

 智慧は各所に大なり小なり必要であり、知識の体系化も様々な応用も智慧があればこそといえるでしょう。しかしなんといっても最初の着想と筋道の発見こそが、人類の智慧の集積点であり、そう、まさに特異点に違いありません。※2

 智慧はコピーもできないし、微分もできない、ということが導かれました(笑)

 

※1 任意の代数的集合(「多項式=0」で定義された集合)は,ブローアップと言われる操作を繰り返すことで 必ず特異点を解消することができる(広中の定理)。

特異点とは、微分不可能な点。ジェットコースターの影(2次元への射影)が交わっているところ、これが特異点で、実際の3次元空間で交わっていたとしたら大事故になります。

0f9207460cf3ff88a301c0f50d40cec3-1024x670 智慧と知識とシンギュラリティ

つまり次元をあげる・見方を変える、ことで特異点が解消される、という、ある意味、仏教の悟り的であり、まさに本来の意味での「智慧」がもたらしたもの、日本人が解くべきして解いた定理だったように思えます。(広中平祐, 「生きること学ぶこと」にも確かそんなようなことが書かれていて心が震えたものでした。)
最初の論文が出てから50余年の時を経て、機械学習の統計モデルにおいてこの定理が極めて重要な役割を果たしているというのは何ともロマンチックな話です。

※2 それとは別にこの「特異点」という語は、近年、特にAI文脈で特別な意味をもって取り上げられますね。いわく、2045年にシンギュラリティが訪れる!と。(技術的特異点:AI自ら人間より賢い知能を生み出す事が可能になる時点

Copyright 2021 GIG Intelligence Inc.