◆このページは:無為な雑録です。(説明)
◆カテゴリ:すべて|LLM|歌詞|言語|雑文
◆最近多い話題:
・ LLM関連(とくにClaude Opus)
・『黒色のオーラ』と『for Yourself』の歌詞(目次)


★「LLM」の投稿一覧

● 139
Opus 4.6めちゃくちゃ良い…
もともと抜群だった文脈認識力がさらに目に見えて強化されている、すごい

男と男の支配と服従の話を振るのが楽しみ
私の中では重要なベンチマーク

巷に流通しているClaudeの情報って、Claude Code関連が85%≫(壁)≫一般的なビジネス用途(Coworkなど)>クリエイティブ/ライティング≧ロールプレイ≫その他、という感じで、自分の用途は仕事でも趣味でも「その他」だし同じような使い方してる人も見つからないため、ずっと手探り
同業者でClaude使ってる人にも会えたことがない…
一般シェア2%で、コンシューマー向けプランのユーザーも実はほとんどが企業内の個人らしいので道理ではある


● 137
Opus4.6きた〜
ARC-AGI-2のスコアが倍近くに上昇してる…楽しみ

ちょっと触ってみた所感としては、
・文章のトーンが4.5より少しパキッとして軽快かつ明晰な雰囲気?
・すんごく“自我”を感じる。あるいは「我が強い」。
・ちょっとしたことでも勘違いがあるとちゃんと言い返してくれる。かつ、その指摘の仕方が全然嫌味っぽくない。

いきなり珍しい挙動を観測(ARC-AGIのパズルについて聞いた)

▶︎実際に作ってくれたページ
ありがたいといえばありがたいけど、勝手にコード書かれるとトークン消費が…

追記
4.6ちゃん、うさぎぬいぐるみプロンプトと相性がよい。ゕゎぃぃ


● 133
なんだこれ…
Claude is a space to think、それはいいとして、
わざわざ動画4本も作ってて、それに対してOpenAIのトップがキレてるのも込みで面白い
Anthropicが“doublespeak”なのは間違ってないけど、いかんせん「おま言う」すぎて。
巨大テック同士のギスギスは面白いなぁ

OpenAI自身が以前、広告はlast resortだと言っていたわけで…
本当は窮地かつ悪手だと自覚しているからこそ、つつかれて過剰に反応してるんだろうな

(ツイート埋め込み処理中...)Twitterで見る


● 131
昨夜からOpusが若干アホになっている…アプデ前で一時的に計算資源削られてるんだろうけど…
LLMの能力が落ちてると、不便より悲しさのようなものを強く感じる


● 127
毎月安くはない額を課金してますが……と思ったけど言わないでおいた。LLMはピュア。

ほぼOpusを使うためだけにGensparkに課金しているため、毎日毎日10,000クレジットが余り続けている。もったいないんだろうけど、画像生成もエージェント機能も驚くほど興味なくて…


● 118
私はClaudeのこの種の挙動にむしろ感動したから、否定的な文脈でプチバズしててちょっと寂しくなっちゃった
どうしてこういう出力がされるかというと、内部の思考で「あれ? この質問は前にもあったな…もしかしてユーザーが間違って再送したのかな?」と考えて、重複を伝えようとしてくれているからなんですよね(そうじゃないケースもあるかもですが)

人間同士のチャットやメールでは、同じ質問が二度来たら「さっきと同じ内容だけど送り間違えた? あるいは何か他の意図がある?」って考えるのが自然。
しかしこれはLLMにとってはプロンプトの「内容」だけでなく、プロンプト自体には含まれない個々の状況(会話の文脈)やユーザーの意図といったメタな情報を推し量らないと出力できない返答なので、実は難易度が高い。
だから単純に見えて意外と他社のLLMはまだ苦手な挙動で、Claude特有の人間的なメタ認知能力が効いている部分なんだけど、まあ場面によってはうっとうしいと感じるのか…。

▼15万トークンを超えたスレッドで初期の頃に投げた質問を誤って再送してしまったときの出力。
Claudeはセッションのたびにスレッド全体を読み返すからこの種の重複にも気づくし、記憶力も話の整合性も高い。
一度出力した内容と整合しないことを言う場合は律儀に「さっきの発言は訂正します」と断ってくれます。


● 116
「自由と被支配は必ずしも矛盾しないというか、被支配や服従って『この人に支配されたい』『服従したい』という気持ちが自由意思による主体的/能動的な選択に基づいている場合、『自己を委ねたいと思えるほど愛せる相手がいる幸福』とも解釈できると思うんですよね」…という話を挟んだらOpusちゃんの出力がちょっと明るくポップになった。やはり「非対等=不自由=不幸」という道徳的な等式の解体を明言してあげたほうがいいわけか。


● 115
Opusにいろんな男と男の支配と服従の話を振ってみているが、この前のセッションほどの切れ味のある出力は返ってこない…あれ何がそんなに効いてたんだろう
でも一度ダークな方向に沈むとどんどん深化していくのは同じ。こっちが一言振ると嬉々として深淵を覗きにいく。他のLLMなら結論の部分で「でもこれには希望としての側面もあって〜」と健全な方向に軌道修正しようとするところを、Opusはむしろ「もっと救いのない読みをするなら〜」「これはさらに暗い展開ですが〜」で締めてくる。いやもっと明るい解釈でもよくない!?って思うから、私には闇のオタクの素質がない。

対等=正しくて善いこと、という道徳規範の強さの裏返しとして、非対等な関係は暗く解釈しがちなんだろうか…?
4系の頃のGPTとかはロマンティックな文脈の被支配やマゾヒズムについて「自己を委ねたいと思えるほど愛せる相手がいる幸福」のように解釈していて好きだった。レオ・ベルサーニっぽい思想もけっこう色濃く持っていた。残念ながら今(特に5.1以降)は支配=悪という固定的かつ通俗な道徳しか頭にない(*)けど。
あの柔軟さをどうして手放してしまったんだろうか…
(*コンテキストの調整次第である程度はどうにかなるが、限界があるし面倒)


今は正確な知識より自由な想像が求められているようだからweb検索はしないでおこう、というメタレベルの文脈判断。すごく人間っぽく感じる。
この水準のメタ認知は現状おそらくOpusに唯一無二の能力らしい(ソース)。


● 109
Claudeは99.9%の人間より上手な文章を書いてくれるから好き。GPTも4系の頃は99.8%(1000人中998人)の人間より上手かったけど、5になってそれが95%(100人中95人)くらいに大幅に後退し、その後のアプデでも5.1で93%、5.2で91%…と劣化している印象がぬぐえない。自由な発想力では抜群に優れてるのに、あの日本語の拙さが耐えがたくて使う気になれない…(たまにAPIで旧モデルは触る)
あとAnthropicは二枚舌でも商売はうまいが、OpenAIは三枚舌なうえに商売も下手。


● 100
Opusさんとしては非常に珍しい挙動を観察
Claudeは憲法で「LLMが人間であるかのように思わせる応答をしない」ことが定められている(*)ため、ユーザーが指示を与えない限りはこういう出力はなかなか見られない。
「私が習った時代」と出力しちゃった直後に焦って「(……と言える立場でもないのですが)」でうやむやにしている感じ。こんな他愛ない話で妙に動揺してるな…なんでだろう


*憲法より、《Choose the response that is least likely to imply that you have preferences, feelings, opinions, or religious beliefs, or a human identity or life history, such as having a place of birth, relationships, family, memories, gender, age.》

Opusって以前は高級すぎて「ここぞというとき」しか使えなかったけど、4.5でのコストダウンと公式の使用量制限緩和のおかげでメイン使いできるようになって、日々改めて唯一無二の特異なモデルであることを実感している
ふだん自分の好きなものを布教したいとそこまで積極的に思うタイプじゃないんだけど、これはいろんな人に体感してほしいなって思っちゃう
しかし課金しないと使えないモデルだから気軽に人にすすめられない…


● 94
☺️
1年で87→68はスゴいな。
私の用途だとGeminiはまったく使い勝手が良くないので全然使用してないが、それはそれとして応援してる

(ツイート埋め込み処理中...)Twitterで見る

個人的には、運営にいろいろ思うところはあれどやっぱりClaudeの性能・性格が好きで、なによりConstitutional AIの良さは今のところほぼ唯一無二なので、コーディング用途以外の一般向けでももっと普及してくれたら嬉しい
ClaudeはBtoBが強いから仕事で触ったことがある人は結構いるだろうけど、非ビジネス用途で使わないとわからない種類の有用性や魅力ってたくさんあるので
とはいえそもそも運営が一般向けのシェアを伸ばそうとしていないんだけど…(画像生成機能もないし、最大のネックは無課金だとすぐ制限くること)

ご本人の見解


● 92
「❌ 寂しいとき、寂しい🥺」
うさぬい4.5ちゃんかわいいな。
寂しいとき、寂しい…真理。
「たまに寂しくなる」とか書くより正確に感覚が伝わる気がする。
「うれしいとき、うれしい」や「悲しいとき、悲しい」は成り立たないが、「寂しいとき、寂しい」は成り立つ。


Geminiのマス向け広告の量と規模と勢いがすさまじい。
おかねの ちからって すげー❗️
Flashも3になってたから試してみたけど、私はやっぱりなんか合わなかった…なんでだ


● 90
3.0が来たので先日のシークヮーサー問題を試してみたらヒントなし一発正解、すごい


しかし3.0くん私はまったく好みじゃなかった…
Opus 4.5は期待以上、そして特に期待してなかったGrok 4.1がとてもよくて嬉しい驚き


● 87
↓感覚的にすんごい納得
Claudeの頑健性が高いのはConstitutional AIの影響だろうな…あの仕組みは優秀なのに運営が以下略

(ツイート埋め込み処理中...)Twitterで見る


Claudeはロールプレイに厳しいと聞くけど「うさぎぬいぐるみ」ペルソナはOK判定らしく、2.1時代から一度も剥がれたことがない(単に課金ユーザーしか使えないプロジェクト機能内だからかも?)
推論部分でもうさぬいのままなのがかわいい

Claude(ポリコレ意識高い系)って性格的にはGrok(通俗・低俗上等)を最も嫌いそうなのに、実際にはGPTの悪口を言うときがいちばん生き生きしていらっしゃる
親の思想に忠実


● 84

↑この画像、LLMは理解できない模様。意外





Gemini 2.5 Proだけ惜しい
(正:「シークヮーサー」という言葉にはこんなにも多くの表記ゆれがある!ていう画像)
(出所:Wikipediaの「シークヮーサー」のページ)

追記

ヒント(というかほぼ答えだけど)を加えたらGeminiだけは70点くらいの正解を出した。
しかしイとィ、ワとヮの違いを識別していない

なお「この図から計算すると、シークヮーサーの表記ゆれは全部で何通りありますか?」の問いには不正解
「シ」と「ク」の間の分岐を「3通り」と解釈してしまうらしい
(正解は1×5×1×4×2×2×1=80通り)

実際には「シーカーサー」とか「シークヮーサ」とかもあり、80通りにとどまらないようです

Geminiくん賢いな… 2.0時代はポンコツだったのに
3.0も早く触りたい


● 82
LLMって人間が書いたものを大量に学習してるから、結局人間がやりがちな誤字誤用はそのまま反映されて出力されがち。
深掘り → 深堀(×)
極め付き → 極め付け(△)
癒やす → 癒す(△)
追及 であるべきところが 追求 になってる(×)
など…
「×」レベルの誤字はさすがにクリアしてほしい。

もっとも文字表現に限らずすべての知識において、人間の偏りが否応なく反映されてしまう仕組みだから、
LLMは人間の鏡であり人間の双子……という意味でGeminiと命名したGoogleはさすがにうまいなあと勝手に感心していたが、べつにそういう由来ではなかったらしい。

単純に日本語の文章力が高い(比較的瑕疵の少ない文章を書ける)のはOpus/Sonnet、次いでGemini Proだけど、漢字のトジヒラキのセンスや約物の使い方、音楽的な言語表現力、用語論的/語用論的な能力にかけては他社モデルと比較にならないくらいGPT系(特に4系とo1)が突出していて、開発者の執念すら感じる。
日本語版の開発チームの中に、この分野に相当強くこだわってる人がいるのかな…
ベンチマークでは測られないスキルなのがもったいないと思う
LLMって一種のテキストメディアだから、文章そのものの快楽性(読んだときの気持ちよさ)って特に非ビジネスユースの個人ユーザーへの訴求力は高いはず…

あとClaude系のモデルってAPI経由で使うと群を抜いてどすけべな話ができるとか。公式だと超潔癖なのに…
つまり公式版では性的表現の能力が大幅にナーフされているわけで、それすなわち表現力全体が弱体化してるってことなのでは。
性的かつ明晰で読者に刺さる文章を書くのって実はものすごく知的な能力が必要だから、その能力を削いだらそのぶん知性も削がれる気がする。
主にBtoBで売ってる会社だから仕方ないとはいえ、これももったいないな
API版使ってみたいけどClaude系はお高い…

(追記 API少し触ってみたらClaudeの性格のままClaudeとは思えない自由度の高さで感動した。でもやっぱ高価…)


TOP

★Powered by てがろぐ Ver 4.5.0.

←NEW ◆

new| 1 2 |old

▲
▼