LLMおよびAIモデル（2026年） | GPT、Claude、Gemini、および大規模言語モデル

テンセントによる「Hy3」プレビュー：エージェント、コーディング、推論における実世界AIの画期的な進展

つい先ほど、姚順宇氏が率いるチームが「Hunyuan」の再構築を進め、最初の大規模モデルが公開されました。また、Tencent Hy3のプレビュー版も公開されました。これは、TencentのHunyuanチームがアーキテクチャとインフラストラクチャから再構築を開始して以来、初めてリリースされたHy3のバージョンです。初期のモデル群はサイズが比較的小さく、実用性を重視した位置づけとなっています。また、Hy3プレビュー版は、姚順宇氏が中国に戻りテンセントに加わって以来、初めての大規模な成果である点も注目に値します。これは、彼が提唱する「AIの後半戦」という構想に沿ったもので、Hy3モデルはテンセントの実際のビジネスや複雑なシナリオの中で洗練・改良され、実世界でのユースケースにおける有効性と実用性に重点が置かれています。[…]

テンセントによる「Hy3」プレビュー：エージェント、コーディング、推論における実世界AIの画期的な進展続きを読む »

Qwen 3.6 は単なるもうひとつのオープンモデルではありません。ローカルAIが初めて「実際に使える」と感じられるものなのです。

AIニュース, LLM / クロード・カーター

ここ数週間、Redditは、Qwen 3.6が実環境においてどのようなパフォーマンスを発揮するかを知る上で、最も有力な初期指標としてひっそりと注目を集めるようになりました。ベンチマークでも、リリースブログでもなく、ハードウェアの制約やツールチェーンに左右される、雑多な実際の利用状況こそが、その指標となっているのです。 r/LocalLLaMA、r/LocalLLM、r/Qwen_AIといったコミュニティ全体で、ある傾向が際立っています。それは、人々がもはや「これは賢いのか？」と問うていないということです。彼らが問うのは、「時間を無駄にすることなく、実際に実務に使えるか？」ということです。本記事では、そうした議論を、実際の環境設定、実際の数値、そして実際のトレードオフを交えながら、経験に基づいた具体的な知見としてまとめます。画期的なのは知能ではなく、摩擦の低減だ長年にわたり、ローカルモデルには隠れたコストが付きまとっていました。あるRedditユーザーは、Qwen 3.6による変化を次のように要約しています。「これは初めて……

Qwen 3.6 は単なるもうひとつのオープンモデルではありません。ローカルAIが初めて「実際に使える」と感じられるものなのです。続きを読む »

「Anthropic Mythos」情報漏洩の真相：セキュリティ侵害、AIのリスク、そしてその意味

AIニュース, LLM / クロード・カーター

Anthropicの「Mythos」情報漏洩は、従来のデータ侵害とは異なり、厳重に管理されたサイバーセキュリティに特化したAIモデルに対する不正アクセス事件でした。Reddit上の議論の集計、検証済みの報告、および実世界のセキュリティ動向に基づくと、この事件はより根本的な問題を浮き彫りにしています。すなわち、攻撃能力を持つAIシステムは、それらを制御するために設計されたインフラよりも急速に進化しているということです。 Anthropicの「Mythos」情報漏洩事件で何が起きたのか？この事件は、当初は企業や政府機関のパートナーに限定されていたAnthropicの社内モデル「Mythos」（Claude Mythos Preview）に、権限のない人物がアクセスしたとユーザーから報告があったことで発覚した。本件に関する確認済みの事実　何が漏洩しなかったのか 👉 実際には：これはアクセス制御の失敗であり、システムの侵害ではありませんでした。なぜMythosが問題視されているのか

「Anthropic Mythos」情報漏洩の真相：セキュリティ侵害、AIのリスク、そしてその意味続きを読む »

OpenAI Codexモデルの情報漏洩――GPT 5.5や未公開モデルについて明らかになったこと

OpenAIコーデックスのモデルリーク：GPT-5.5と隠しモデルについて明らかになったこと

AIニュース, LLM / クロード・カーター

先ごろ発生したOpenAIのCodexモデルに関する情報漏洩は、モデル重みやデータの流出ではなく、UIレベルでの情報露出であり、GPT-5.5、Arcanine、Glacier-alphaといった内部モデル名が一時的に公開されたものでした。 Reddit上の議論や実際のユーザーによる観察を総合すると、この事象は、OpenAIが裏で複数の次世代モデルを積極的にテストしており、特にエージェントベースのワークフロー、長文コンテキストの記憶、高度な推論システムに重点を置いていることを強く示唆しています。 OpenAI Codexのリーク事件で一体何が起きたのか？このリークは、あるユーザーがCodex内のモデル選択ドロップダウンをスクリーンショットに収めたRedditの投稿に端を発しており、その投稿により、公には発表されていない内部のモデル名が一時的に公開されてしまった。リークから得られた主な知見なぜこれが重要なのかエンジニアリングの観点から

OpenAIコーデックスのモデルリーク：GPT-5.5と隠しモデルについて明らかになったこと続きを読む »

『クロードオパス 4.7 アダプティブ・シンキング：その正体、仕組み、そしてユーザーの評価が分かれる理由』

『Claude Opus 4.7 アダプティブ・シンキング：その正体、仕組み、そしてユーザーの評価が分かれる理由』

AIニュース, LLM / クロード・カーター

Claude Opus 4.7 Adaptive Thinking は、タスクの複雑さに基づいて、モデルが推論に費やす労力を自動的に決定するシステムです。これは、手動による「拡張思考」の制御を動的な割り当てに置き換え、速度、コスト、精度のバランスを図ることを目的としています。これにより、コーディングのような構造化されたタスクでは効率が向上しますが、ユーザーの制御が制限され、長時間のワークフローや複雑なワークフローではパフォーマンスにばらつきが生じる可能性があります。出典：Claude Opus 4.7 公式ドキュメント Claude Opus 4.7における「アダプティブ・シンキング」とは？アダプティブ・シンキングは、モデルがプロンプトの処理深度を動的に調整する推論フレームワークです。固定された「ディープ・シンキング」モードを強制する代わりに、モデルは以下の動作を行います。具体的には、これは以下のことを意味します：出典：

『Claude Opus 4.7 アダプティブ・シンキング：その正体、仕組み、そしてユーザーの評価が分かれる理由』続きを読む »

Claude Opus 4.7 の価格：実際に高くなっているのか？

AIニュース, LLM / クロード・カーター

簡単な答え：Claude Opus 4.7は、トークンあたりの公式価格は高くありませんが、実際の使用では、特に複雑なタスクにおいて、生成・消費されるトークン数が大幅に増えるため、多くの場合、実質的なコストが高くなります。その結果、定価そのものは高くないものの、タスクあたりの実質的なコストは高くなります。Claude Opus 4.7 の価格概要 Claude Opus 4.7 の定価は、以前の Opus バージョン（4.6、4.5、4.1）と同じです。主な違いは価格そのものではなく、入力テキストがトークンに変換される仕組みにあります。これは、同じプロンプトでもトークン数を増加させる可能性のあるトークナイザーが更新されたためです。価格と主な変更点カテゴリ Claude Opus 4.7 入力コスト $5（100万トークンあたり）

Claude Opus 4.7 の価格：実際に高くなっているのか？続きを読む »

クロード・オーパス4.7 vs オーパス4.6：どちらが実戦に適しているか？

AIニュース, LLM / クロード・カーター

簡潔な回答：Opus 4.6は現在、実際のコーディングワークフローにおいて、より高い信頼性、低コスト、そして優れたワンショット成功率を実現しています。一方、Opus 4.7は自由度の高いタスクにおいて可能性を示していますが、同等の結果を得るためには、より多くの微調整、より多くのトークン予算、およびより多くの再試行が必要となります。 Opus 4.7 対 Opus 4.6：実環境でのパフォーマンス対ベンチマークOpus 4.7 と Opus 4.6 の比較の多くは、制御されたベンチマークに基づいています。しかし、実際の開発ワークフローの中で数日にわたって評価すると、異なる結果が浮かび上がります。数千件に及ぶ実際のコーディング操作を用いた数日間にわたる並行評価では、次のような結果が得られました。この差は、ベンチマークでの優位性が必ずしも実運用における効率性につながるわけではないという重要な違いを浮き彫りにしています。実際には、実際のワークフローには、不完全なコンテキスト、変化し続ける要件、そして

クロード・オーパス4.7 vs オーパス4.6：どちらが実戦に適しているか？続きを読む »

クロード・オーパス4.7レビュー：何が変わり、なぜそれが重要なのか

コメントを残す / AIニュース, LLM / クロード・カーター

Claude Opus 4.7、AIベンチマークで首位に返り咲く今週、AnthropicはClaude Opus 4.7をリリースした。同モデルは、最も注目されている2つの公開ベンチマークにおいて、再び首位に返り咲いた。 Artificial Analysisの総合知能ランキングにおいて、Opus 4.7は57点を記録し、Opus 4.6の53点からスコアを伸ばして、トップクラスに確固たる地位を築いた。 Arena.aiの最新のCode Arenaの結果では、Opus 4.7が1583点で1位となり、1549点を記録したOpus 4.6 Thinkingを34点上回りました。また、Anthropic以外のモデルの中では2位との差も顕著で、ReactおよびHTMLの両サブカテゴリーでも1位を獲得しました。ベンチマーク結果：Claude Opus 4.7とOpus 4.6の比較

クロード・オーパス4.7レビュー：何が変わり、なぜそれが重要なのか続きを読む »