昨日の続きで、アリババ最新のQwen3が発表されて、ダウンロードできるようになった件の続き。

Qwen3: Think Deeper, Act Faster | Qwen

まずこれが本家のページの詳細な説明ですが、一応参考情報としてそれぞれのベンチマークの意味について説明を加えました。

ベンチマーク名説明
ArenaHard難易度の高い総合AI能力テスト。MMMUなどの延長的ベンチ。
AIME’24 / AIME’25数学の難問に対する推論・解答能力(AIME = American Invitational Mathematics Examination)を模倣した問題群。年号は出題年に相当。
LiveCodeBench実世界のコードタスク(GitHub等から抽出)に対する解答精度を評価。
CodeForces実際の競技プログラミングサイトでのEloレーティング評価。高ければ競技力が高い。
GPQAGeneral Programming Questions Assessment — 汎用プログラミングの問題に対する解答能力を評価。
LiveBench総合AIベンチマーク。自然言語・コード・数理推論などを総合的にカバー。
BFCL自然言語からのコード変換(NL2Code)のベンチマーク。
MultiIF多言語(8言語)での条件分岐処理など、国際的なコード理解・生成力を測定。

General Tasks(汎用タスク)

指標名内容
MMLU大規模多分野知識テスト。大学レベルの問題を多数含む(Multi-task Language Understanding)
MMLU-ReduxMMLUの難問・精度向上版。より高難度で判別性が高い。
MMLU-ProMMLUの派生で、プロフェッショナル(実務寄り)問題で構成。
SuperGPQA難度の高い汎用プログラミング質問集。推論力と知識の両方が問われる。
BBHBig-Bench Hard。非常に難解で創造的な推論・言語問題集。

🔹 Mathematics & Science Tasks(数学・科学系)

指標名内容
GPQA一般的なプログラミング質問に答える力。論理力が必要。
GSM8K小学生~中学生レベルの文章題の解法。ステップバイステップの推論力重視。
MATH高校~大学レベルの純粋数学問題の解答能力を測る。

🔹 Multilingual Tasks(多言語)

指標名内容
MGSM多言語版GSM8K。数学文章題の多言語対応力を測る。
MMMLUMMLUの多言語版。多言語にまたがる知識と推論力を評価。
INCLUDE多言語での命令理解・指示応答性能(Instruction Understanding)。

🔹 Code Tasks(プログラミングタスク)

指標名内容
EvalPlusコード自動生成の正確さを測る総合ベンチ。
MultiPL-E多言語コード生成タスク。Python, Java, Cなど。
MBPPPythonでの基本プログラミングタスク(Mostly Basic Python Problems)。
CRUX-O実務的・難易度の高いプログラミング問題ベンチ。Openソース由来。

なぜ、まずベンチマークの説明をしたかというと・・・

現在米国の各社(OpenAI,Meta,Googleなど)のクラウドで展開しているAIを能力を上回るか、ほぼ同等なものを、完全に無料で開放している

ということを分かってほしいですね。

そこで疑問がある・・・

いくらジャックマーが億万長者だとしてもNvidiaからH20を揃えて、電気代も人件費もコストを大量にかけて新しいQwen3モデルを訓練して作りだしたのに、完全に世界に無料開放するいうのはビジネスモデル的に言えばありえない話です。その背景には何かあるのかを考えてみます。

アリババとDeepSeekがQwen3とDeepSeekというAIモデルをオープンソース化した背景には、いくつかの要因が考えられます。

  • アメリカのクローズドモデルへの対抗: アメリカのOpenAIやGoogleなどは、モデルをクローズドに保ち、APIを通じてアクセスを提供するビジネスモデルを採用しています。これに対し、アリババやDeepSeekは、オープンソース化によって、より多くの開発者や企業が自社のモデルを自由に使用、修正、再配布できるようにし、アメリカ企業の寡占状態に対抗しようとしています。
  • エコシステムの構築: オープンソース化は、開発者コミュニティを活性化させ、モデルの改善や新たな応用を生み出す可能性を高めます。アリババやDeepSeekは、自社のモデルをオープンにすることで、より多くの貢献者を集め、米国以外の世界規模のエコシステムを構築しようとしていると考えられます。
  • コスト削減: 大規模なAIモデルの開発と運用には莫大なコストがかかります。オープンソース化によって、開発コストをコミュニティと共有し、自社の負担を軽減する狙いもあるかもしれません。
  • 技術の民主化: オープンソース化は、AI技術をより多くの人々が利用できるようにし、技術の民主化を促進します。これは、中国政府が掲げるAI戦略にも合致する可能性があります。
  • 規制回避: アメリカ政府は、AI関連の技術輸出規制を強化しています。中国企業がオープンソース戦略を取ることで、これらの規制を回避し、グローバル市場での競争力を維持しようとしているという見方もあります。

アメリカのクローズド戦略は、高い技術力と豊富な資金力を背景に、最先端のモデルを開発し、APIを通じて課金することで収益を確保しようとするものです。米国側は知的財産の保護を重視し、技術的な優位性を維持しようとするでしょう。また、セキュリティや倫理的な側面をコントロールしやすいというメリットも強調するでしょう。

しかし、クローズド戦略は、技術のブラックボックス化や、特定の企業への依存を生む可能性があります。また、APIの利用料が高額になる場合、広範な普及の妨げになる可能性もあります。

中国側のオープンソース戦略は、これらの弱点を突く可能性があります。透明性の高い技術を提供し、開発者の自由な利用と改変を促すことで、より多様な応用と迅速な技術革新を生み出す可能性があります。また、コスト面での優位性を示すことで、価格に敏感なユーザーや新興国市場を開拓するチャンスも生まれます。しかし皮肉ですね。

 自由を謳歌する米国が内向きになり、逆にあの中央集権の中国が、貿易の関税戦争も、AI競争でもやっていることが中央集権とは真逆なDecentralization(ディセントラリゼーション)というのがなんとも皮肉です。

とはいえ、アリババも無尽蔵に資金があるわけではなく、このままではいつまでも続けられないのだろうと思う。中国のお偉いさんがちょうど上海訪ねて、AI強国云々というタイミングでのQwen3発表はかなり政治的なタイミングだとも思うので、政府から資金援助はあるのだろう。もしかすると、こうして頑張っている間に、世界中の国々に力をつけてもらい、米国による一辺倒支配を瓦解してほしいと思ったりするのかもしれませんね。現にDeepSeekもダウンロード数はインドが圧倒的であり、今後インド系でAI人材がたくさん出てくるのでしょうし。フランスのAI技術や論文もちらほら出てきている。Windows95旋風のようなアメリカの圧倒的な支配が終わるかどうかはわかりませんが、我々ユーザーにとっては企業の競争は有り難いのは間違いない。DeepSeekが無茶しなければ、今頃OpenAiのAPI使用料がさらにやばいことになってただろうしね。

何度でもいうけど、無料で使えるのは有り難い。技術格差がそのまま経済格差になるこの時代で、オープンソースソフトたちにもう一度感謝したい。

カテゴリデファクトスタンダード (主にプロプライエタリ)対抗するオープンソース
PC OSMicrosoft WindowsLinux系、OpenKirinなど
オフィス系ソフトMicrosoft Office (Word, Excel, PowerPoint)LibreOffice (Writer, Calc, Impress), Apache OpenOffice
WebブラウザGoogle ChromeMozilla Firefox, Chromium
画像編集Adobe PhotoshopGIMP 、Kritaなど
動画編集Adobe Premiere Pro, Final Cut ProDaVinci Resolve (一部機能制限あり), OpenShot, Kdenlive
統合開発環境 (IDE)Visual StudioVS Code (Microsoft製だがオープンソース), Eclipse, IntelliJ IDEA (Community Edition)
データベースOracle Database, Microsoft SQL ServerMySQL, PostgreSQL, MariaDB
CPU命令セットアーキテクチャX86、ARMRisk-V
3DグラフィックスAutodesk Maya, 3ds MaxBlender
ゲームエンジンUE5、UnityGodot
スマホOSiOS、Android(Google)Android(亜種)、OpenHarmony

    投稿者 nobodycareblog

    コメントを残す

    メールアドレスが公開されることはありません。 が付いている欄は必須項目です