You are now offline.

「3人チームが巨人に挑む!Shisa.ai、日本語に最も強い大規模言語モデルを開発」

周冠宇 2025-08-27
feature picture
Shisa.ai

東京の街角にあるレストランで、一人の外国人観光客がメニューを指さしながら英語で尋ねた。「Hi, just wondering—does this contain any nuts? I’m allergic.」(こんにちは、この料理にはナッツが含まれていますか?私はアレルギーがあります。)店員は一瞬戸惑い、相手の言葉が理解できず、「すみません」と繰り返しながら緊張して手振りを交えて説明しようとした。観光客は一瞬言葉を失い、相手が理解できていないのかどうかも分からず、ただ気まずく笑うしかなかった。お互い同じテーブルに立っているのに、まるで厚いガラスの向こうにいるかのような気まずい空気が流れた。

こうした光景は、日本のコンビニエンスストア、レストラン、駅などで日々繰り広げられている。毎年、3600万人以上の国際観光客がこの国を訪れ、言葉の壁は旅の中の小さな悩みだけでなく、次第に大きな産業の痛点となっている。観光体験に影響を与えるだけでなく、国全体の競争力にも関わってくるのだ。

この痛点を解決しようと奮闘しているのが、日本のスタートアップShisa.aiである。創業者の沈佳(Jia Shen)氏とそのコアチームの3人は、AIを使って人と人とのコミュニケーションの方法を変えようとしている。彼らは即時音声翻訳製品「Chotto.chat」を開発した。スマートフォンを開くだけで、薬局、レストラン、タクシーの中でも、ユーザーは母国語で自然に話すことができ、Chottoが即座に流暢な日本語に翻訳する。しかも、話し手のトーンや感情を保ちながら、スムーズでリアルなコミュニケーションを実現する。「音声は文字よりも人間の感情やトーンを表現するのに優れている。コミュニケーションが自然に聞こえることで、人々は安心して話すことができる」と沈佳氏は語る。

Chottoの背後には、Shisa.aiが独自に訓練した大規模日本語言語モデル「Shisa V2-405B」が存在する。このモデルは、4050億のパラメータを持ち、コミュニティライセンスの形で公開されており、研究や非商業利用に開放されている。現在、最も優れた日本語言語モデルの一つとなっている。

2 .jpg
Shisa.aiは、自社で訓練した大型日本語言語モデル「Shisa V2-405B」をリリース。 Shisa.ai

チームの評価によれば、Shisa V2-405Bは、指示理解、役割演技対話、日本英翻訳、意味推論、テキスト生成などの多くの日本語タスクにおいて、OpenAIのGPT-4oや中国のDeepSeek-V3と同等の実力を示している。

驚くべきことに、こうしたテクノロジーの巨人に匹敵する成果は、わずか3人のナノチームによって生み出された。モデルがオンラインになってからわずか1ヶ月で、Hugging Faceコミュニティで100万回以上のダウンロードを記録し、世界的な注目を集めている。

3 .jpg
Shisa.ai

なぜ日本は自国の大規模言語モデルを必要とするのか?

沈佳氏にとって、これは文化、経済、国家安全保障の三つの側面からの構造的な挑戦である。

まず、言語そのものについて考えてみよう。日本語は「文脈」に大きく依存する言語である。多くの「潜在的な意味」は、日本人が直接言わず、トーン、関係性、社会的な暗黙の了解の中に隠されている。沈佳氏は例を挙げる。「日本では、拒否は明言されないことが多い。例えば、相手が『その日はちょっと都合が悪い』と言った場合、丁寧に聞こえるが、実際には明確な拒否を意味している。」

同様に、「愛してる(Aishiteru)」という言葉は、明確な主語や目的語がなく、文脈によって「私はあなたを愛している」「私は彼女を愛している」「彼女は彼を愛している」と解釈されることがある。大規模言語モデルが前後の文脈を理解できなければ、正確な意味を推論することができない。このような言語の特性は、AIにとって大きな挑戦である。

このことは、異文化交流を特に難しくしている。特にサービス業の最前線では顕著である。2025年の4月だけで、日本には390万人の観光客が訪れ、単月の歴史的な最高記録を更新した。しかし、小売業や飲食業は前例のない人手不足に直面しており、言語の壁が日本に多くの商機を逃させている。

4.jpg
日本は毎年3,600万人の外国人旅行者を迎えるが、言語は依然として大きな障壁となっている。 Shisa.ai

さらに長期的には、生成AIは商業ツールから急速に地政学的な戦略資産へと変わりつつある。もし米中のいずれかがGPTモデルの輸出を制限すれば、海外の基盤モデルに依存している国々は、自主的に対応できないリスクに直面する可能性がある。このような文脈において、地域の言語と文化を理解できる独自のモデルを持つことは、効率の向上だけでなく、デジタル主権や国家のレジリエンスに関わる問題である。

Shisa.aiは、自社のモデルをコミュニティライセンスの形で公開し、研究や非商業利用に開放することを選んだ。彼らは、言語モデルは少数のテクノロジー巨頭によって独占されるべきではなく、全ての人が共有できる基盤インフラであるべきだと考えている。これは単なる技術的な突破口ではなく、地域のAI開発に取り組む多くの志ある開発者や企業が参加し、日本の言語文化を真に理解するAIを育てる機会を持つべきだという態度の宣言でもある。

「声」を通じて文化の隔たりを解消する

Shisa.aiの最初の製品は、「声」から出発した即時音声翻訳システム「Chotto.chat」である。

「今までの話を聞いて、私が早口だと気づいたでしょう!」と沈佳氏は笑う。彼は即時音声翻訳から切り込むことを選び、話のスピードに合わせて自然な会話のリズムに適応できるシステムを構築した。「Chotto.chatは、私のように早口で、即時のコミュニケーションが必要な人のために設計されたものです。」

一般的な翻訳ツールとは異なり、Chotto.chatは日本人の話し方に特化して最適化されている。話すスピードが速い場合や公共の場で音量を抑え、小声でスマートフォンに話しかける場合でも、即座に認識し、自然に応答することができ、技術によって会話が止まることはない。

5 .jpg
Shisa.ai

「私たちが行っているのは単なる翻訳ではなく、AIがトーンや状況を理解し、話す内容が人間のように自然で感情豊かであることを目指している」と沈佳氏は説明する。「まるで演劇の配役を選ぶように、セリフを正しく読むだけでなく、感情や深みを持って話すことが求められるのです。」

現在、Chotto.chatは正式にアプリをリリースしていないが、すでに毎日6000人以上のユーザーが利用しており、平均滞在時間は27分に達している。買い物や注文だけでなく、異なる文化のカップルや友人同士の間でも利用でき、互いに母国語で自然にコミュニケーションを取ることができる。

レストランから駅へ:Shisa.aiが企業現場の「隠れた通訳者」となる

日常の会話だけでなく、Shisa.aiの音声技術は日本の実体空間にも静かに浸透し、外国人顧客の接遇において重要な助けとなっています。

レストランでは、Shisa.aiがスタッフの言語サポートツールとして機能し、外国人顧客のアレルゲンに関する質問に対応する手助けを行い、新入社員が「実践しながら学ぶ」ことを支援します。小売店では、Shisa.aiが免税規則、サイズ換算、返品・交換などの一般的な質問を処理し、第一線のスタッフがスムーズに対応できるようにし、作業を中断する必要がありません。

6.jpg
Shisa.aiは、日本の言語と労働力のギャップを埋めようとしている。 Shisa.ai

このようなリアルタイムのサポートは公共の場にも広がっています。横浜駅内には、17言語に対応したAIキオスクが設置されており、旅行者はトイレ、切符、店舗の位置について即座に質問できるようになっています。まるで「話す案内板」のように、言語と情報のギャップを埋めています。

今後、Shisa.aiは音声アプリケーションを拡張し、チャット、リマインダー、そして伴侶機能を組み合わせたバーチャルペットを開発する計画です。これは日本の高齢社会への未来の対策の一つとなるでしょう。

すべての文化に、声を残す権利を

Shisa.aiの3人の創業者は全員移民であり、日本に根を下ろして起業することを選びました。彼らは、AIの主権は地域の言語と文化から出発し、地元のモデルを構築する必要があると信じています。それは多様性を保つためだけでなく、データプライバシー、地政学的なレジリエンス、国家のデジタル主権に関わる問題でもあります。

CEOのJia ShenとCTOのLeonard Linは共同創業者であり、その中でShisaモデルはLeonardが主導して開発した代表作です。また、チームのAI研究者であるAdam Lensenmayerは、全く異なる背景を持っています。彼は日本のアニメファンにとって馴染み深い字幕翻訳家であり、『進撃の巨人』、『ガンダム』、『名探偵コナン』(劇場版)、『銀河鉄道999』、『ちびまる子ちゃん』、『宇宙戦艦ヤマト』、さらにはコンビニでも手に入る『宇宙兄弟』などの作品に関わってきました。言語感覚やトーンへの徹底したこだわりが、モデルの訓練において重要な役割を果たし、Shisa.aiを日本語の深層的な文脈や文化的な細部により近づけています。

沈佳にとって、Shisa.aiの核心は単に「最強のAI」を作ることではなく、より深い問いに答えることです。それは、テクノロジーが私たちと家族、文化との距離を縮めることができるのかということです。

この考えは、彼の家族への思いから来ています。

「私の父は10年前に亡くなり、私の娘は今5歳で、祖父に会ったことがありません」と沈佳は言います。「しかし、言語モデルを通じて、私は彼の声、トーン、人生哲学を保存することができます。将来的には、私の娘が祖父と話をし、家族に伝わる笑い話を聞くことができるかもしれません。」

これは単なる記憶の保存ではなく、文化の継承でもあります。彼はこれを「文化のキャプチャ」と呼びます。それは、ネット上に自動的に残らない声や感情を記録することです。例えば、長老たちの生活の会話、地方の方言、Z世代のデート時のトーンの変化、あるいはオンラインに出ない、投稿しないコミュニティの中で静かに流れる文化的な記憶などです。これらの細かいが深い言語は、誰も聞かず、残さなければ、しばしば一瞬で消えてしまいます。

今後、Shisa.aiはより多くのユーザーに手を伸ばし、音声翻訳を実体空間に拡張し、駅や商業施設、レストランなどの日常空間に「あなたの言葉を理解する人」を静かに増やしていく計画です。

結局、最も感動的なテクノロジーは、必ずしも最も目立つものではありません。それは、ある文が理解され、感情が理解される瞬間に存在し、静かに力を発揮します——人と人との距離を少し近づけるのです。
畢竟,最動人的科技,有時候並不一定是最顯眼的那一種。它存在於一次句子被聽懂、情緒被理解的瞬間,悄悄發揮力量——讓人與人之間,靠得更近一點。

さらにこの記事はAIによって翻訳されています