日本語AIの挑戦:創造性と法の交差点

2025年11月9日の日経新聞の朝刊サイエンス面に興味深い記事が掲載されていましたので、紹介いたします。

著者は松田省吾氏です。この記事では、日本版AI(人工知能)の開発における著作権問題とその解決策について詳しく述べられています。現在、AIの性能向上には大規模言語モデル(LLM)に多くのデータを学ばせる必要がありますが、著作権を脅かすという懸念が広がっています。特に、AIが学ぶ回数を抑えることで、著作物の複製を防ぐことができるという研究が進められています。

NTTは、最近発表した自社開発のLLM「tsuzumi(つづみ)2」において、約300億のパラメーター数に抑えたモデルを提供開始しました。このモデルは、従来の汎用的な生成AIよりも小型で使いやすいことが特徴です。また、国立情報学研究所(NII)では、複数のモデルを組み合わせる「MoE」手法を用いた新技術の開発が進行中で、来夏にはパラメーター数が200億級のLLMを完成させることを目指しています。

しかし、AIの学習に必要な質の高い日本語データは不足しているとのことです。国際的に公開されている学習用データの多くは英語であり、日本語のデータはわずか1%に過ぎないとされています。これを解決するために、NIIは韓国や中国の学術機関と協定を結び、各言語データの提供を受ける取り組みを行っています。また、古文のデータ提供に関しても国文学研究資料館と覚書を交わし、日本人の考え方や慣習を学ぶための基盤を整えています。

著作権法第30条の4により、AIの学習目的での著作物利用は原則として許可されていますが、著作物の記述をそのまま出力するリスクが懸念されています。NIIは、学習メカニズムを詳細に調査し、「1~3回学ぶだけならば、学習データをそのまま出力することはない」との研究成果をまとめています。この結果が確認されれば、著作権者の懸念を払拭できる可能性があります。

日本のAI市場は、米中企業に対抗するために、日本の文化や習慣に特化したデータの活用を促進する必要があると結論づけられています。

この記事は生成AIがもたらす創造性の新たな形と、それに伴う法的・倫理的課題を考える上で非常に重要だと思いました。今後の技術革新がどのように社会に影響を与え、また法制度がそれにどう対応していくのかを見守る必要が重要ですね。

日経新聞 2025年11月9日朝刊サイエンスNextViews
https://www.nikkei.com/article/DGKKZO92475050Y5A101C2TYC000/?fbclid=IwY2xjawN_eLxleHRuA2FlbQIxMQBicmlkETFnMk9RUXdrTkxFVVF5NldOc3J0YwZhcHBfaWQQMjIyMDM5MTc4ODIwMDg5MgABHmmE1ZNzwRbFrKmnwiohZyzV1lqLayWQDWQzqAiIeeXCUHQZHcRvtOQewcvU_aem_upXOXhnAYNfvA_qjysbrsg

Facebookにも投稿しています。