Our paper was accepted for NAACL 2024.

■書誌情報 Takeshi Kojima, Itsuki Okimura, Yusuke Iwasawa, Hitomi Yanaka, Yutaka Matsuo. “On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons”. 2024 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2024) ■概要 Current decoder-based pre-trained language models (PLMs) successfully demonstrate multilingual capabilities, but it is…

NEDOの採択を受け、公開型での500億パラメータサイズの大規模言語モデル開発を開始します。

東京大学松尾・岩澤研究室

日本全体の開発レベル向上を志し、

公開型での500億パラメータサイズの大規模言語モデル開発を開始

―NEDO「ポスト5G情報通信システム基盤強化研究開発事業」事業(注1)採択事業者に決定

 

 

東京大学大学院工学系研究科技術経営戦略学専攻 松尾・岩澤研究室(以下「松尾研」)は、この度経済産業省及び国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が開始する、国内の生成AIの開発力を強化するためのプロジェクト「GENIAC(Generative AI Accelerator Challenge)」において、基盤モデル開発に必要な計算資源の提供支援を受け、500億パラメータサイズの公開型基盤モデル開発に取り組むことをお知らせします。

本取り組みにあたっては、開発された大規模言語モデル(以下「LLM」)の公開のみならず、開発過程の公開、そしてこれらの成果を社会全体で共有することを通じ、日本全体のLLM開発の技術レベル向上と社会実装の加速を目指します。

 

発表の詳細

 本活動では、2023年8月に公開した100億パラメータサイズのLLM「Weblab-10B」の開発経験をベースに、東京大学松尾研究室が提供する大規模言語モデル講座(2023年8月開催、2000名以上が受講)の修了生及び一般公募によって集まった有志の開発者(⺠間企業・研究者・学⽣で構成)が、最新の研究成果や技術的な知見を取り入れ、開発を進めます。

 一般的にLLMの最適なモデル構造やハイパーパラメータは十分に分かっていないため、第1フェーズにおいては8チームに分かれて複数の研究テーマを設定し探索を行い、知見を共有しながら試行錯誤することで、実用的かつ効率的な手法を採用します。その後第2フェーズでは、最優秀に選ばれた1チームが500億パラメータサイズのLLM開発に取り組むことを予定しています。なお、本活動は、基盤モデルの開発評価の過程でWeights & Biases社のプラットフォームを活用した開発を進めていきます。

 松尾研では本活動に参加を希望される有志の開発者を募集しております。募集要項は下記ページをご確認ください。

 https://weblab.t.u-tokyo.ac.jp/geniac_llm

 

 本活動を通じて開発されたモデル・ソースコード・開発過程・ノウハウは、2024年4月以降、松尾研のホームページ等を通じ広く公開してまいります。これらの透明性の高いアプローチを通じ、社会全体の技術リテラシーの向上と産業界やアカデミアにおける応用を促進して参ります。

 

注釈

(注1)国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」事業。経済産業省が主導する基盤モデルの開発に必要な計算資源に関する支援や関係者間の連携を促す「GENIAC」プロジェクトの一環として採択事業者に一定の計算資源に関わる助成を行うもの。

GENIACの詳細はこちら:
https://www.meti.go.jp/press/2023/02/20240202003/20240202003.html
https://weblab.t.u-tokyo.ac.jp/geniac_llm

 

本件に関する問合せ先

東京大学 大学院工学系研究科 松尾・岩澤研究室
E-mail:pr@weblab.t.u-tokyo.ac.jp

当研究室の論文がICRA2024に3件採録されました。

■書籍情報 Mimo Shirasaka, Tatsuya Matsushima, Soshi Tsunashima, Yuya Ikeda, Aoi Horo, So Ikoma, Chikaha Tsuji, Hikaru Wada, Tsunekazu Omija, Dai Komukai, Yutaka Matsuo Yusuke Iwasawa. “Self-Recovery Prompting: Promptable General Purpose Service Robot System with Foundation Models and Self-Recovery”. International Conference on Robotics and Automation(ICRA2024) ■概要 A general-purpose service robot (GPSR), which can execute diverse tasks…

当研究室の論文がICLR 2024に2件採録されました。

■書誌情報 Izzeddin Gur*, Hiroki Furuta*, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust. (*Equal Contribution) “A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis”. International Conference on Learning Representations (ICLR 2024, Oral) ■概要 Pre-trained large language models (LLMs) have recently achieved better generalization and sample efficiency in autonomous web automation. However, the…

Our paper was accepted for 電子情報通信学会和文論文誌D

◼︎書誌情報
冨山翔司, 鈴木雅大, 落合桂一, 松尾豊: 文書生成タスクに対する強化学習応用における文書生成器のサンプルに非依存な報酬関数学習フレームワークの提案
◼︎概要
文書生成タスクにおいて,強化学習は有効な手法であると知られている.過去の研究で提案された手法はいずれも,報酬関数の人手による設計の難しさからデータによる学習を試み,その際に文書生成器のサンプルを用いていた.本論文では,報酬関数の学習に文書生成器のサンプルを用いることで引き起こされる,学習時に生成器の学習の進捗を定量的に可視化できないという課題に対し,報酬関数の学習に文書生成器のサンプルを一切用いないGenerator-independent Reward Learningというフレームワークを提案する.本フレームワークに則った手法では,文書生成器の学習を定量的に可視化でき,かつ,代表的な文書生成タスクに対する強化学習応用手法に対して,性能面でも上回ることを確認した.

Our paper was accepted for ICASSP 2024.

◼︎Bibliographic information Xin Zhang*, Jiaxian Guo*, Paul Yoo, Yutaka Matsuo, Yusuke Iwasawa. “PASTE AND HARMONIZE VIA DENOISING: SUBJECT-DRIVEN IMAGE EDITING WITH FROZEN PRE-TRAINED DIFFUSION MODEL”. ICASSP 2024 ◼︎Overview Text-to-image generative models have attracted rising attention for flexible image editing via user-specified descriptions. However, text descriptions alone are not enough to elaborate the details of subjects,…

JSAI2023の発表資料を掲載しました。

Sorry, this entry is only available in Japanese. For the sake of viewer convenience, the content is shown below in the alternative language.   2023年6月6日~9日に熊本城ホール(熊本県熊本市) で開催された第37回人工知能学会全国大会(JSAI2023*)で当研究室の研究員と学生が20件の発表を行いました。下記に当日の発表資料を掲載します。 *JSAI2023とは:日本人工知能学会(The Japanese Society for Artificial Intelligence)が主催する人工知能の研究発表を行う学会で、日本国内外の研究者や専門家が集まり、人工知能や機械学習、自然言語処理、ロボティクス、コンピュータビジョンなどのAI関連分野における研究、知識共有、情報交換を促進することを目的としています。 ■JSAI2023公式HP https://www.ai-gakkai.or.jp/jsai2023/   【世界モデル】 物体中心表現の学習における内的報酬の検討 中野 聡大、鈴木 雅大、松尾 豊 行動条件付けVideoGPTの構築と検証 田畑 浩大、蒲原 惇乃輔、海野 良介、佐藤 誠人、渡部 泰樹、久米 大雅、根岸 優大、岡田 領、岩澤 有祐、松尾 豊 VideoGPTのデータセットサイズに関するスケーリング則 根岸…

IROS2023の世界モデルに関するWorkshop “World Models and Predictive Coding in Cognitive Robotics”で当研究室 特任助教の鈴木雅大が登壇しました。

Sorry, this entry is only available in Japanese. For the sake of viewer convenience, the content is shown below in the alternative language.   2023年10月1日〜10月5日にデトロイト(アメリカ)で開催されたIROS 2023*に当研究室 特任助教の鈴木雅大が参加し、認知ロボットのための世界モデルと予測符号化に関するワークショップ(Workshop on World Models and Predictive Coding in Cognitive Robotics)で当研究室 特任助教の鈴木雅大が登壇しました。下記に発表スライドを掲載します。     *IROS(IEEE/RSJ International Conference on Intelligent Robots and Systems)とは: 国際ロボット研究の分野において、将来の方向性と最新のアプローチ・設計・成果を強調しながらインテリジェントロボットとスマートマシンにおける科学技術の最前線を探求する大規模で影響力のあるフォーラムで、松尾研が注力する研究分野の一つである世界モデルに関する研究者も参加しています。 ■IROS 2023公式HP https://ieee-iros.org/   参考記事:「世界モデル」とは何か? 知能の実現に向けて、松尾研が研究を推進する理由。 「世界モデル」とは何か?…

Our paper was accepted for NeurIPS 2023

◼︎Bibliographic information Paul Yoo, Jiaxian Guo, Yutaka Matsuo, Shixiang Shane Gu. “DreamSparse: Escaping from Plato’s Cave with 2D Diffusion Model Given Sparse Views.” Neural Information Processing Systems (NeurIPS 2023) ◼︎Overview Synthesizing novel view images from a few views is a challenging but practical problem. Existing methods often struggle with producing high-quality results or necessitate per-object…

Our paper was accepted for Information Processing Society of Japan

◼︎Bibliographic information Hitoshi Nakanishi, Masahiro Suzuki, Yutaka Matsuo: HAWK-Net: Hierarchical Attention Weighted Top-K Network for High-resolution Image Classification ◼︎Overview To handle high-resolution images on finite computational resources, many research has been conducted on hierarchical networks to load features in only the most meaningful local regions. However, it is difficult to determine the correct number and…