« 第515回:人工知能(AI)は著作者たり得ないとする2025年3月18日のアメリカ控訴裁の判決 | トップページ | 第517回:フェアユースに関する2023年5月18日のアンディ・ウォーホル事件アメリカ最高裁判決 »

2025年8月24日 (日)

第516回:人工知能(AI)の学習への著作物の利用のフェアユース該当性に関する3つのアメリカの地裁判決

 ここ半年くらいの間に、まだ地裁レベルだが、人工知能(AI)の学習への著作物の利用のフェアユース該当性に関する判決がアメリカで3つ出されている。

 アメリカのフェアユースは、

  1. 利用の目的及び性質
  2. 著作物の性質
  3. 利用された著作物の部分の量と本質性
  4. 著作物の価値と市場への影響

という4つの要素の比較衡量に基づき、その利用が公正かどうかを判断する著作権の一般例外条項であり、特にこれらの要素の判断を述べている部分を中心に、今回はそれぞれの判決の内容を見て行く。

(1)2025年2月11日のトムソン・ロイター社対ロス・インテリジェンス社事件デラウェア地裁判決

 最初の事件は、最近良く取沙汰される生成AIが問題になったものではないが、トムソン・ロイターが作った判決の要旨を学習データに使って利用者に質問に対して類似する判決などを教えるが、元の要旨そのものを出力するものではない、リサーチツールの提供がフェアユースに該当するかが争われたものである。

 デラウェア地裁は、2025年2月11日の判決(pdf)で、以下の様な判断により、この様な利用はフェアユースに該当しないとした。(以下、翻訳は全て拙訳。)

A. Factor one goes to Thomson Reuters

First, I consider the purpose and character of Ross's use. 17 U.S.C. § 107(1). I look mainly at whether it was commercial and whether it was transformative. Andy Warhol Found. for the Visual Arts, Inc. v. Goldsmith, 598 U.S. 508, 529-31 (2023). If Ross and Thomson Reuters use copyrighted material like the headnotes for very similar purposes and Ross's use is commercial, this factor likely disfavors fair use. Id. at 532-33.

1. Ross's use is commercial. Ross admits as much. D.I. 727 at 29. It "stands to profit from exploitation of the copyrighted material without paying the customary price." Harper & Row, 471 U.S. at 562. But commerciality is not dispositive. I must balance it against how different this work's purpose or character is. Warhol, 598 U.S. at 525.

2. Ross's use is not transformative. Transformativeness is about the purpose of the use. "If an original work and a secondary use share the same or highly similar purposes, and the second use is of a commercial nature, the first factor is likely to weigh against fair use, absent some other justification for copying." Warhol, 598 U.S. at 532-33. It weighs against fair use here. Ross's use is not transformative because it does not have a "further purpose or different character" from Thomson Reuters's. Id. at 529.

Ross was using Thomson Reuters's headnotes as AI data to create a legal research tool to compete with Westlaw. It is undisputed that Ross's AI is not generative AI (AI that writes new content itself). Rather, when a user enters a legal question, Ross spits back relevant judicial opinions that have already been written. D.I. 723 at 5. That process resembles how Westlaw uses headnotes and key numbers to return a list of cases with fitting headnotes. Thomson Reuters uses its headnotes and Key Number System primarily to help legal researchers navigate Westlaw and (possibly, as the parties dispute this) to improve Westlaw's internal search tool. D.I. 769 at 14(10:24:52). The parties agree that Ross and Westlaw are competitors. D.I. 752-1 at 4. So at first glance, this factor looks simple.

...

My prior opinion wrongly concluded that I had to send this factor to a jury. 694 F. Supp. 3d at 483-84. I based that conclusion on Sony and Sega. Since then, I have realized that the intermediate-copying cases (1) are computer-programming copying cases; and (2) depend in part on the need to copy to reach the underlying ideas. Neither is true here. Because of that, this case fits more neatly into the newer framework advanced by Warhol. I thus look to the broad purpose and character of Ross's use. Ross took the headnotes to make it easier to develop a competing legal research tool. So Ross's use is not transformative. Because the AI landscape is changing rapidly, I note for readers that only non-generative AI is before me today.

...

B. Factor two goes to Ross

Second, I ask about the nature of the original work. 17 U.S.C. § 107(2). That involves "focus[ing] on the degree of creativity inherent to the work." 4 Nimmer on Copyright § 13F.06. More creative works get more protection. Id. § 13F.06[A].

Westlaw's material has more than the minimal spark of originality required for copyright validity. But the material is not that creative. Though the headnotes required editorial creativity and judgment, that creativity is less than that of a novelist or artist drafting a work from scratch. And the Key Number System is a factual compilation, so its creativity is limited.

I signaled a similar leaning before. 694 F. Supp. 3d at 484-85. Yet I stopped short of granting summary judgment based on factual disputes about how much creativity was involved. Now, as I concluded above, there is no factual dispute that the headnotes have creative elements but are far from the most creative works.

So factor two goes for Ross. Note, though, that this factor "has rarely played a significant role in the determination of a fair use dispute." Authors Guild, 804 F.3d at 220.

C. Factor three goes to Ross

Third, I focus on how much of the work was used and how substantial a part it was relative to the whole. 17 U.S.C. § 107(3). I ask whether that usage was "reasonable in relation to the purpose of the copying." Campbell v. Acuff-Rose Music, Inc., 510 U.S. 569, 586 (1994). Courts consider both "the quantity of the materials used" and "their quality and importance." Id. at 587. To win on this factor, the alleged copier must not take the "heart" of the work. Id.

My prior opinion did not decide factor three but suggested that it leaned towards Ross. The opinion focused on Ross's claim that its output to an end user is a judicial opinion, not a West headnote, so it "communicates little sense of the original." 649 F. Supp. 3d at 485 (quoting Authors Guild, 804 F.3d at 223).

I stand by that reasoning, but now go a step further and decide factor three for Ross. There is no factual dispute: Ross's output to an end user does not include a West headnote. What matters is not "the amount and substantiality of the portion used in making a copy, but rather the amount and substantiality of what is thereby made accessible to a public for which it may serve as a competing substitute." Authors Guild, 804 F.3d at 222 (internal quotation marks omitted). Because Ross did not make West headnotes available to the public, Ross benefits from factor three.

...

D. Factor four goes to Thomson Reuters

Factor four "is undoubtedly the single most important element of fair use." Harper & Row, 471 U.S. at 566. For this factor, I consider the "likely effect [of Ross's copying] on the market for the original." Campbell, 510 U.S. at 590. I must consider not only current markets but also potential derivative ones "that creators of original works would in general develop or license others to develop." Id. at 592. I also consider any "public benefits the copying will likely produce." Google, 593 U.S. at 35. The original market is obvious: legal-research platforms. And at least one potential derivative market is also obvious: data to train legal AIs.

My prior opinion left this factor for the jury. I thought that "Ross's use might be transformative, creating a brand-new research platform that serves a different purpose than Westlaw." 694 F. Supp. 3d at 486. If that were true, then Ross would not be a market substitute for Westlaw. Plus, I worried whether there was a relevant, genuine issue of material fact about whether Thomson Reuters would use its data to train AI tools or sell its headnotes as training data. Id. And I thought a jury ought to sort out "whether the public's interest is better served by protecting a creator or a copier." Id.

In hindsight, those concerns are unpersuasive. Even taking all facts in favor of Ross, it meant to compete with Westlaw by developing a market substitute. D.I. 752-1 at 4. And it does not matter whether Thomson Reuters has used the data to train its own legal search tools; the effect on a potential market for AI training data is enough. Ross bears the burden of proof. It has not put forward enough facts to show that these markets do not exist and would not be affected.

Nor does a possible benefit to the public save Ross. Yes, there is a public interest in accessing the law. But legal opinions are freely available, and "the public's interest in the subject matter" alone is not enough. Harper & Row, 471 U.S. at 569. The public has no right to Thomson Reuters's parsing of the law. Copyrights encourage people to develop things that help society, like good legal-research tools. Their builders earn the right to be paid accordingly. This case is distinguishable from Google, where the API was valuable "because users, including programmers, [were] just used to it." 593 U.S. at 38. There is nothing that Thomson Reuters created that Ross could not have created for itself or hired LegalEase to create for it without infringing Thomson Reuters's copyrights.

E. Balancing the factors, I reject Ross's fair-use defense

Factors one and four favor Thomson Reuters. Factors two and three favor Ross. Factor two matters less than the others, and factor four matters more. Weighing them all together, I grant summary judgment for Thomson Reuters on fair use.

A.要素1はトムソン・ロイターに有利

第1に、私はロスの利用の目的と性質を考慮する。アメリカ著作権法第107条第1項。主としてそれが商業的なものか及びそれが変形的なものであるかを見て行く。2023年5月18日のアンディ・ウォーホル財団対ゴールドスミス事件アメリカ最高裁判決。ロス及びトムソン・ロイターが要旨の様な著作権の保護を受けるマテリアルを非常によく似た目的に利用し、ロスの利用が商業的なものである場合、この要素はフェアユースに不利なものとなり得るであろう。同上。

1.ロスの利用は商業的である。ロスはその通り認めている。事件記録。それは「通常の料金を支払う事なく著作権の保護を受けるマテリアルの利用から利益を受ける立場にある。」1985年5月20日のハーパー&ロー出版社対ナショナル・エンタープライズ事件アメリカ最高裁判決。しかし、商業性は決定的なものではない。それとこの著作物の目的及び性質がどれほど異なるのかとのバランスが考えられなければならない。ウォーホル事件アメリカ最高裁判決。

2.ロスの利用は変形的なものではない。変形性は利用の目的に関するものである。「元の著作物及び2次利用が同じまたは高度に類似した目的をともにし、2次利用が商業的な性質のものである場合、コピーに対する他の正当化事由がない限り、第1の要素はファユースに反する方向に働くであろう。」ウォーホル事件アメリカ最高裁判決。ここでそれはフェアユースに反する方向に働く。トムソン・ロイターの利用から見てさらなる利用又は異なる性質を持つものではないため、ロスの利用は変形的なものではない。同上。

ロスはウェストローと競合する法的リサーチツールを作成するためにAIデータとしてトムソン・ロイターの要旨を利用していた。ロスのAIが生成AI(それ自体で新しいコンテンツを書くAI)でない事には争いがない。むしろ、利用者が法的質問を入力する時、ロスは既に書かれた関係する法的意見を吐き出す。事件記録。そのプロセスは、ウェストローが合致する要旨とともに事件のリストを返すために要旨及びキーナンバーを使うやり方と類似する。トムソン・ロイターはその要旨及びキーナンバーシステムを主として法律研究者がウェストローを見て回るため、そして、(この事については当事者が争っているので、恐らく)ウェストローの内部サーチツールを改善するために使っている。事件記録。当事者はロスとウェストローが競争関係にある事を認めている。事件記録。したがって、一見、この要素は単純に見える。

(略)

私の前の意見でこの要素を陪審に送るべきと結論づけたのは間違っていた。2023年9月25日の意見。私のその結論は2000年2月10日のソニー・コンピュータ・エンタテイメント社対コネティックス社事件第9巡回控訴裁判決及び1992年10月20日のセガ・エンタープライゼス社対アコレード社事件第9巡回控訴裁判決(訳注:いずれも互換性のためのソフトウェアのリバースエンジニアリングはフェアユースに該当し得るとした事件)に基づいていた。その時、私は、(1)中間的コピーが問題となる事件はコンピュータプログラミングのコピーが関わるものであり;(2)基礎的なアイデアに到達するためにコピーする必要性に一部依存すると考えていた。ここではいずれも正しくない。そのため、本事件にはウォーホル事件によって進められたより新しい枠組みの方がより適切に合致する。ここで、私はロスの利用の広い目的と性質に着目する。ロスは競合する法的リサーチツールの開発をより容易にするために要旨を取った。よって、ロスの利用は変形的なものでない。AIを巡る状況は急速に変化しており、今私の前にあるのは生成的なものでないAIである事を読者に注意しておく。

(略)

B.要素2はロスに有利

第1に、私は元の著作物の性質について検討する。アメリカ著作権法第107条第2項。これは「著作物の本質的な創作性の程度への注目」を含む。ニンマー著作権法。より創作的な著作物がより保護を受けられる。同上。

ウェストローのマテリアルは有効な著作権に求められる独創性の最低限の発露以上のものを有する。しかし、このマテリアルはそれほど創作的なものではない。要旨には編集的な創作性と判断が求められるが、この創作性は一から著作物を作り上げる小説家や芸術家のものより低い。そして、キーナンバーシステムは事実の編集であり、その創作性は限定的なものである。

私は似た傾向を前に示していた。2023年9月25日の意見。ただし、どれほどの創作性が含まれているかという事実に関する争いに基づき略式判決を出す事はしなかった。今は、上で結論づけた通り、要旨は創作的要素を持つが最も創作的な著作物からは程遠い事という事実に関する争いはない。

よって、要素2はロスに有利である。ただし、この要素は「フェアユースに関する争いの決定において重大な役割を果たす事は稀である」事を注記しておく。2015年10月16日の全米作家協会対グーグル社事件第2巡回控訴裁判決。

C.要素3はロスに有利

第3に、私はは著作物のどれほどが使われたか及その部分が全体に対してどれほど本質的かに注目する。アメリカ著作権法第107条第3項。私はどれほどその利用が「コピーの目的との関係で合理的」かを検討する。1994年3月7日のキャンベル対エイカフ=ローズ・ミュージック社事件アメリカ最高裁判決。裁判所は「利用されたマテリアルの量」及び「その質と重要性」をともに考慮する。同上。この要素において勝つためには、被疑複製者は著作物の「核心」を取ってはならない。

私の前の意見は要素3について決定しなかったが、ロスに向かう傾向を示唆していた。その意見は、エンドユーザーに対するその出力は法的意見であって、ウェストの要旨ではなく、よって、それは「元の意味をほとんど伝えていない」というロスの主張に重点を置いていた。2023年9月25日の意見(全米作家協会事件第2巡回控訴裁判決を引用)。

私はこの理由を支持するが、さらに一歩を進め、要素3はロス有利と決定する。次の事実に対する争いはない:エンドユーザーに対するロスの出力はウェストの要旨を含まない。問題となるのは「コピーを作成する際に利用された部分の量及び本質性」ではなく、むしろ「競合する代替物として提供される先の公衆にそれによってアクセス可能なものとされるものの量と本質性」である。全米作家協会事件第2巡回控訴裁判決。ロスはウェストの要旨を公衆に入手可能としていなかったのであるから、ロスは要素3において利がある。

(略)

D.要素4はトムソン・ロイターに有利

要素4は「疑いの余地なくフェアユースの唯一最も有用な要素である。」ハーパー&ロー事件アメリカ最高裁判決。この要素について、私は「[ロスのコピーの]元のものに関する市場へのあり得る影響」を考慮する。キャンベル事件アメリカ最高裁判決。私は現在の市場のみならず、「元の作品の創作者が通常展開するか他の者に展開させる事を許諾する」潜在的派生市場も考慮しなければならない。同上。私はまた「複製行為が作り出すであろう公共の利益」も考慮する。2021年4月5日のグーグル社対米オラクル社事件アメリカ最高裁判決。元の市場は明らかである:法的リサーチプラットフォーム。そして、少なくとも1つの潜在的派生市場もまた明らかである:法的AIの学習のためのデータ。

私の前の意見はこの要素を陪審の判断に委ねようとするものだった。私は「ロスの利用は変形的であり、ウェストローとは異なる目的に用いられる全く新しいリサーチプラットフォームを作り出すものであり得る」と考えていた。2023年9月25日の意見。それが本当なら、ロスはウェストローの代替市場とならないであろう。さらに、トムソン・ロイターがそのデータをAIツールの学習に用いたかその要旨を学習データとして売ったであろうかという具体的な事実に関する本質的な問題があるかどうかという事を懸念していた。同上。そして、「創作者か複製者かを守る事によって公共の利益にどちらがより資するか」を陪審が整理すべきと考えていた。同上。

後になって思えば、これらの懸念は納得しかねるものであった。ロスに有利な様に全ての事実を取ったとしても、それは代替市場を展開する事からウェストローと競合する事になる筈である。事件記録。そして、トムソン・ロイターが自身の法的サーチツールの学習にそのデータを用いたかどうかは問題とならない;AI学習データのための潜在的市場に対する影響で十分である。ロスが立証責任を負う。これらの市場が存在しておらず、また影響も受けないだろう事を示す十分な事実を提示していない。

あり得る公衆への利益もロスを救う事はない。確かに、法へのアクセスには公共の利益がある。法的意見は自由に入手可能であるが、「実質的な事項における公共の利益」はそれだけで十分なものではない。ハーパー&ロー事件アメリカ最高裁判決。公衆はトムソン・ロイターの法の解析に対して何ら権利を有さない。著作権は良い法的リサーチツールの様な社会を助けるものを開発する事を人々に促すものである。その構築者はそれに応じて支払いを受ける権利を得る。本事件は、「プログラマーを含む利用者が丁度それを使う事から」APIが価値のあるものであったグーグル事件とは区別されるものである。トムソン・ロイターが作り出したもので、トムソン・ロイターの著作権を侵害する事なく、ロスがそれ自体で作り出し得なかったか、自身のためにリーガルイーズを雇って作り出したかしたものは何もない。

E.要素を比較衡量し、私はロスのフェアユースの抗弁を斥ける

要素1及び4はトムソン・ロイターに有利である。要素2及び3はロスに有利である。要素2は他のものより重要でなく、要素4はより重要である。これらを全て衡量し、私はフェアユースについてトムソン・ロイターに利があるとの略式判決を与える。

 上で翻訳した部分を読めば大体分かると思うが、要するに、この事件では、創作性の程度は低いにしても著作権の保護を受ける判決の要旨が、全く同種の競合リサーチツールを作るために使われていたので、その利用が変形的と考えられない事が第1の要素において、リサーチツール等の市場に影響を与え得る事が第4の要素において重視され、フェアユース該当性が否定されている。

(2)2025年6月23日のアンドレア・バーツ他対アンスロピック社事件カリフォルニア北部地裁判決

 次のものは大規模言語モデル(LLM)を用いた所謂生成AIが問題となったアンドレア・バーツ他対アンスロピック社事件におけるで、2025年6月23日のカリフォルニア北部地裁の判決である。

 裁判所は、その判決(pdf)で、以下の様に、新しい文章を作り出す生成AIのための著作物の利用は基本的に変形的なものであってフェアユースたり得るが、元の著作物の入手が合法か違法かによって判断は変わるとした。

1. THE PURPOSE AND CHARACTER OF THE USE.

...

A. THE COPIES USED TO TRAIN SPECIFIC LLMS.

...

A better analogue to our facts would be an AI tool trained - using court opinions, and briefs, law review articles, and the like - to receive legal prompts and respond with fresh legal writing. And, on facts much like those, a different court came out the other way. It found fair use. White v. W. Pub. Corp., 29 F. Supp. 3d 396, 400 (S.D.N.Y. 2014) (Judge Jed Rakoff).

The latter use stood sufficiently "orthogonal" to anything that any copyright owner rightly could expect to control. See Warhol, 598 U.S. at 538-40. It could thus be freed up for the copyist to use, "promot[ing] the progress of science and the arts, without diminishing the incentive to create." Id. at 531 (emphasis added); see U.S. CONST. art. I, § 8, cl. 8.

In short, the purpose and character of using copyrighted works to train LLMs to generate new text was quintessentially transformative. Like any reader aspiring to be a writer, Anthropic's LLMs trained upon works not to race ahead and replicate or supplant them - but to turn a hard corner and create something different. If this training process reasonably required making copies within the LLM or otherwise, those copies were engaged in a transformative use.

The first factor favors fair use for the training copies.

B. THE COPIES USED TO BUILD A CENTRAL LIBRARY.

But that is not the only use at issue. Recall that Anthropic purchased millions of print books for its central library and pirated millions of digital books for its central library, too. It used specific sets and subsets of books for training specific LLMs. And, it then retained all the copies in its central library for other uses that might arise even after deciding it would not use them to train any LLM (at all or ever again). Anthropic seems to believe that because some of the works it copied were sometimes used in training LLMs, Anthropic was entitled to take for free all the works in the world and keep them forever with no further accounting. There is no carveout, however, from the Copyright Act for AI companies.

Because the legal issues differ between the library copies Anthropic purchased and pirated, this order takes them in turn.

(i) The Purchased Library Copies Converted from Print to Digital.

...

In sum, the first fair use factor favors fair use for the digital library copies converted from purchased print library copies - but these do not excuse the pirated library copies.

(ii) The Pirated Library Copies.

...

In sum, the first factor points against fair use for the central library copies made from pirated sources - and no damages from pirating copies could be undone by later paying for copies of the same works.

2. THE NATURE OF THE COPYRIGHTED WORK.

...

Here, Anthropic accepts that all of Authors' books - all published, whether non-fiction or fiction - contained expressive elements (Reply 9). And, as set out above, this order accepts Authors' view of the evidence that their works were chosen for their expressive qualities in building a central library and then in training specific LLMs (Opp. 11, 17 (citing, e.g., Opp. Exh. 3 at -03433)).

...

The second factor points against fair use for all copies alike.

3. THE AMOUNT AND SUBSTANTIALITY OF THE PORTION USED.

...

A. THE COPIES USED TO TRAIN SPECIFIC LLMS.

...

"What matters [ ] is not so much 'the amount and substantiality of the portion used' in making a copy, but rather the amount and substantiality of what is thereby made accessible to a public [in the purported secondary use] for which it may serve as a competing substitute [for the primary use]." Google, 804 F.3d at 222. Here, once again, there is no allegation of any traceable connection between the Claude service's outputs and Authors' works. The copying used to train the LLMs underlying Claude was thus especially reasonable.

...

For one thing, all agree Anthropic needed billions of words to train any given LLM. If using only books, Anthropic would have needed millions of books per model. If using a set comprising only a small fraction of books and a larger fraction of other texts, Anthropic still would have needed hundreds of thousands of books. Authors contend that because Anthropic showed it could use such smaller sets of books, it surely could have used no books at all - or at least not their books (Opp. 23). But Authors forget that "reasonably necessary" does not mean "strictly necessary." Authors do not contest that the volume of text required to train an LLM is monumental. Because using so many works was reasonably necessary, using any one work for actually training LLMs was about as reasonable as the next.

For another thing, no output to the public was even alleged to be infringing. So, yes, Authors' works were chosen as the strongest examples of writing. But the compelling benefits of training the LLMs on strong examples were not offset by revelations to the public of any portion of the works themselves. What was copied was therefore especially reasonable and compelling.

The third factor thus favors fair use for the training copies.

B. THE COPIES USED TO BUILD A CENTRAL LIBRARY.

But again, there was a separate use - a distinction that makes some difference as to whether the amount and substantiality of the copying was "reasonable in relation to the purpose of the copying" for the library copies. Campbell, 510 U.S. at 586.

(i) The Purchased Library Copies Converted from Print to Digital.

For the print library copies that Anthropic purchased and then converted into digital library copies, Anthropic already enjoyed entitlement to keep the copies in its library. The purpose of the copying was to keep them in its library but with more favorable storage and searchability properties. Copying the entire work was exactly what this purpose required. There was no surplus copying. The source copy was destroyed.

The third fair use factor favors fair use for the purchased library copies converted from print to digital.

(ii) The Pirated Library Copies.

For the pirated library copies, however, Anthropic lacked any entitlement to hold copies of the books at all. Its purpose, it says, was to train LLMs. But its objective conduct was to seek "all the books in the world" and then retain them even after deciding it would not make further copies from them for training - indicating there were other further uses. Against the purpose of acquiring all the books one could on the chance some might prove useful for training LLMs and maybe other stuff too, almost any unauthorized copying would have been too much. Anthropic copied millions of books in toto, Authors' works among them.

The third factor points against fair use for the pirated library copies.

4. THE EFFECT OF THE USE UPON THE MARKET FOR OR VALUE OF THE COPYRIGHTED WORK.

...

A. THE COPIES USED TO TRAIN SPECIFIC LLMS.

The copies used to train specific LLMs did not and will not displace demand for copies of Authors' works, or not in the way that counts under the Copyright Act.

...

The fourth factor thus favors fair use for the training copies.

B. THE COPIES USED TO BUILD A CENTRAL LIBRARY.

(i) The Purchased Library Copies Converted from Print to Digital.

... It was a format change.

...

This factor is thus neutral for the purchased library copies converted from print to digital.

(ii) The Pirated Library Copies.

The copies used to build a central library and that were obtained from pirated sources plainly displaced demand for Authors' books - copy for copy. ...

The fourth factor points against fair use for the pirated library copies.

5. OVERALL ANALYSIS.

After the four factors and any others deemed relevant are "explored, [ ] the results [are] weighed together, in light of the purposes of copyright." Campbell, 510 U.S. at 578.

The copies used to train specific LLMs were justified as a fair use. Every factor but the nature of the copyrighted work favors this result. The technology at issue was among the most transformative many of us will see in our lifetimes.

The copies used to convert purchased print library copies into digital library copies were justified, too, though for a different fair use. The first factor strongly favors this result, and the third favors it, too. The fourth is neutral. Only the second slightly disfavors it. On balance, as the purchased print copy was destroyed and its digital replacement not redistributed, this was a fair use.

The downloaded pirated copies used to build a central library were not justified by a fair use. Every factor points against fair use. Anthropic employees said copies of works (pirated ones, too) would be retained "forever" for "general purpose" even after Anthropic determined they would never be used for training LLMs. A separate justification was required for each use. None is even offered here except for Anthropic's pocketbook and convenience.

And, as for any copies made from central library copies but not used for training, this order does not grant summary judgment for Anthropic. On this record in this posture, the central library copies were retained even when no longer serving as sources for training copies, "hundreds of engineers" could access them to make copies for other uses, and engineers did make other copies. Anthropic has dodged discovery on these points (e.g., Opp. Exh. 17 at 93-94 (retained); Opp. Exh. 22 at 196 (no limits); Opp. Exh. 30 at 3, 4 (no accounting); see also Opp. 15). We cannot determine the right answer concerning such copies because the record is too poorly developed as to them. Anthropic is not entitled to an order blessing all copying "that Anthropic has ever made after obtaining the data," to use its words (Opp. Exh. 30 at 3, 4).

...

1.利用の目的及び性質

(略)

A.特定の大規模言語モデルの学習のために利用された複製

(略)

私たちの事実により近いものは-判決、意見書、法的見解の記事及び同様のものを用い-法的プロンプトを受け取り、新たな法的文章で答える学習したAIツールであろう。そして、これらに大いに似た事実に基づき、別の裁判所が異なる方向を取っている。それはフェアユースと判示したのである。2014年7月3日のホワイト対ウェスト出版社事件ニューヨーク南部地裁判決。

後者の利用は著作権者が正しくコントロールできると期待できるものと十分「直交する」。2023年5月18日のアンディ・ウォーホル財団対ゴールドスミス事件アメリカ最高裁判決参照。すなわち、それは「創作するインセンティブを減らす事なく科学と芸術の進歩を促進する」ものであって、著作権に縛られる事なく自由に利用できる。同上;アメリカ憲法第1条第8節第8項参照。

要するに、新しい文章を生成するために著作物を大規模言語モデルの学習に用いる事の目的及び性質は真に変形的なものである。作者となろうとする読者の様に、アンスロピックの大規模言語モデルは-作品の先を走りそれを再現するか置き換えるためにではなく-急な角を曲がり、何かしら別のものを作り出すために、作品に基づく学習を行ったのである。この学習プロセスにおいて大規模言語モデル等の中で複製がなされる事が合理的に必要であったのであれば、これらの複製は変形的利用においてなされたものである。

第1の要素は学習のための複製についてフェアユースに有利である。

B.中央ライブラリを構築するために用いられた複製

しかし、問題となっている利用はそれだけではない。アンスロピックがその中央ライブラリのために何百万冊もの書籍を購入し、同じくその中央ライブラリのために何百万ものデジタル本を違法にコピーした事を思い出さなくてはならない。それは特定の大規模言語モデルの学習のために特定の本の集合及び部分集合を利用した。そして、大規模言語モデルの学習のために(全く又は二度と)利用しないと決めた後でも、それは後で発生するかも知れない他の利用のためにその中央ライブラリにおける全ての複製を保持した。複製した作品の幾許かは大規模言語モデルの学習のために間々使われるため、それ以上の説明は要らず、アンスロピックは世界のあらゆる作品を自由に取り、永遠に保持しておく資格があるとアンスロピックは考えている様である。しかしながら、AI企業のための著作権法からの除外はない。

アンスロピックが購入し、違法にコピーしたライブラリの複製の間で法的問題は異なるため、本決定ではこれらを順番に検討する。

(ⅰ)紙からデジタルに変換された、購入されたライブラリの複製

(略)

まとめると、第1のフェアユースの要素は、購入された紙のライブラリの複製から変換されたデジタルのライブラリの複製にとって有利なものである-ただし、これらは違法にコピーされたライブラリの複製の口実となるものではない。

(ⅱ)違法にコピーされたライブラリの複製

(略)

まとめると、第1の要素において、違法なソースから作られた中央ライブラリの複製はフェアユースに反する方向にある。

2.著作物の性質

(略)

ここで、アンスロピックは全ての著作者の本-フィクションかノンフィクションのいずれにせよ、全て出版されたもの-は表現的要素を含んでいると認めている。そして、上で記した通り、本決定は、中央ライブラリを構築して特定の大規模言語モデルを学習させる上でその作品はその表現的性質のために選ばれたという著作者の見解を受け入れる。

(略)

第2の要素において、同種の全ての複製はフェアユースに反する方向にある。

3.利用された部分の量と本質性

(略)

A.特定の大規模言語モデルの学習のために利用された複製

(略)

「問題となるのは『利用された部分の量及び本質性』というより、[第1の利用の]代替として競合するものとなり得る、[主張された第2の利用において]公衆にアクセス可能とされたものの量及び本質である。」2015年10月16日の全米作家協会対グーグル社事件第2巡回控訴裁判決。ここで、また、クロードのサービスの出力と著作者の作品の間に何か追跡可能な繋がりがあるは主張されていない。すなわち、クロードの基礎にある大規模言語モデルの学習のために利用された複製は特に合理的なものである。

(略)

1つ、アンスロピックが所与の大規模言語モデルの学習のために何十億もの語が必要であった事は皆認めている。本だけを使うとして、アンスロピックはモデル毎に何百万冊もの本を必要としたであろう。本の小さな部分及び他の文章のより大きな部分を含む集合を使うとして、アンスロピックはなお何万冊もの本を必要としたであろう。アンスロピックはその様な本の小さな集合を利用できた事を示したのであるから、本を全く使わない-少なくとも彼らの本を使わない-事もできたと著作者は主張している。しかし、著作者は「合理的に必要」とは「厳密に必要」を意味しないという事を忘れている。著作者は大規模言語モデルの学習のために求められる文章の量が莫大である事を争っていない。それほど沢山の作品の利用が合理的に必要なのであるから、実際に大規模言語モデルの学習のためにある著作物を利用する事はその次のものと同じく合理的なものであろう。

もう1つ、公衆に対する出力による侵害は主張されてすらいない。よって、確かに、著作者の作品は文章の最も強い例として選ばれていた。しかし、強い例に基づいて大規模言語モデルを学習する事により当然得られる利益が、作品それ自体の部分の公衆への開示によって減殺されたという事もない。したがって、複製されたものは合理的であり、当然必要とされたものである。

よって、第3の要素は学習のための複製についてフェアユースに有利である。

B.中央ライブラリを構築するために利用された複製

しかし、また、別の利用-ライブラリの複製について、複製の量及び本質性が「複製の目的との関係で合理的」かどうかに関し、違いを生み出す区別-がある。1994年3月7日のキャンベル対エイカフ=ローズ・ミュージック社事件アメリカ最高裁判決。

(ⅰ)紙からデジタルに変換された、購入されたライブラリの複製

アンスロピックが購入してデジタルのライブラリの複製に変換した書籍のライブラリの複製について、アンスロピックは複製をそのライブラリに保持する資格を既に享受していた。複製の目的はそれをそのライブラリに保持する事であったが、より好ましい蓄積及び検索可能性を伴っての事である。作品全体の複製は正しくこの目的により求められる事である。追加の複製はない。元の複製は破棄された。

第3のフェアユースの要素は、紙からデジタルに変換された、購入されたライブラリの複製についてフェアユースに有利である。

(ⅱ)違法にコピーされたライブラリの複製

しかしながら、違法にコピーされたライブラリの複製について、アンスロピックは本の複製を保持する資格を全く持たない。それが言うには、その目的は大規模言語モデルの学習のためである。しかし、その客観的な振舞は、「世界における全ての本」を探して、そこから学習のためにさらなる複製を作らないと決定した後でも-他のさらなる利用がある事を示唆し-それを保持しようとしたというものである。全ての本を手に入れるという目的に対して、上手くすれば幾許かが大規模言語モデルの学習のために有益である事を証明できるかも知れないし、他のものについてもそうかも知れないが、ほとんどの違法な複製は行き過ぎであろう。アンスロピックは何百万もの本をすっかり複製しており、著作者の作品もその中にある。

第3の要素において、違法にコピーされたライブラリの複製はフェアユースに反する方向にある。

4.著作物の市場又はその価値に与える利用の影響

(略)

A.特定の大規模言語モデルの学習のために用いられた複製

特定の大規模言語モデルの学習のために用いられた複製が著作者の作品の複製に対する要求を置き換えたという事も、そうなるだろうという事も、著作権法の下で考慮されるやり方でそうなるという事もない。

(略)

よって、第4の要素は学習のための複製についてフェアユースに有利である。

B.中央ライブラリを構築するために利用された複製

(ⅰ)紙からデジタルに変換された、購入されたライブラリの複製

(略)それはフォーマットチェンジである。

(略)

よって、この要素は、紙からデジタルに変換された、購入されたライブラリの複製について中立である。

(ⅱ)違法にコピーされたライブラリの複製

中央ライブラリを構築されるために用いられた、違法ソースから手に入れた複製は-複製に対する複製であって-著作者の本への要求を明らかに置き換えるものである。

第4の要素において、違法にコピーされたライブラリの複製はフェアユースに反する方向にある。

5.総合分析

4つの要素及び関係するとみなされる他の事が「探求された後で、著作権の目的に照らして、結果はともに衡量される。」キャンベル事件アメリカ最高裁判決。

特定の大規模言語モデルの学習のために利用された複製はフェアユースとして正当化される。著作物の性質以外の全ての要素がこの結果に有利である。問題となる技術は私たちの多くが自分たちの人生において見るだろうものの中で最も変形的なものの1つである。

購入された書籍の複製をデジタルライブラリの複製に変換するために利用された複製もまた別にフェアユースとして正当化される。第1の要素はこの結果に強く有利なものであり、第3の要素も同じく有利である。第4の要素は中立である。第2の要素のみが若干それに不利である。比較衡量において、購入された紙の複製が破棄され、そのデジタルの置換物が再配布されていない以上、これはフェアユースである。

中央ライブラリを構築するために利用された、違法にダウンロードされた複製はフェアユースによって正当化されない。全ての要素においてこれはフェアユースに反する方向にある。作品の複製は(違法にコピーされたものも)、アンスロピックが大規模言語モデルの学習のために利用しないと決めた後でも「一般的な目的」のために「永遠に」保持されるであろうとアンスロピックの従業員は言った。それぞれの目的のために別の正当化事由が求められる。アンスロピックの手控えと利便を除き、ここで如何なる正当化事由も提示されていない。

そして、中央ライブラリの複製から作られたが学習のために利用されなかった複製について、本決定はアンスロピックに有利な略式判決を与えるものではない。この点に関する記録において、中央ライブラリの複製は学習のための複製の元としてもはや利用されなくなった時にも保持されており、「何百人ものエンジニア」が他の利用のためにアクセスして複製を作る事ができ、エンジニアたちは他の複製を作った。アンスロピックはこれらの点でディスカバリーを避けた。記録はこれらに関しては余りにも不十分であり、私たちはこの様な複製に関して正しい答えを決定する事ができない。アンスロピックは、その語を利用するために「データを手に入れた後でアンスロピックが作った」全ての複製を祝福する様な決定を受ける資格はない、

(略)

 上で書いた事の繰り返しになるが、この判決は、新しい文章を生成するために著作物を大規模言語モデルの学習に用いる事は変形的なものであって、多くの本を利用する事も合理的に必要な事であり、基本的にフェアユースと考えられるとしながらも、元の著作物の性質を見るだけの第2の要素を除き、第1、第3、第4の要素で、複製が合法か違法かによって判断を分け、適法に購入した本からした複製の利用であればフェアユースだが、違法コピーの利用はフェアユースに反するとしている。

(3)2025年6月25日のリチャード・カドレー他対メタ社事件カリフォルニア北部地裁判決

 今回最後に取り上げる判決(pdf)は、同じくカリフォルニア北部地方裁から、上のもののすぐ後の2025年6月25日にメタの生成AIに対して出されたものであり、以下の様に、新しい文章を作るための生成AIの学習への著作物の利用は基本的にフェアユースたり得るとしたものである。

III. FACTOR ONE: THE PURPOSE AND CHARACTER OF THE USE

...

This factor favors Meta. There is no serious question that Meta's use of the plaintiffs' books had a "further purpose" and "different character" than the books - that it was highly transformative. The purpose of Meta's copying was to train its LLMs, which are innovative tools that can be used to generate diverse text and perform a wide range of functions. Cf. Oracle, 593 U.S. at 30 (transformative to use copyrighted computer code "to create a new platform that could be readily used by programmers"). Users can ask Llama to edit an email they have written, translate an excerpt from or into a foreign language, write a skit based on a hypothetical scenario, or do any number of other tasks. The purpose of the plaintiffs' books, by contrast, is to be read for entertainment or education.

...

IV. FACTOR TWO: THE NATURE OF THE COPYRIGHTED WORK

...

This factor favors the plaintiffs. Their books - mostly novels, memoirs, and plays - are highly expressive works "of the type that the copyright laws value and seek to protect." Hachette, 115 F.4th at 187 (quoting Authors Guild, Inc. v. HathiTrust, 755 F.3d 87, 98 (2d Cir. 2014)). That some of their works may be factual (like an autobiography) as opposed to fictional does not meaningfully change this conclusion, because copyright still protects an author's "manner of expressing" facts. Google Books, 804 F.3d at 220.

...

V. FACTOR THREE: THE AMOUNT AND SUBSTANTIALITY OF THE PORTION USED IN RELATION TO THE COPYRIGHTED WORK AS A WHOLE

...

In any event, this factor favors Meta, even though it copied the plaintiffs' books in their entirety. The amount that Meta copied was reasonable given its relationship to Meta's transformative purpose. See Oracle, 593 U.S. at 34. Everyone agrees that LLMs work better if they are trained on more high-quality material. See Ungar Decl. ISO Meta MSJ ¶¶ 42-48; Pls. Reply Ex. 115 ¶¶ 79-80. So feeding a whole book to an LLM does more to train it than would feeding it only half of that book. With this in mind, it was "reasonably necessary" for Meta to "make use of the entirety of the works." HathiTrust, 755 F.3d at 98.

VI. FACTOR FOUR: THE EFFECT OF THE USE UPON THE POTENTIAL MARKET FOR OR VALUE OF THE COPYRIGHTED WORK

...

In a case involving the use of copyrighted works to train generative AI models, there are at least three ways a plaintiff might try to argue that the defendant's copying harmed the market for the works (or that the market would be harmed if that copying were widespread). First, the plaintiff might claim that the model will regurgitate their works (or outputs that are substantially similar), thereby allowing users to access those works or substitutes for them for free via the model. Second, the plaintiff might point to the market for licensing their works for AI training and contend that unauthorized copying for training harms that market (or precludes the development of that market). Third, the plaintiff might argue that, even if the model can't regurgitate their own works or generate substantially similar ones, it can generate works that are similar enough (in subject matter or genre) that they will compete with the originals and thereby indirectly substitute for them. In this case, the first two arguments fail. The third argument is far more promising, but the plaintiffs' presentation is so weak that it does not move the needle, or even raise a dispute of fact sufficient to defeat summary judgment.

A

If Llama could be used to generate significant portions of the plaintiffs' books - or text so similar to their books as to be infringing in its own right - that would threaten the market for the books because people would read those outputs instead. But that theory of harm is not viable in this particular case because, as discussed above, Llama does not allow users to generate any meaningful portion of the plaintiffs' books. Neither party's expert opined that Llama was able to regurgitate more than 50 words from any of the plaintiffs' books, even in response to "adversarial" prompting designed specifically to make LLMs regurgitate. ...

B

The plaintiffs' primary theory of market harm is that Meta's unauthorized use of their books for LLM training harms the market for licensing their books for that purpose. The plaintiffs devote nearly all of their discussion of the fourth factor to this theory. The parties therefore go back and forth at length about whether a market for licensing general trade books exists or is likely to develop.

But whether such a market exists or is likely to develop is irrelevant, because this market is not one that the plaintiffs are legally entitled to monopolize. In every fair use case, the "plaintiff suffers a loss of a potential market if that potential [market] is defined as the theoretical market for licensing" the use at issue in the case. Tresona Multimedia, LLC v. Burbank High School Vocal Music Association, 953 F.3d 638, 652 (9th Cir. 2020) (emphasis omitted) (quoting 4 Melville B. Nimmer & David Nimmer, Nimmer on Copyright § 13.05 (2019)). Therefore, to prevent the fourth factor analysis from becoming circular and favoring the rightsholder in every case, harm from the loss of fees paid to license a work for a transformative purpose is not cognizable. Id.; Bill Graham Archives v. Dorling Kindersley Ltd., 448 F.3d 605, 614-15 (2d Cir. 2006); see also Oracle, 593 U.S. at 38 ("cautioning against the 'danger of circularity'" (quoting 4 Nimmer § 13.05)).

C

The third way that using copyrighted books to train an LLM might harm the market for those works is by helping to enable the rapid generation of countless works that compete with the originals, even if those works aren't themselves infringing. Assume for this discussion that people can (or will soon be able to) use LLMs to generate massive amounts of text in significantly less time than it would take to write that text, and using a fraction of the creativity. People could thus use LLMs to create books and then sell them, competing with books written by human authors for sales and attention. Indeed, to some extent, this appears to be occurring already - one expert for the plaintiffs briefly discusses reports of AI-generated books "flooding Amazon." Pls. MSJ Ex. 76 ¶ 199; see id. ¶¶ 193-207. People might even be motivated to make those books available for free, given how easily it will presumably be to prompt an LLM to create them. Harm from this form of competition is the harm of market dilution. Or as one commentator describes it, the harm of "indirect" substitution, rather than "direct" substitution (which would be the first form of harm described). See Matthew Sag, Fairness and Fair Use in Generative AI, 92 Fordham L. Rev. 1887, 1916-20 (2024).

Of course, not all copyrighted works would have their markets diluted equally by AI-generated competitors. It seems unlikely, for instance, that AI-generated books would meaningfully siphon sales away from well-known authors who sell books to people looking for books by those particular authors. But it's easy to imagine that AI-generated books could successfully crowd out lesser-known works or works by up-and-coming authors. While AI-generated books probably wouldn't have much of an effect on the market for the works of Agatha Christie, they could very well prevent the next Agatha Christie from getting noticed or selling enough books to keep writing.

This effect also seems likely to be more pronounced with respect to certain types of works. For instance, an AI model that can generate high-quality images at will might be expected to greatly affect the market for such images, diminishing the incentive for humans to create them. An LLM that could generate accurate information about current events might be expected to greatly harm the print news market. The market for certain nonfiction works - for example, books about how to take care of your garden - could be greatly diminished by the ability of LLMs to produce books on that topic. For fiction works, it might be more dependent on the author or the genre in which that author operates.

... Meta introduced evidence that its copying hasn't caused market harm. The plaintiffs presented no empirical evidence to the contrary - no evidence that the copying has already caused market harm, and no evidence that the copying is likely to cause market harm in the future. All the plaintiffs presented is speculation, and speculation is insufficient to raise a genuine issue of fact and defeat summary judgment. E.g., Anheuser-Busch, Inc. v. Natural Beverage Distributors, 69 F.3d 337, 345 (9th Cir. 1995).

... Nor is it self-evident that Llama will harm the book sale market by enabling users to create a flood of competing books. It's possible, even likely, that Llama will harm the book sale market. But to conclude that it will requires inferring that Llama (and not just any LLM) can be used to create such books, that it will be used to create such books, that consumers will purchase those books instead of books written by human authors, that consumers will buy those books instead of the plaintiffs' books in particular, and that Llama is meaningfully better at creating those books because it was trained on copyrighted material. ...

VII. CONCLUSION

...

In this case, because Meta's use of the works of these thirteen authors is highly transformative, the plaintiffs needed to win decisively on the fourth factor to win on fair use. See, e.g., Perfect 10, 508 F.3d at 1168 (fair use where secondary use was "significant[ly] transformative" and fourth factor "favor[ed] neither party"). And to stave off summary judgment, they needed to create a genuine issue of material fact as to that factor. Because the issue of market dilution is so important in this context, had the plaintiffs presented any evidence that a jury could use to find in their favor on the issue, factor four would have needed to go to a jury. Or perhaps the plaintiffs could even have made a strong enough showing to win on the fair use issue at summary judgment. But the plaintiffs presented no meaningful evidence on market dilution at all. Absent such evidence and in light of Meta's evidence, the fourth factor can only favor Meta. Therefore, on this record, Meta is entitled to summary judgment on its fair use defense to the claim that copying these plaintiffs' books for use as LLM training data was infringement.

...

Ⅲ.要素1:利用の目的及び性質

(略)

この要素はメタに有利である。原告の本のメタによる利用が本とは別の「さらなる目的」及び「異なる性質」を持っていた事にほぼ疑問の余地はない-これは高度に変形的なものである。メタの複製行為の目的は、様々な文章を生成し、広い範囲の機能を発揮する事に用いられ得る革新的なツールであるその大規模言語モデルの学習にある。2021年4月5日のグーグル社対米オラクル社事件アメリカ最高裁判決(「プログラマーによってすぐに利用できる新しいプラットフォームを生成するため」著作権の保護を受けるコンピューターコードを変形的に利用するもの)。利用者はLlamaに、書いた電子メールを添削する事、抜粋の外国語から又は外国語に翻訳する事、仮のあらすじに基づき寸劇を書く事、又は他にも数多くの仕事をする事を頼む事ができる。原告の本の目的は、それに対し、娯楽又は教育のために読まれる事にある。

(略)

Ⅳ.要素2:著作物の性質

(略)

この要素は原告に有利である。その本は-ほとんど小説、回想録及び戯曲である-は、「著作権法が評価し、保護しようとする種類の」高度に表現的な作品である。2024年9月4日のアシェット・ブック・グループ社対インターネット・アーカイブ事件第2巡回控訴裁判決(2015年10月16日の全米作家協会対グーグル社事件第2巡回控訴裁判決を引用)。著作権が保護するのは著作者が事実を「表現するやり方」であるから、その作品の幾つかがフィクションではなく(自伝の様な)事実を書いたものである事がこの結論を変える事はない。2015年10月16日の全米作家協会対グーグル社事件第2巡回控訴裁判決。

(略)

Ⅴ.要素3:著作物全体との関係で用いられた部分の量及び本質性

(略)

いずれにしても、メタが原告の本全体を複製したにせよ、この要素はメタに有利である。メタが複製した量はメタの変形的利用との関係の下で合理的である。オラクル社事件アメリカ最高裁判決参照。より多くの高品質なマテリアルによって学習する時、大規模言語モデルがより良く動く事に皆同意している。意見書等参照。よって、本全体を大規模言語モデルに与える事は、本の半分のみを与えるより、学習に対して多くをなす。この事を踏まえ、メタが作品の全体を利用する事は「合理的に必要」なものであった。2014年6月10日の全米作家協会対ハイチ・トラスト事件第2巡回控訴裁判決。

Ⅵ.要素4:著作物の市場又はその価値に与える利用の影響

(略)

生成AIモデルの学習のための著作物の利用が関係する事件において、被告の複製行為がその著作物の市場を害した(又はその複製行為が広がるとその市場が害されるであろう)と原告が主張するやり方は少なくとも3つある。第1に、原告は、モデルがその作品をその吐き出し(又は実質的に類似したものを出力し)、それによってそのモデルを通じてその作品又はそれに対する代替物を利用者にアクセス可能としたと主張できるだろう。第2に、原告は、その作品をAI学習のためにライセンスする市場を示し、許諾を得ていない学習のための複製行為がその市場を害する(又はその市場の発展を阻害する)と主張できるだろう。第3に、原告は、そのモデルが彼ら自身の作品をその儘吐き出すか実質的に類似するものを生成し得ないとしても、それは、元の作品と競合し、それによって間接的にその代替となるであろう、(題材又はジャンルにおいて)十分類似した作品を生成する事ができると主張できるだろう。本事件において、最初の2つは失敗する。第3のものは大いに見込みがあるが、原告による提示は非常に弱く、針を動かさないか、略式判決を退けるのに十分なだけの事実の争いを提起しない。

もしLlamaが原告の本の大きな部分-又は彼ら自身の権利の侵害となるほどその本に類似した文章-を生成するのに使われ得るようであれば、人々は代わりにその出力を読むであろうから、その本の市場を脅かす事になるであろう。しかし、上で議論した通り、Llamaは原告の本の意味のある部分を生成する事を利用者に許していないのであるから、この害に関する理論はこの個別のケースにおいて有効ではない。大規模言語モデルにその儘吐き出させるために特別に設計された「敵対」プロンプト入力に対する応答としても、いずれの当事者の専門家もLlamaは原告の本のいずれからも50語もその儘吐き出す事はできないと述べている。(略)

市場への害に関する原告の主たる理論は、メタの大規模言語モデルの学習のためのその本の無許諾利用がその目的についてその本をライセンスする市場を害するというものである。原告は第4の要素に関するその議論のほぼ全てをこの理論にささげている。そのため、当事者は一般取引本のライセンス市場が存在するか、発展しようとしているかについて長々と行ったり来たりを繰り返している。

しかし、この市場は原告が法的に独占する資格があるものではないため、その様な市場が存在するか、発展しようとしているかは無関係である。フェアユースが関係するあらゆる事件において、「もし潜在的なもの[市場]が」その事件において問題となっている利用に対する「理論的なライセンス市場であると定義されるなら、原告は潜在市場の喪失を蒙る」。2020年3月24日のトレゾナ・マルチメディア社対バーバンク高校声楽連盟事件第9巡回控訴裁判決(ニンマー著作権法を引用)。したがって、第4の要素の分析が循環的なものとなり、あらゆる事件において権利者に有利なものとなるのを避けるため、変形的な目的について作品をライセンスするために支払われるべき料金の損失から来る害は認められない。同上;2006年5月9日のビル・グラハム・アーカイブズ対ドーリング・キンダースレイ社事件第2巡回控訴裁判決;オラクル社事件アメリカ最高裁判決(「『循環性の危険』に注意すること」(ニンマー著作権法を引用))も参照。

大規模言語モデルの学習に著作権の保護を受ける本を利用する事がその作品の市場を害し得るとする第3のやり方は、その作品自体は侵害するものでないとしても、元の著作物と競合する無数の作品を急速に生成する事を可能にする事を助けるという事による。この議論は、創造性の僅かな欠片を利用し、人々が大規模言語モデルを用いてその文章を書くのにかかるより非常に少ない時間で大量の文章を生成する事ができる(又はすぐにできる様になる)という事を前提とする。そうすると、人々は大規模言語モデルを用いて本を作り出して売る事ができ、販売のためと耳目を集めるために人間の著作者によって書かれた本と競合する事になるだろう。実際、ある程度まで、この事は既に置きている様であり-ある専門家は原告のために「アマゾンに溢れる」AI生成本の報告について簡単に議論している。原告意見書。大規模言語モデルにプロンプトを入力してそれを作る事がどれほど簡単になると想定されるかを踏まえると、人々はこれらの本を無料で入手可能とする気にまでなるかも知れない。この形の競争からくる害は市場の希釈化の害である。そして、ある論文はそれを(説明される第1の形の害であろう)「直接的」代替というより「間接的」代替の害であると説明している。マシュー・サグ著、生成AIにおける公正性及びフェアユース(2024年)参照。

もちろん、全ての著作物がその市場においてAI生成の競争者によって等しく希釈化される訳ではないであろう。例えば、AI生成本がその個別の著者による本を探し求める人々に本を売る良く知られた著作者から売上を大きく吸い上げる事はありそうにないと思える。しかし、AI生成本がそれほど知られていない作品や新進の著作者による本を上手く押し出し得ると想像するのは容易い。AI本は恐らくアガサ・クリスティーの作品の市場に対してそれほど影響を与えないであろうが、それは次のアガサ・クリスティーが気づかれ、書き続けられるほど十分に売れる事を非常に良く妨げ得るであろう。

また、この影響は特定の種類の作品に関してより顕著なものになるだろうと思える。例えば、高品質な画像を好きに生成できるAIモデルはそのような画像の市場に大いに影響を与える事が予想され、それを作ろうとする人間のインセンティブを減退させるであろう。現在の出来事に関する正確な情報を生成できる大規模言語モデルは刊行ニュース市場を大いに害する事が予想される。何かしらのノンフィクション作品-例えば自身の庭を手入れする方法に関する本-の市場はそのトピックに関する本を作成する大規模言語モデルの能力によって大いに減少し得るであろう。フィクション作品については、著者及びその著者が活動するジャンルにより依存するものだろう。

(略)メタはその複製行為が市場に害をもたらしていない証拠を提出した。原告はそれに反対するものとして実証的証拠を-複製行為が既に市場に害をもたらしている証拠も、複製行為が将来的に市場に害をもたらすであろう事の証拠も-何ら提示していない。原告が提示したのは憶測に過ぎず、憶測は、事実に関する本質的な問題を提起し、略式判決を退けるには不十分である。例えば、1995年10月27日のアンホイザー・ブッシュ社対ナチュラル・ビバレッジ・ディストリビューターズ事件第9巡回控訴裁判決。

(略)Llamaが利用者に競合する本の洪水の作成を可能とする事によって本の販売市場を害するという事も自明ではない。Llamaが本の販売市場を今後害する事はあり得、そうなりそうでもある。しかし、そう結論するには、(何らかの大規模言語モデルとしてのみではなく)Llamaがその様な本を作り出す事に使われ得る事、その様な本を作り出す事に使われるだろう事、消費者が人間の著作者によって書かれた本の代わりにその本を購入するだろう事、消費者が特に原告の本の代わりにその本を買うだろう事、そして、著作権の保護を受けるマテリアルによって学習したためにその本を大いにより良く作る事の推論が必要だろう。(略)

Ⅶ.結論

(略)

本事件においては、メタによるこれらの十三人の著作者の作品の利用は高度に変形的なものであるから、原告はフェアユースにおいて勝つためには第4の要素で決定的に勝つ必要があった。例えば、2007年5月16日のパーフェクト10社対アマゾン・ドットコム社事件第9巡回控訴裁判決(二次利用は「とても変形的なもの」であり、第4の要素は「いずれの当事者にも有利なものではなかった」場合におけるフェアユース)参照。そして、略式判決を免れるためには、彼らはこの要素に関して具体的な事実に関する本質的な問題を作り出す必要があった。市場の希釈化の問題はこの文脈において実に重要であり、陪審がこの問題に関して原告に有利となる事実の認定に使える証拠を提示したなら、要素4は陪審に送られる必要があったであろう。あるいは原告は略式判決においてフェアユースの問題について勝てるだけ十分強いものを見せる事ができたかも知れない。しかし、原告は市場の希釈化について有意な証拠を何ら示していない。その様な証拠の欠如及びメタの証拠に照らし、第4の要素はメタのみに有利である。したがって、本記録に基づき、これらの原告の本を大規模言語モデルの学習データとして使う事は侵害であるとする主張に対するそのフェアユースの抗弁についてメタは略式判決を受ける資格を有する。

(略)

 上で書いた通り、この判決も、新しい文章を作りための生成AIの学習への著作物の利用は変形的なものであり、その様な生成AIを開発するために多くの本の全体を利用する事も合理的に必要な事であって、元の著作物の市場への影響も証明できておらず、基本的にフェアユースに該当するとしている。

 そして、この判決の特徴は、第4の要素の考察において、市場への影響として3つの場合が考えられるとして細かな分析を加えている事にあると言って良いだろう。

 1つ目は、生成AIが元の著作物をそのまま出力する事によって市場における代替が生じる場合、2つ目のものは生成AIへの学習に対するライセンス市場に対する影響を考える場合である。第1の場合については、この判決で述べられている通り、元の著作物をそのまま出力する事が技術的に止められている場合には問題とならないだろう。また、第2の場合についても、本来あの利用が公正なものであってライセンス不要かどうかが議論されるべきであるのに、その様な利用についてライセンスしていたかできたかも知れないといったライセンス市場への影響に関する主張を認めると、如何なる場合でも市場への影響があるというおかしな事になるので、フェアユース分析においてライセンス市場を問題とするべきではないのは理論的に当然の事と言って良い。なお、日本ではまだ著作権法第30条の4の非享受目的利用に関する判決が出されているという事はないが、そのただし書きについてもここで言われている事と同様に考えるべきである。

 この判決が取り上げている中で最も議論を呼ぶのが3つ目の、生成AIによって直接的に侵害となるものではないが同種のものが大量に生成される事で市場が希釈化・ダイリューションされる(間接的に代替される)とする様な場合だろう。

 十分な証拠がないと言いながら、最も見込みがあると言って長々と講釈を垂れているあたり、この地裁の判事はこの市場の希釈化の理論にかなりの愛着を見せているように見えるが、果たして著作権法に基づくフェアユースの世界にこの様な市場の希釈化の概念を持ち込んで良いのか私には甚だ疑問に思える。

 生成AIが元の著作物とは別のものだが同種のものを大量に作り出す事により、消費者が人間の著作者によって作成されたものの代わりにAI生成物を購入し、結果として著作物の市場に害を与える事自体ありそうにないが、たとえその様な事が一部で起こったとしても、大体、写真と絵の関係1つ取っても明らかな様に、この様な間接的な代替自体は今までも技術の発展において起こって来た事に過ぎないのであって、最近のAI技術だけ特別視するべき理由は今の所ないと私は考えている。ここで、AI生成物が直接侵害物となる様な場合は別に考えるべきである事には注意が必要であり、また、それもまだ今の所ありそうにないが、このブログで以前から書いている通り、AI本当に人間の知的創作を代替する様になったとしたら、それはもはや学習への著作物の利用がどうとかいうレベルの問題ではなく創作保護法としての知的財産法の根底から考え直すべき話である。

 上で書いた通り、これらの判決はいずれもまだ地裁レベルの略式判決であって、これで何かが決まるという事はないと言って良いが、AI学習への著作物の利用のフェアユース該当性の判断において論点となり得りそうな事はほぼ出尽くしていると見て良いのではないかと思う。最初の(1)の事件は生成AIを扱っていない事に留意が必要であり、いずれの要素も相互に関係する所もあるが、最後に生成AIの学習への著作物の利用とフェアユースに関する論点を各要素毎になるべく簡単にまとめて書いておくと、

  • 第1の要素(利用の目的及び性質)において、生成AIの出力が十分変形的と考えられるかどうか、言い換えると、学習した元の著作物をその儘出力できる様になっていないか
  • 第2の要素(著作物の性質)において、著作物の創作性は高度なものか
  • 第3の要素(利用された著作物の部分の量と本質性)において、生成AIへの著作物の利用は合理的に必要か
  • 第4の要素(著作物の価値と市場への影響)において、市場の著作物を直接的に代替する事があるか、また、市場の希釈化(間接的な代替)をどの様に考えるか
  • 全体を通して、著作物を合法に入手したか、それとも違法コピーを利用したか、

となるだろう。

 さらに、第2の要素は大きな要素ではない事と、第3の要素で生成AIの開発に大量の著作物が必要である事に議論の余地はほぼない事を考えると、それぞれの事件で大きな論点になるのは、

  • 生成AIの出力の変形性(直接侵害物の出力の不可能化)
  • 違法コピーの使用の有無

の2点であり、今後の訴訟の展開次第で、

  • 市場の希釈化による影響の是非

も議論されて行く事になるのではないだろうか。

 最後、これらの様な事件はアメリカ最高裁まで行くのではないかと思うが、上でも書いた通り、アメリカでも、著作権法に基づくフェアユースの判断において市場の希釈化を持ち出すのは筋違いであるとされる事を、その結果として、新しい文章などを生成するAIの学習への著作物への利用は基本的にフェアユースだが、違法コピーをそうと知って使う様な場合は除くという合理的な判断がなされる事を私としては大いに期待している。そうすると、日本における著作権法第30条の4の非享受目的利用の権利制限の考え方と同じ形に収斂して行く事になるだろうが、著作権が本来守るべきものは何かという事を考えれば、それは極めて妥当な事と私には思えるのである。(私は完全なフェアユースとは思っていないが、日本版フェアユースとも言われる、著作権法第30条の4とAIの関係については、第492回で取り上げた文化庁の報告書参照。なお、アメリカの判決で言われた事などから、日本でも、著作権法第30条の4で市場の希釈化によって権利者の利益が不当に害されると言う者がいるかも知れないが、いずれの国でも、その様な間接的な代替による市場への影響は本来著作権法が止めるべき筋合いのものではないだろう。)

(2025年8月25日夜の追記:(3)の判決のリンク先が間違っていたのを直し、合わせて最後から2段落目の文章もその方が読み易いのではないかと箇条書きの形に書き直した。)

(2025年8月27日夜の追記:ロイターの記事などによると、(2)のアンスロピックの事件は当事者間で和解の合意が成立した様である。アンスロピックは合法コピーのAI学習への利用についてはフェアユースで勝ったが、違法コピーについてはこれ以上争っても不利と判断したのかも知れない。)

(2025年9月11日夜の追記:タイトルと1行目の変換ミスを直した(「人口」→「人工」)。)

|

« 第515回:人工知能(AI)は著作者たり得ないとする2025年3月18日のアメリカ控訴裁の判決 | トップページ | 第517回:フェアユースに関する2023年5月18日のアンディ・ウォーホル事件アメリカ最高裁判決 »

著作権国際動向(アメリカ)」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




« 第515回:人工知能(AI)は著作者たり得ないとする2025年3月18日のアメリカ控訴裁の判決 | トップページ | 第517回:フェアユースに関する2023年5月18日のアンディ・ウォーホル事件アメリカ最高裁判決 »