AIツールの学習データ不足問題の解決策

AI ツールの迅速な開発は、高品質のトレーニング データの利用可能性に大きく依存します。さまざまな分野でこれらのツールの使用が増えるにつれ、企業は利用可能なトレーニング データの不足に代表される新たな課題に直面し始めました。この欠陥は、インテリジェント モデルの開発とパフォーマンスの向上を妨げる可能性があります。では、AI が成長し続けて私たちに役立つようにするには、どうすれば AI をトレーニングできるのでしょうか?

インターネットとそのデータは無尽蔵のリソースであると思われるかもしれませんが、AI ツールが利用可能なデータのほぼすべてを消費してしまいました。さて、心配する前に、これによって AI の開発が止まることはありません。AI システムをトレーニングする準備ができているデータはまだたくさんあります。この問題の克服に役立つ革新的なソリューションがあり、AI 機能の継続的な改善と強化が可能になります。確認する PDFファイルの質問に答えるAIツール.

حلول لمُشكلة نفاد بيانات التدريب المُخصصة لأدوات الذكاء الاصطناعي | 1HdPxSE107sZwDNtfLuQWSg-DzTechs | الذكاء الاصطناعي

1. より多くのデータが常にオンラインで追加されます

つまり、人工知能研究所は次のように述べています。 エポック AI のトレーニングに使用される高品質のデータは、2026 年までに枯渇する可能性があります。

そこでのキーワードは「できる」です。インターネットに追加されるデータの量は毎年増加しているため、2026 年までに何か劇的な変化が起こる可能性があります。ただし、これは依然として妥当な推定値です。いずれにせよ、AI システムはある時点で適切なデータを使い果たしてしまいます。

ただし、毎年約 147 ゼタバイトのデータがオンラインに追加されていることを覚えておく必要があります (... によると)。 爆発的なトピック)。わずか 1,000,000,000,000,000,000,000 ゼタバイトは、30 ビットのデータに相当します。実質的には、これは 4 億本を超える XNUMXK 映画になります (現実ですが、計り知れません)。 AIがふるいにかけるべき情報は驚くほど大量です。

しかし、人工知能は人類がデータを生成するよりも速くデータを消費しています...

2. AI は低品質のデータを忘れてしまう可能性がある

حلول لمُشكلة نفاد بيانات التدريب المُخصصة لأدوات الذكاء الاصطناعي | 1mH6OFAacUbReXc6jah7QsA-DzTechs | الذكاء الاصطناعي

もちろん、147 ゼタバイトのデータすべてが良好なデータであるわけではありません。目に見える以上のものがあります。しかし、AI は 2050 年までに低品質の言語データも消費するようになると推定されています。

報告 ロイター通信社 かつて世界最大の写真リポジトリの一つだった Photobucket は、その膨大なライブラリを AI トレーニング会社にライセンス供与する交渉を行っている。写真には、DALL-E や Midjourney などのモデルをトレーニングするためのデータが含まれていますが、それさえも 2060 年までに枯渇する可能性があります。ここにはさらに大きな問題もあります。Photobucket には、Myspace などの XNUMX 年代のソーシャル ネットワーキング プラットフォームの写真が含まれているため、現在のものほどレベルが高くありません。写真撮影。これにより、データの品質が低下します。

Photobucket だけではありません。 2024年XNUMX月、GoogleはRedditと契約を結び、検索大手がソーシャルメディアプラットフォームのユーザーデータを人工知能のトレーニングに使用できるようにした。他のソーシャル ネットワーキング プラットフォームも、AI トレーニングの目的でユーザー データを提供します。 Meta の Llama のように、内部 AI モデルのトレーニングに使用する人もいます。

ただし、低品質のデータからも一部の情報を抽出できる一方で、マイクロソフトは AI がデータを選択的に「無視」する方法を開発していると伝えられています。このソリューションは主に知的財産の問題に​​使用されますが、ツールが低品質のデータセットから学習したことを忘れてしまう可能性があることも意味します。

あまり選択的になることなく、より多くのデータを AI に供給できます。これらの AI システムは、学習するのに最も役立つものを選択できます。

3. 音声認識により、ビデオやポッドキャストで利用可能なデータのロックが解除されます

これまでのところ、AI ツールに供給されるデータは主にテキストで構成されており、程度は低いですが画像で構成されています。この状況は間違いなく変わるだろうし、おそらくすでに変わっているだろう。なぜなら、音声認識ソフトウェアが利用できる豊富なビデオやポッドキャストが人工知能を訓練できることを意味するからである。

OpenAI が自動音声認識 (ASR) 用のオープンソース ニューラル ネットワークを開発したことは注目に値します。 ウィスパー、680.000 時間の多言語、マルチタスク データを使用します。 OpenAI はその後、YouTube 動画から 4 万時間以上の情報を大規模言語モデル GPT-XNUMX にフィードしました。

これは、音声認識を使用して多くのソースからビデオとオーディオを転写し、そのデータを独自の AI モデルで実行する他の A​​I システムにとって理想的なモデルです。

وウェーク<XNUMXxDXNUMX><XNUMXxDXNUMX><XNUMXxXNUMXB><XNUMXxXNUMX><XNUMXxXNUMXB>ا<XNUMXxDXNUMX><XNUMXxDXNUMX> Statistaでは、毎分 500 時間以上のビデオが YouTube にアップロードされており、この数字は 2019 年以来ほぼ一定しています。そして、これは Dailymotion や Podbean などの他のビデオおよびオーディオ プラットフォームには言及しません。 AI がこのような新しいデータセットに注意を向けることができれば、抽出すべき情報はまだ膨大にあります。

4. AIは主に英語に固執している

ウィスパーから学べるのはそれだけではありません。 OpenAI は、117000 時間の英語以外の音声データを使用してモデルをトレーニングしました。多くの AI システムは主に英語を使用してトレーニングされているか、西洋のレンズを通して他文化を観察しているため、これは特に興味深いです。

本質的に、ほとんどのツールは作成者の文化に束縛されます。

ChatGPT を例に挙げます。 2022 年のリリース直後に... ジル・ウォーカー・レットバーグ、ノルウェーのベルゲン大学のデジタル文化教授は、ChatGPT を実験し、次のように結論付けました。

「ChatGPT はノルウェーの文化についてあまり知りません。むしろ、彼がノルウェーの文化について知っていることはすべて、主に英語の情報源から学んだものと考えられています…ChatGPT は明らかにアメリカの価値観や法律と互換性があります。多くの場合、これらはノルウェーやヨーロッパの価値観に近いですが、常にそうとは限りません。

したがって、AI システムは、より多くの多国籍の人々と交流したり、より多様な言語や文化を使用してそのようなシステムを訓練したりできるように開発される可能性があります。現在、多くの AI モデルは 1 つのライブラリに限定されています。世界中の図書館に鍵が与えられれば、さらに成長する可能性がある。

5. 出版社は人工知能の開発を支援できる

حلول لمُشكلة نفاد بيانات التدريب المُخصصة لأدوات الذكاء الاصطناعي | 1TNbX5SYYffyQv824_VuRzA-DzTechs | الذكاء الاصطناعي

知的財産は明らかに大きな問題ですが、一部の出版社はライセンス契約を結ぶことで AI の進歩に貢献できます。これは、オンライン ソースからの低品質の情報ではなく、書籍からの高品質、つまり信頼できるデータをツールに提供することを意味します。

実際、Facebook、Instagram、Whatsapp のオーナーであるメタ氏は、「ビッグ 5」出版社の 1 つであるサイモン & シュスター社の買収を検討したと言われています。そのアイデアは、同社が発行した文献を使用して Meta の AI をトレーニングすることでした。おそらく、作家からの事前の同意なしにIPを処理する会社の倫理的なグレーゾーンが原因で、この契約は最終的に失敗に終わりました。

検討されているもう 1 つのオプションは、新しいタイトルに対する個別のライセンス権を購入することであるようです。これはクリエイターにとって大きな懸念を引き起こすはずですが、使用可能なデータが枯渇した場合でも、AI ツールを開発する興味深い方法であることに変わりはありません。確認する AI を活用したアートを倫理的に作成および使用する方法.

6. 合成データは未来です

他のすべてのソリューションはまだ限られていますが、将来 AI の繁栄につながる可能性のある選択肢が 1 つあります。それは合成データです。この問題は非常に現実的な可能性としてすでに調査されています。

では、合成データとは何でしょうか?それは人工知能によって生成されたデータです。人間がデータを作成するのと同じように、この方法では AI がトレーニング目的でデータを作成します。

実際、AI は説得力のあるディープフェイク動画を作成できます。このディープフェイク動画は AI にフィードバックできるため、本質的に架空のシナリオから学習できます。結局のところ、これは人間が学習する主な方法の 1 つです。私たちは周囲の世界を理解するために何かを読んだり見たりします。

AI システムはすでに人工情報を消費している可能性があります。ディープフェイクは誤解を招く虚偽の情報をオンラインで広めているため、AI システムがオンライン コンテンツをスキャンすると、一部の人が偽のコンテンツにさらされた可能性があるのは当然です。

はい、これには邪悪な側面があります。また、AI システムに損害を与えたり制限したりする可能性があり、それらのツールによって発生するエラーが強化され、拡散する可能性があります。企業はこの問題の解消に取り組んでいます。しかし、「AI は互いに学習し、間違いを犯す」というフレーズは、多くの SF の悪夢のようなシナリオのプロット ポイントです。確認する 人工知能の時代にプライバシーを保護するための完全ガイド.

7. 人工知能をより有効に活用する

人工知能ツールには議論の余地があります。それには多くの欠点がありますが、批評家はその利点を無視しています。例: 監査およびコンサルティング ネットワーク PwCは [PDF] 人工知能は、15.7 年までに世界経済に最大 2030 兆 XNUMX 億ドル貢献する可能性があります。

また、AIはすでに世界中で活用されています。おそらく今日、あなたも気づかずに、何らかの形でこの言葉を使ったことがあるでしょう。魔神が瓶から出てきたので、鍵となるのは間違いなく、信頼できる高品質のデータに基づいて魔神を訓練し、それを適切に活用できるようにすることです。

人工知能にはメリットとデメリットがあります。確かにバランスが必要です。

AI ツールは、利用可能なトレーニング データの不足によってますます課題が増えており、その進歩と開発が損なわれる恐れがあります。この課題を克服するために、合成データの使用、教師なし学習の活用、データ共有のための組織間のコラボレーションの促進など、革新的なソリューションが採用されています。これらのソリューションは、新しいデータ ソースを提供するのに役立ち、スマート モデルが効率的かつ効果的に改善および開発され続けることを保証します。今すぐ閲覧できます AI がサイバー犯罪者を助ける方法.

上へスクロール