並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 103件

新着順 人気順

Datasetの検索結果1 - 40 件 / 103件

Datasetに関するエントリは103件あります。 datasetデータAI などが関連タグです。 人気エントリには 『無料 BGM・効果音のフリー音源素材 | Springin’ Sound Stock』などがあります。
  • 無料 BGM・効果音のフリー音源素材 | Springin’ Sound Stock

    無料 BGM・効果音のフリー音源素材 誰でも 報告不要で 商用利用無料! 今すぐ使える BGM・効果音 1,000点以上! 動画制作やイベントに もちろんスプリンギン アプリでも利用可

      無料 BGM・効果音のフリー音源素材 | Springin’ Sound Stock
    • 個人情報テストデータジェネレーター

      アプリケーションのテストなどで利用できる、リアルな架空の個人情報データ(疑似データ)を生成するツールです。

        個人情報テストデータジェネレーター
      • PLATEAU [プラトー] | 国土交通省が主導する、日本全国の3D都市モデルの整備・オープンデータ化プロジェクト

        3D都市モデルが実装されることで、未来はどのような展望を見せるのか。 インタビューやレポートを通じて、多角的な視点で3D都市モデル、そしてPLATEAUのさまざまな可能性を読み解きます。

          PLATEAU [プラトー] | 国土交通省が主導する、日本全国の3D都市モデルの整備・オープンデータ化プロジェクト
        • デジタル庁のデータ分析基盤「sukuna」|デジタル庁

          はじめまして。デジタル庁ファクト&データユニット所属、データエンジニアの長谷川です。 本記事ではデジタル庁内でデータ活用を推進するための組織と分析基盤についてご紹介します。 これまでのデジタル庁noteと比べると、技術寄りの話題が多い記事となりますが、庁内のデータ活用に興味のある方はぜひご覧ください。 デジタル庁のデータ活用組織「ファクト&データユニット」ファクト&データユニットとはデジタル庁の特徴の一つに、デジタル分野において各種の専門性をもつ「民間専門人材」が多く所属していることが挙げられます。 民間の専門人材は、デザイン、プロダクトマネジメント、エンジニアリングなど、領域ごとに「ユニット」と呼ばれる組織を構成しており(参考:デジタル庁 - 組織情報)、必要に応じてさまざまなプロジェクトにアサインされて業務を遂行する、人材プールのような役割を果たしています。 ファクト&データユニットも

            デジタル庁のデータ分析基盤「sukuna」|デジタル庁
          • Googleが大量の機械学習用データベースを無料公開してた - Qiita

            個人用メモです。 機械学習は素材集めがとても大変です。 でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類 使い方はExploreから画像セットを探し、ダウンロードするだけ。 他の方法も見つけた open images dataset 「すごい神だな」と思ったのは これもう完成されてますよね もちろんこの認識前の画像もセットでダウンロードできます。 Youtube-8Mとは、画像数を取るか、精度で取るか、という違いでしょうか。 他にも良い素材集を教えていただきました (はてなブックマーク情報 @sek_165 さん )

              Googleが大量の機械学習用データベースを無料公開してた - Qiita
            • 市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ

              全国の市区町村の名前とコードをデータベーステーブル化したもの、すなわち市区町村マスタはITシステムを作っていれば何かしらの場面で必要になるものです。 ではその市区町村マスタを作るための元データはどこから手に入れたらいいものか。 そして「作る」というのもありますが、市区町村は再編されるものですから最新の変更にどう追従するか、しかもそれを自動化できるかというのも大いに気になるところですね。 エムスリーエンジニアリンググループ三浦(@[email protected]) [記事一覧 ]です。 Unit1(製薬プロモーション)およびUnit9(治験臨床研究支援)のエンジニアです。 今回は私も皆様とまったく同じように市区町村マスタのデータ源に悩んでいろいろ調べましたので、それで得た知見を共有させていただこうと思います。今回は代表的な3つのデータソースをご紹介し比較していきます。 ほしいのはこんな感じのデ

                市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ
              • バンナム、約42万フレーム分のモーションデータ無償公開 歩行、格闘、ダンスなど 研究用に

                ライセンスは「CC BY-NC-ND 4.0」で、利用の際にクレジットを表示すること、非営利でのみ利用すること、内容を改変しないことを求めている。 バンダイナムコは、メタバースやXR技術が広まる中、コンテンツ規模が拡大すると従来のモーション制作過程では限界を迎えると予想。AIを活用したキャラクターのモーションを生成する研究を行っている。 一方、AIによるモーション研究はデータセットの入手が難しいため研究開発が進んでいないとして、自社で使っているデータの一部を提供することにしたという。 関連記事 実在しない顔の画像3000点を無償配布、AI学習用データセットに 法人向け・商用利用可 AI活用のコンサルティング事業を手掛けるAPTOなど2社が、AIの学習データとして利用できる、実在しない男女の顔写真3000枚の無償配布を始めた。法人を対象に11月30日までの期間限定で提供し、商用利用も認める。

                  バンナム、約42万フレーム分のモーションデータ無償公開 歩行、格闘、ダンスなど 研究用に
                • APIキーもログインも不要!完全無料で使える天気予報API「Open-Meteo」を使ってみた! -

                  どうも、まさとらん(@0310lan)です! 今回は、誰でも無料で使える天気予報APIを提供してくれるWebサービスをご紹介します! 面倒なユーザー登録やAPIキーの設定などが不要で、欲しい天気情報のパラメータを含めたURLを好きなように構成するだけで簡単にJavaScriptから制御できるのが特徴です。 日本はもちろん、世界中の詳細な天気情報を取得できるのでご興味ある方はぜひ参考にしてみてください! 【 Open-Meteo 】 ■「Open-Meteo」の使い方 それでは、「Open-Meteo」をどのように使えばいいのか詳しく見ていきましょう! 「Open-Meteo」が提供する天気予報APIを利用するにあたり、何か特別な登録や申請は必要ありません。もっと言えば、ユーザー登録も不要でAPIキーもありません。 非営利プロジェクトであれば誰でも自由に使うことが可能で、以下のエンドポイント

                    APIキーもログインも不要!完全無料で使える天気予報API「Open-Meteo」を使ってみた! -
                  • スマートニュース、国会議案データベースを無償公開 過去20年分をGitHubで

                    スマートニュースは7月1日、国会の過去20年分以上の議案データ約1万8000件を収集・整理し、オープンデータ化した国会議案のデータベースを、GitHubで無償公開(衆議院、参議院)した。GitHubを利用しない人向けに、閲覧用のWebページ(衆議院、参議院)も公開した。 国会で審議された法案や予算案、条約、決議案といった議案は、衆参両議院のWebサイトに掲載されている。提出者や審議された委員会、賛成・反対した政党(衆院のみ)などの情報も確認できるが、国会の回次ごと、また議案ごとにページが分かれているため、集計や検索、一覧が難しかった。 今回、同社の「メディア研究所」が、各議案のページに掲載されている情報を収集、整理し、CSVファイルとJSONファイル形式で公開。MITライセンスに準拠し、商用・非商用を問わずオープンデータとして誰でも無償で使えるようした。 主に報道機関や研究者に、選挙報道や

                      スマートニュース、国会議案データベースを無償公開 過去20年分をGitHubで
                    • OCR処理プログラム及び学習用データセットの公開について | NDLラボ

                      2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。 このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。 機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。 リポジトリ : https://github.com/ndl-lab/

                      • 図書館オープンデータを使って図書館データポータルサイトを作りました - Qiita

                        国立国会図書館では、さまざまなオープンデータが公開されています。 その中に「図書館及び関連組織のための国際標準識別子(ISIL)」試行版LODがあります。 これは、日本全国の図書館に関する情報が網羅的にまとめられているRDFデータとなります。 提供されているデータはXMLファイルなので個別にデータを取得するためにはプログラムなどで処理する必要があるので、Webブラウザで各データを見やすく提供するWebサイト「図書館施設データポータル」を作成しました。 ここでは、 図書館施設データポータル を紹介します。 図書館及び関連組織のための国際標準識別子(ISIL)」試行版LOD とは 元データは、「図書館及び関連組織のための国際標準識別子(ISIL)」という図書館等につけられる国際的な識別子で、国立国会図書館では、このISILが付与される図書館の情報をオープンデータ(XMLファイルのRDFデータ)

                          図書館オープンデータを使って図書館データポータルサイトを作りました - Qiita
                        • 「法務でAIがどこまで使えるか」を測るデータセット、デジタル庁が公開

                          デジタル庁は10月9日までに、AIが法務でどれほど使えるかを測る「日本の法令に関する多肢選択式QAデータセット」を公開した。同データセットは、法令分野に関する4択問題と回答、問題の背景となる法令の抜粋などを含む。行政機関や企業の法務部門でのAI導入に役立てたい考えだ。 同データセットは、複数の大規模言語モデル(LLM)により作成・検証したもの。含まれる問題が選択式のため、AIの回答を自動で採点・評価しやすいのが特徴だ。政府が持つデータのAI開発での活用を目指し、同庁が実施した「政府等保有データのAI学習データへの変換にかかる調査研究」で利用した。 同データセットの主な利用方法として、AIが法務でどれほど使えるかを測る評価データを想定する。また、同庁のテストによると、同データセットをPreferred NetworksのLLM「PLaMo-100B」の継続事前学習と指示学習に利用することで、

                            「法務でAIがどこまで使えるか」を測るデータセット、デジタル庁が公開
                          • rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化

                            rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン“クリフ”チェン、以下rinna社)は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開しました。 ■背景 rinna社は、MicrosoftのAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています

                              rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化
                            • AIの著作権問題に終止符か? 8TBの巨大オープンデータセット「Common Pile」登場、Llama 2に匹敵するLLMもリリース | XenoSpectrum

                              AIの著作権問題に終止符か? 8TBの巨大オープンデータセット「Common Pile」登場、Llama 2に匹敵するLLMもリリース AIは創作物を無断で学習しても許されるのか──。この問いは、生成AIの進化と共に業界全体に重くのしかかる根源的な課題となっている。著作権侵害を主張する訴訟が相次ぎ、AI開発企業は防衛的にそのデータ利用の詳細を固く閉ざすようになった。この「透明性の冬」とも言える状況が、健全な研究の進展を妨げていると懸念する声は少なくない。 そんな中、AI業界の分水嶺となる可能性を秘めた画期的なプロジェクトが姿を現した。 非営利の研究団体EleutherAIと、トロント大学、Hugging Face、Allen Institute for AI (AI2)など多数の組織からなる共同研究チームは、「Common Pile v0.1」と名付けられた、8テラバイト(TB)にも及ぶ巨

                                AIの著作権問題に終止符か? 8TBの巨大オープンデータセット「Common Pile」登場、Llama 2に匹敵するLLMもリリース | XenoSpectrum
                              • 公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ

                                特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。 会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。 自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1 名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバ

                                  公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ
                                • AIのトレーニングに必要なデータ量を1万分の1に減らす画期的な方法をGoogleが発表

                                  複雑なプロンプト(命令文)を理解して高度な計算や回答をするAIを実現するためには、数百億~数兆パラメータもの膨大なトレーニングデータを必要とします。基本的にAIが高度になればなるほど多くのトレーニングデータを必要としますが、GoogleはAIモデルの品質を維持したままデータ量を最大1万分の1まで削減できるラーニング手法を発表しました。 Achieving 10,000x training data reduction with high-fidelity labels https://research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/ 膨大な広告案件の中から安全でない広告コンテンツを分類することは、大規模言語モデル(LLM)により発展が期待されるタスクです。しかし、

                                    AIのトレーニングに必要なデータ量を1万分の1に減らす画期的な方法をGoogleが発表
                                  • Discordの20億件以上のメッセージが公開APIを使ってスクレイピングされオンラインで公開されてしまう、2015年から2024年まで3167サーバー分

                                    ブラジルのミナス・ジェライス連邦大学の15人の研究者チームが、研究プロジェクトの一環としてDiscordのスクレイピングを行い、20億件以上のメッセージをデータベース化してオンラインに公開しました。研究チームはデータを匿名化したと伝えています。 Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024) (PDFファイル)https://arxiv.org/pdf/2502.00627 Researchers Scrape 2 Billion Discord Messages and Publish Them Online https://www.404media.co/researchers-scrape-2-billion-discord-messages-and-publish-them-

                                      Discordの20億件以上のメッセージが公開APIを使ってスクレイピングされオンラインで公開されてしまう、2015年から2024年まで3167サーバー分
                                    • NVIDIA、日本語データセットを公開 日本文化など反映した合成ペルソナ600万件 商用利用も可能

                                      なお、同データセットは日本の公的な人口・労働関連の統計データに基づいている一方、全てのペルソナは合成によって作成しているため、個人を特定できる情報は含まれていない。また、個人情報保護法(PIPA)の要件も満たしているという。 同データセットは、ソブリンAIの開発での利用を想定している。例えば、日本の文化的な背景を踏まえた回答ができるAIアシスタント向けのトレーニングデータの作成や、AIシステムが日本の地方と都市、異なる年齢層、教育水準の人々に対し、どのように機能するか評価するためなどに利用できるという。 関連記事 OpenAIのアルトマンCEO、AIを基本的人権にする壮大なビジョンを展開 OpenAIのサム・アルトマンCEOが、NVIDIAによる1000億ドル投資発表の翌日、AIインフラを毎週1GW生産する工場建設の構想をブログで公開した。AIへのアクセスは将来の基本的人権になるとし、10

                                        NVIDIA、日本語データセットを公開 日本文化など反映した合成ペルソナ600万件 商用利用も可能
                                      • ReazonSpeech - Reazon Human Interaction Lab

                                        ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。 日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。 音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。

                                        • 著作権フリーな98万冊の書籍からテキストを抽出したデータセット「Institutional Books」をハーバード大学が公開、Googleブックスの書籍インデックス化プロジェクトのデータを活用

                                          ハーバード大学ロースクール図書館が98万3000冊の書籍からテキストデータを抽出したデータセット「Institutional Books」を公開しました。データセットの作成にはGoogleブックスの成果が活用されています。 Institutional Books | Institutional Data Initiative https://www.institutionaldatainitiative.org/institutional-books Institutional Booksには98万3000冊の書籍のデータが含まれており、総ページ数は3億8600万ページに及びます。また、学習元の書籍に使われていた言語は254種でした。 言語の内訳は以下の通り。最も多いのは英語の43%で、その後にドイツ語(17%)、フランス語(14%)、イタリア語(4%)、ラテン語(3%)、スペイン語(2%

                                            著作権フリーな98万冊の書籍からテキストを抽出したデータセット「Institutional Books」をハーバード大学が公開、Googleブックスの書籍インデックス化プロジェクトのデータを活用
                                          • Unsloth で始める gpt-oss のファインチューニング

                                            (上記、Github の README.md を一部日本語に翻訳して引用) Unsloth の良い点としては、学習の高速さやVRAM消費量が小さいことに加え、学習の効率化において近似計算を一切使用していないことから、精度低下がゼロと自信を持って書かれていることや、Huggingface において様々な動的量子化/GGUFモデル等を公開していることが挙げられます。 また、Unsloth を用いてLLMのダウンロードを行うと、謎の仕組みで高速に進みます。(Unsloth: Fast downloading is enabled と出てくるので多分早くなっている) インストールは以下のコマンドで行えます。 余談ですが、Unsloth の公式ドキュメントに書かれた LLM のファインチューニングガイド、どのモデルを使うべきか?、LoRA のハイパラのガイド は情報が綺麗にまとまっていて個人的にかな

                                              Unsloth で始める gpt-oss のファインチューニング
                                            • 18~19世紀の新聞データ100万ページを英国企業が無償公開 商用利用は条件付きで可

                                              大英博物館と協力して古い新聞をデータ化し、サブスクリプション形式で提供している英Findmypast Newspaper Archiveは8月9日(現地時間)、18~19世紀に刊行された新聞約100万ページのデータを無償公開した。同社が許可すれば商用利用も可能という。非営利の場合は、著作権表示と参照元を明記すれば利用を認める。 提供するのは、大英博物館が保存する1720~1880年にかけて刊行された150紙のデータ。新聞のタイトルは、ジャマイカの政治動向を報じる「Royal Gazette of Jamaica」、英国で初めてカラーイラストを採用した「Colored News」など。 ユーザーはFindmypast Newspaper Archiveが提供するサブスクリプションサービス「The British Newspaper Archive」のアカウントを作成すれば閲覧できる。無償で閲

                                                18~19世紀の新聞データ100万ページを英国企業が無償公開 商用利用は条件付きで可
                                              • GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ

                                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                  GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ
                                                • 無償入手可能な音声コーパス/音声データベースの一覧 - Qiita

                                                  無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日本語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス 大量の日本語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス

                                                    無償入手可能な音声コーパス/音声データベースの一覧 - Qiita
                                                  • GitHub - llm-jp/awesome-japanese-llm: 日本語LLMまとめ - Overview of Japanese LLMs

                                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                      GitHub - llm-jp/awesome-japanese-llm: 日本語LLMまとめ - Overview of Japanese LLMs
                                                    • アドレス・ベース・レジストリ|デジタル庁

                                                      アドレス・ベース・レジストリは、ベース・レジストリ※として整備する住所・所在地関係データベースです。 ※法律上におけるベース・レジストリの正式名称は「公的基礎情報データベース」と定義されています。 お知らせ2025年8月22日アドレス・ベース・レジストリ(データダウンロードサイト)は現在メンテナンス中のため利用ができません。再開後、本ページにてお知らせします。なおレジストリカタログ(データのダウンロード) は利用可能です。2025年8月13日アドレス・ベース・レジストリのデータについて、レジストリカタログにおいて提供しておりましたが、2025年(令和7年)8月13日からアドレス・ベース・レジストリ(データダウンロードサイト) にて提供します。なお、レジストリカタログにおけるデータ提供は2025年9月16日に終了します。2025年6月30日2025年6月1日に町字データを正式版として公開しま

                                                        アドレス・ベース・レジストリ|デジタル庁
                                                      • 地図作成のための機械学習用データセット(GSIデータセット)

                                                        概要 GSIデータセット(愛称。正式名称は「CNNによる地物抽出用教師データセット」。以下、「本データセット」といいます)は、地上画素寸法20cm級の空中写真画像を対象として、画像内に写っている地物の範囲を、セマンティックセグメンテーションという手法で抽出する際に用いる機械学習用のデータセットです。道路や建物といった、多くの研究で取り組まれている主要な地物だけでなく、高塔や水制といったマイナーな地物や、広葉樹林や針葉樹林などの自然植生、水田や畑などの既耕地も対象としています。 本データセットは、国土地理院の特別研究「AIを活用した地物自動抽出に関する研究(平成30年度~令和4年度)」の研究成果として作成されたものです。このデータセットを使って学習させたモデルによる地物抽出性能が一定以上(抽出性能の評価に用いられる一般的な指標の一つであるF値という値が0.600以上となったもの。:当初はF≧

                                                        • LLM のデータセットまとめ|npaka

                                                          LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・llm-jp-corpus-v2 (ja) ・llm-jp-corpus-v2 ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・youlery (ja) ・ce-lery/mistral-3b-dataset ・ayousanz/OSCOR-2301-ja-cleaned ・ayousanz/c4-ja-cleaned ・Common Crawl (multilingual) ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh)

                                                            LLM のデータセットまとめ|npaka
                                                          • グーグル、世界の地表をほぼリアルタイムで監視する「Dynamic World」を公開

                                                            Googleの最新のマッピングツール「Dynamic World」は、世界の水、植生、雪や人為的な開発のデータをほぼリアルタイムで表示する。 Dynamic Worldは、洪水、山火事、森林伐採、都市開発などによる環境破壊の影響を把握するのに役立つと、Googleは米国時間6月9日の発表で述べた。 地球の環境と開発の問題に取り組む非営利団体で、このツールの開発に協力した世界資源研究所(WRI)の食糧、森林、水、海洋担当バイスプレジデントCraig Hanson氏は次のように述べた。「世界的な土地のひっ迫を受け、よりスマートで効率的かつ持続可能な土地の利用法を見出すよう求める圧力が高まっている。世界が土地から必要なものを生み出し、残された自然を保護し、失われたものをいくらかでも回復させるには、地球のすべての土地に対して、信頼性の高い、ほぼリアルタイムのモニタリングが必要だ」 Googleはこ

                                                              グーグル、世界の地表をほぼリアルタイムで監視する「Dynamic World」を公開
                                                            • GitHub - JPCERTCC/phishurl-list: Phishing URL dataset from JPCERT/CC

                                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                GitHub - JPCERTCC/phishurl-list: Phishing URL dataset from JPCERT/CC
                                                              • Google Colabを用いたNDLOCRアプリの実行(Google Driveを用いた画像の入力と結果の保存) - デジタルアーカイブシステムの技術ブログ

                                                                概要 ノートブック 実行方法 入力フォルダの準備 ノートブックの実行:1.初期セットアップ ノートブックの実行:2.設定 ノートブックの実行:3.実行 まとめ 追記 2022.05.02 2022.04.30 概要 前回、Google Cloud PlatformのCompute Engineを用いたNDLOCRアプリの実行方法を共有しました。 nakamura196.hatenablog.com ただし、上記の方法は手続きが一部面倒で、かつ費用がかかる方法です。本番環境で使用するには適した方法ですが、小規模に、または試験的に使用するにはハードルが高い方法でした。 この課題に対して、 @blue0620 さんがGoogle Colabを用いたNDLOCRアプリの実行方法を作成されました。 https://twitter.com/blue0620/status/151929433215901

                                                                  Google Colabを用いたNDLOCRアプリの実行(Google Driveを用いた画像の入力と結果の保存) - デジタルアーカイブシステムの技術ブログ
                                                                • Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita

                                                                  Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ABEJAアドベントカレンダー2020の19日目の記事です。 この記事は何? 結局AIって何個データ必要なの?ってよく聞かれると思います。 そんなん知るか この記事では、ある程度精度が出ている既存のタスクにおいて、どんなデータを、どのくらいの量与えているかを調べた結果です。ちなみに、僕自身、すべてのタスクを扱ったことがあるわけでは無いので、ほぼ一部適当な部分もあるかと思いますが、ご容赦ください。あと、このデータが入ってないよ!ってツッコミも歓迎です。 あと、技術は常に進んでいるので、ちゃんと最新技術を追っておけば、より少ないデータで良い

                                                                    Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita
                                                                  • Metaの大規模言語モデル「LLaMA」のトレーニングにも使用されたAIの学習用データセット「Books3」が削除される

                                                                    デンマークの著作権侵害対策グループ「Rights Alliance」が、約20万冊にも上る書籍のデータセット「Books3」を削除するよう、ホストする「The Eye」に対して要請し、データセットの削除が行われました。Books3はMetaの開発する大規模言語モデル「LLaMA」のトレーニングにも使用されたデータセットです。 Anti-Piracy Group Takes Prominent AI Training Dataset ''Books3' Offline * TorrentFreak https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/ Revealed: The Authors Whose Pirated Books Are P

                                                                      Metaの大規模言語モデル「LLaMA」のトレーニングにも使用されたAIの学習用データセット「Books3」が削除される
                                                                    • 自由に使える医療データセットまとめ |

                                                                      今回はAIが使える、もしくは今後AIを使ってみたいという医療関係者のために、自由に使える医療用データセットをまとめました。

                                                                        自由に使える医療データセットまとめ |
                                                                      • 情報学研究データリポジトリ メルカリデータセット

                                                                        株式会社メルカリが国立情報学研究所を通じて研究者に提供しているデータセットです。 2023/09/01 更新 データ概要 フリマ商品データ 株式会社メルカリが運営する,スマートフォン向けフリマアプリ「メルカリ」へ登録されたデータで,個人を特定する情報や非公開情報は含まれません。 具体的なデータの内容は以下の通りです。 アプリ上に公開されている商品データ(出品状態,商品名,商品の説明,販売価格,カテゴリ,商品の状態,サイズ,ブランド,送料の負担,発送の方法,発送元の地域,発送にかかる日数,いいね!の数,コメントの数,出品日時,更新日時) 各商品ページにて公開されているコメントデータ 各商品ページにて公開されている画像データ(対象全商品のサムネイル画像/一週間分のオリジナル画像) 提供中のデータは2020年1月~12月の1年間に出品された商品が対象です。(データは随時更新される予定です) 商品

                                                                        • Dynamic World - 10m global land cover dataset in Google Earth Engine

                                                                          Beginning August 14, 2021, the Caldor Fire burned 221,775 acres in El Dorado County, California, destroying over 1,000 structures and displacing thousands of residents. Days after the start of the fire, land cover changed from “trees” to “shrub/scrub” in Dynamic World. Snow is nothing unusual to people living on the Northeast coast. As the saying goes, if you don’t like the weather in New England,

                                                                            Dynamic World - 10m global land cover dataset in Google Earth Engine
                                                                          • GitHub - BandaiNamcoResearchInc/Bandai-Namco-Research-Motiondataset: This repository provides motion datasets collected by Bandai Namco Research Inc

                                                                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                              GitHub - BandaiNamcoResearchInc/Bandai-Namco-Research-Motiondataset: This repository provides motion datasets collected by Bandai Namco Research Inc
                                                                            • Wikipediaを用いた日本語の固有表現抽出データセットの公開

                                                                              Wikipediaを用いた日本語の固有表現抽出データセットの公開

                                                                                Wikipediaを用いた日本語の固有表現抽出データセットの公開
                                                                              • データセットダウンロード | MADB Lab

                                                                                データセットについての説明はこちらを御覧ください。 マンガ マンガ単行本 json-ld (39.4MB) turtle (35.8MB) マンガ雑誌各号 json-ld (6.8MB) turtle (6.3MB) マンガその他 json-ld (359KB) turtle (344KB) マンガ単行本シリーズ json-ld (14.2MB) turtle (13.0MB) マンガ雑誌 json-ld (423KB) turtle (400KB) マンガ雑誌掲載履歴 json-ld (2.1MB) turtle (1.9MB) マンガ雑誌内容細目 json-ld (23.6MB) turtle (21.3MB) マンガ所蔵 json-ld (18.1MB) turtle (17.3MB) アニメ アニメテレビ番組 json-ld (8.7MB) turtle (8.2MB) アニメビデ

                                                                                • Welcome

                                                                                  The openVertebrate project, oVert for short, is a new initiative to provide free, digital 3D vertebrate anatomy models and data to researchers, educators, students and the public. X-ray CT allows researchers to visualize and quantify hard-to-measure characteristics. This image shows high and low density areas of the skull of an Angolan burrowing pig-nosed frog. Florida Museum of Natural History im

                                                                                    Welcome

                                                                                  新着記事