Datasetの人気記事 103件 - はてなブックマーク

1 - 40 件 / 103件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Datasetの検索結果1 - 40 件 / 103件

Datasetに関するエントリは103件あります。 dataset、データ、 AI などが関連タグです。人気エントリには『無料 BGM・効果音のフリー音源素材 | Springin’ Sound Stock』などがあります。

無料 BGM・効果音のフリー音源素材 | Springin’ Sound Stock
- 1042 users
- www.springin.org
- アニメとゲーム
- 2022/06/23
無料 BGM・効果音のフリー音源素材誰でも報告不要で商用利用無料！今すぐ使える BGM・効果音 1,000点以上！動画制作やイベントにもちろんスプリンギンアプリでも利用可
- 素材
- フリー素材
- 音楽
- あとで読む
- sound
- プログラミング
- 音源
- BGM
- フリー
- 効果音
個人情報テストデータジェネレーター
- 834 users
- testdata.userlocal.jp
- テクノロジー
- 2021/09/14
アプリケーションのテストなどで利用できる、リアルな架空の個人情報データ（疑似データ）を生成するツールです。
- テスト
- あとで読む
- データ
- ツール
- webサービス
- generator
- tool
- test
- ジェネレータ
- data
PLATEAU [プラトー] | 国土交通省が主導する、日本全国の3D都市モデルの整備・オープンデータ化プロジェクト
- 833 users
- www.mlit.go.jp
- テクノロジー
- 2020/12/22
3D都市モデルが実装されることで、未来はどのような展望を見せるのか。インタビューやレポートを通じて、多角的な視点で3D都市モデル、そしてPLATEAUのさまざまな可能性を読み解きます。
- 地図
- 3D
- あとで読む
- map
- webサービス
- 行政
- 国土交通省
- GIS
- web
- データ
デジタル庁のデータ分析基盤「sukuna」｜デジタル庁
- 624 users
- digital-gov.note.jp
- テクノロジー
- 2023/06/27
はじめまして。デジタル庁ファクト＆データユニット所属、データエンジニアの長谷川です。本記事ではデジタル庁内でデータ活用を推進するための組織と分析基盤についてご紹介します。これまでのデジタル庁noteと比べると、技術寄りの話題が多い記事となりますが、庁内のデータ活用に興味のある方はぜひご覧ください。デジタル庁のデータ活用組織「ファクト＆データユニット」ファクト＆データユニットとはデジタル庁の特徴の一つに、デジタル分野において各種の専門性をもつ「民間専門人材」が多く所属していることが挙げられます。民間の専門人材は、デザイン、プロダクトマネジメント、エンジニアリングなど、領域ごとに「ユニット」と呼ばれる組織を構成しており（参考：デジタル庁 - 組織情報）、必要に応じてさまざまなプロジェクトにアサインされて業務を遂行する、人材プールのような役割を果たしています。ファクト＆データユニットも
- データ
- あとで読む
- 統計
- GCP
- data
- 分析
- 行政
- cloud
- データ分析
- bigquery

Googleが大量の機械学習用データベースを無料公開してた - Qiita
- 590 users
- qiita.com/ulwlu
- テクノロジー
- 2021/08/31
個人用メモです。機械学習は素材集めがとても大変です。でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類使い方はExploreから画像セットを探し、ダウンロードするだけ。他の方法も見つけた open images dataset 「すごい神だな」と思ったのはこれもう完成されてますよねもちろんこの認識前の画像もセットでダウンロードできます。 Youtube-８Mとは、画像数を取るか、精度で取るか、という違いでしょうか。他にも良い素材集を教えていただきました（はてなブックマーク情報 @sek_165 さん）
- 機械学習
- あとで読む
- google
- データベース
- 学習
- 素材
- youtube
- 無料
- ML
- データセット
市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ
- 535 users
- www.m3tech.blog
- テクノロジー
- 2024/07/30
全国の市区町村の名前とコードをデータベーステーブル化したもの、すなわち市区町村マスタはITシステムを作っていれば何かしらの場面で必要になるものです。ではその市区町村マスタを作るための元データはどこから手に入れたらいいものか。そして「作る」というのもありますが、市区町村は再編されるものですから最新の変更にどう追従するか、しかもそれを自動化できるかというのも大いに気になるところですね。エムスリーエンジニアリンググループ三浦(@[email protected]) [記事一覧 ]です。 Unit1（製薬プロモーション）およびUnit9（治験臨床研究支援）のエンジニアです。今回は私も皆様とまったく同じように市区町村マスタのデータ源に悩んでいろいろ調べましたので、それで得た知見を共有させていただこうと思います。今回は代表的な3つのデータソースをご紹介し比較していきます。ほしいのはこんな感じのデ
- データ
- あとで読む
- db
- webサービス
- 行政
- 住所
- 日本
- 資料
- 地図
- 開発
バンナム、約42万フレーム分のモーションデータ無償公開　歩行、格闘、ダンスなど　研究用に
- 529 users
- www.itmedia.co.jp
- テクノロジー
- 2022/04/28
ライセンスは「CC BY-NC-ND 4.0」で、利用の際にクレジットを表示すること、非営利でのみ利用すること、内容を改変しないことを求めている。バンダイナムコは、メタバースやXR技術が広まる中、コンテンツ規模が拡大すると従来のモーション制作過程では限界を迎えると予想。AIを活用したキャラクターのモーションを生成する研究を行っている。一方、AIによるモーション研究はデータセットの入手が難しいため研究開発が進んでいないとして、自社で使っているデータの一部を提供することにしたという。関連記事実在しない顔の画像3000点を無償配布、AI学習用データセットに　法人向け・商用利用可 AI活用のコンサルティング事業を手掛けるAPTOなど2社が、AIの学習データとして利用できる、実在しない男女の顔写真3000枚の無償配布を始めた。法人を対象に11月30日までの期間限定で提供し、商用利用も認める。
- 3DCG
- あとで読む
- 素材
- 3D
- AI
- データ
- 研究
- 開発
- モーション
- game
APIキーもログインも不要！完全無料で使える天気予報API「Open-Meteo」を使ってみた！ -
- 407 users
- paiza.hatenablog.com
- テクノロジー
- 2021/11/04
どうも、まさとらん（@0310lan）です！今回は、誰でも無料で使える天気予報APIを提供してくれるWebサービスをご紹介します！面倒なユーザー登録やAPIキーの設定などが不要で、欲しい天気情報のパラメータを含めたURLを好きなように構成するだけで簡単にJavaScriptから制御できるのが特徴です。日本はもちろん、世界中の詳細な天気情報を取得できるのでご興味ある方はぜひ参考にしてみてください！【 Open-Meteo 】 ■「Open-Meteo」の使い方それでは、「Open-Meteo」をどのように使えばいいのか詳しく見ていきましょう！「Open-Meteo」が提供する天気予報APIを利用するにあたり、何か特別な登録や申請は必要ありません。もっと言えば、ユーザー登録も不要でAPIキーもありません。非営利プロジェクトであれば誰でも自由に使うことが可能で、以下のエンドポイント
- API
- あとで読む
- webサービス
- 天気
- 開発
- javascript
- プログラミング
- weather
- グラフ
- JSON
スマートニュース、国会議案データベースを無償公開　過去20年分をGitHubで
- 369 users
- www.itmedia.co.jp
- テクノロジー
- 2022/07/01
スマートニュースは7月1日、国会の過去20年分以上の議案データ約1万8000件を収集・整理し、オープンデータ化した国会議案のデータベースを、GitHubで無償公開（衆議院、参議院）した。GitHubを利用しない人向けに、閲覧用のWebページ（衆議院、参議院）も公開した。国会で審議された法案や予算案、条約、決議案といった議案は、衆参両議院のWebサイトに掲載されている。提出者や審議された委員会、賛成・反対した政党（衆院のみ）などの情報も確認できるが、国会の回次ごと、また議案ごとにページが分かれているため、集計や検索、一覧が難しかった。今回、同社の「メディア研究所」が、各議案のページに掲載されている情報を収集、整理し、CSVファイルとJSONファイル形式で公開。MITライセンスに準拠し、商用・非商用を問わずオープンデータとして誰でも無償で使えるようした。主に報道機関や研究者に、選挙報道や
OCR処理プログラム及び学習用データセットの公開について | NDLラボ
- 310 users
- lab.ndl.go.jp
- テクノロジー
- 2022/04/25
2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館（以下、「当館」とします。）が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。リポジトリ : https://github.com/ndl-lab/
- OCR
- あとで読む
- github
- 勉強
- 学習
- 資料
- 機械学習
- 図書館
- python
- AI
図書館オープンデータを使って図書館データポータルサイトを作りました - Qiita
- 223 users
- qiita.com/uedayou
- テクノロジー
- 2021/09/12
国立国会図書館では、さまざまなオープンデータが公開されています。その中に「図書館及び関連組織のための国際標準識別子（ISIL）」試行版LODがあります。これは、日本全国の図書館に関する情報が網羅的にまとめられているRDFデータとなります。提供されているデータはXMLファイルなので個別にデータを取得するためにはプログラムなどで処理する必要があるので、Webブラウザで各データを見やすく提供するWebサイト「図書館施設データポータル」を作成しました。ここでは、図書館施設データポータルを紹介します。図書館及び関連組織のための国際標準識別子（ISIL）」試行版LOD とは元データは、「図書館及び関連組織のための国際標準識別子（ISIL）」という図書館等につけられる国際的な識別子で、国立国会図書館では、このISILが付与される図書館の情報をオープンデータ(XMLファイルのRDFデータ)
「法務でAIがどこまで使えるか」を測るデータセット、デジタル庁が公開
- 221 users
- www.itmedia.co.jp
- テクノロジー
- 2025/10/09
デジタル庁は10月9日までに、AIが法務でどれほど使えるかを測る「日本の法令に関する多肢選択式QAデータセット」を公開した。同データセットは、法令分野に関する4択問題と回答、問題の背景となる法令の抜粋などを含む。行政機関や企業の法務部門でのAI導入に役立てたい考えだ。同データセットは、複数の大規模言語モデル（LLM）により作成・検証したもの。含まれる問題が選択式のため、AIの回答を自動で採点・評価しやすいのが特徴だ。政府が持つデータのAI開発での活用を目指し、同庁が実施した「政府等保有データのAI学習データへの変換にかかる調査研究」で利用した。同データセットの主な利用方法として、AIが法務でどれほど使えるかを測る評価データを想定する。また、同庁のテストによると、同データセットをPreferred NetworksのLLM「PLaMo-100B」の継続事前学習と指示学習に利用することで、
- AI
- あとで読む
- LLM
- 法律
- ツール
- データセット
- 人工知能
- 司法
- 自然言語処理
- dataset
rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化
- 185 users
- prtimes.jp
- テクノロジー
- 2021/04/07
rinna株式会社（本社：東京都渋谷区/代表取締役：ジャン“クリフ”チェン、以下rinna社）は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開しました。 ■背景 rinna社は、MicrosoftのAI＆リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています
- 自然言語処理
- あとで読む
- AI
- 機械学習
- GPT-2
- 開発
- 日本語
- 言語
- nlp
- 研究
AIの著作権問題に終止符か？ 8TBの巨大オープンデータセット「Common Pile」登場、Llama 2に匹敵するLLMもリリース | XenoSpectrum
- 136 users
- xenospectrum.com
- テクノロジー
- 2025/06/07
AIの著作権問題に終止符か？ 8TBの巨大オープンデータセット「Common Pile」登場、Llama 2に匹敵するLLMもリリース AIは創作物を無断で学習しても許されるのか──。この問いは、生成AIの進化と共に業界全体に重くのしかかる根源的な課題となっている。著作権侵害を主張する訴訟が相次ぎ、AI開発企業は防衛的にそのデータ利用の詳細を固く閉ざすようになった。この「透明性の冬」とも言える状況が、健全な研究の進展を妨げていると懸念する声は少なくない。そんな中、AI業界の分水嶺となる可能性を秘めた画期的なプロジェクトが姿を現した。非営利の研究団体EleutherAIと、トロント大学、Hugging Face、Allen Institute for AI (AI2)など多数の組織からなる共同研究チームは、「Common Pile v0.1」と名付けられた、8テラバイト（TB）にも及ぶ巨
- AI
- あとで読む
- LLM
- 著作権
- オープンデータ
- 研究
- copyright
- 人工知能
- 学習
- data
公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ
- 127 users
- tech.mntsq.co.jp
- テクノロジー
- 2021/04/28
特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1 名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバ
- database
- 企業
- あとで読む
- データ
- dictionary
- NLP
- 会社
- programming
- データベース
AIのトレーニングに必要なデータ量を1万分の1に減らす画期的な方法をGoogleが発表
- 111 users
- gigazine.net
- テクノロジー
- 2025/08/09
複雑なプロンプト(命令文)を理解して高度な計算や回答をするAIを実現するためには、数百億～数兆パラメータもの膨大なトレーニングデータを必要とします。基本的にAIが高度になればなるほど多くのトレーニングデータを必要としますが、GoogleはAIモデルの品質を維持したままデータ量を最大1万分の1まで削減できるラーニング手法を発表しました。 Achieving 10,000x training data reduction with high-fidelity labels https://research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/ 膨大な広告案件の中から安全でない広告コンテンツを分類することは、大規模言語モデル(LLM)により発展が期待されるタスクです。しかし、
- AI
- google
- あとで読む
- LLM
- データ
- 人工知能
Discordの20億件以上のメッセージが公開APIを使ってスクレイピングされオンラインで公開されてしまう、2015年から2024年まで3167サーバー分
- 88 users
- gigazine.net
- テクノロジー
- 2025/05/22
ブラジルのミナス・ジェライス連邦大学の15人の研究者チームが、研究プロジェクトの一環としてDiscordのスクレイピングを行い、20億件以上のメッセージをデータベース化してオンラインに公開しました。研究チームはデータを匿名化したと伝えています。 Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024) (PDFファイル)https://arxiv.org/pdf/2502.00627 Researchers Scrape 2 Billion Discord Messages and Publish Them Online https://www.404media.co/researchers-scrape-2-billion-discord-messages-and-publish-them-
- discord
- あとで読む
- dataset
- data
- media
- 研究
- security
NVIDIA、日本語データセットを公開　日本文化など反映した合成ペルソナ600万件　商用利用も可能
- 80 users
- www.itmedia.co.jp
- テクノロジー
- 2025/09/24
なお、同データセットは日本の公的な人口・労働関連の統計データに基づいている一方、全てのペルソナは合成によって作成しているため、個人を特定できる情報は含まれていない。また、個人情報保護法（PIPA）の要件も満たしているという。同データセットは、ソブリンAIの開発での利用を想定している。例えば、日本の文化的な背景を踏まえた回答ができるAIアシスタント向けのトレーニングデータの作成や、AIシステムが日本の地方と都市、異なる年齢層、教育水準の人々に対し、どのように機能するか評価するためなどに利用できるという。関連記事 OpenAIのアルトマンCEO、AIを基本的人権にする壮大なビジョンを展開 OpenAIのサム・アルトマンCEOが、NVIDIAによる1000億ドル投資発表の翌日、AIインフラを毎週1GW生産する工場建設の構想をブログで公開した。AIへのアクセスは将来の基本的人権になるとし、10
ReazonSpeech - Reazon Human Interaction Lab
- 75 users
- research.reazon.jp
- テクノロジー
- 2023/01/19
ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。
- speech
- AI
- 機械学習
- voice
- japanese
- 学習
- 日本語
- api
著作権フリーな98万冊の書籍からテキストを抽出したデータセット「Institutional Books」をハーバード大学が公開、Googleブックスの書籍インデックス化プロジェクトのデータを活用
- 65 users
- gigazine.net
- テクノロジー
- 2025/06/13
ハーバード大学ロースクール図書館が98万3000冊の書籍からテキストデータを抽出したデータセット「Institutional Books」を公開しました。データセットの作成にはGoogleブックスの成果が活用されています。 Institutional Books | Institutional Data Initiative https://www.institutionaldatainitiative.org/institutional-books Institutional Booksには98万3000冊の書籍のデータが含まれており、総ページ数は3億8600万ページに及びます。また、学習元の書籍に使われていた言語は254種でした。言語の内訳は以下の通り。最も多いのは英語の43％で、その後にドイツ語(17％)、フランス語(14％)、イタリア語(4％)、ラテン語(3％)、スペイン語(2％
- AI
- オープンデータ
- データ
- 人工知能
- あとで読む
- 本
- 言語
- data
Unsloth で始める gpt-oss のファインチューニング
- 65 users
- zenn.dev/prgckwb
- テクノロジー
- 2025/08/10
（上記、Github の README.md を一部日本語に翻訳して引用） Unsloth の良い点としては、学習の高速さやVRAM消費量が小さいことに加え、学習の効率化において近似計算を一切使用していないことから、精度低下がゼロと自信を持って書かれていることや、Huggingface において様々な動的量子化/GGUFモデル等を公開していることが挙げられます。また、Unsloth を用いてLLMのダウンロードを行うと、謎の仕組みで高速に進みます。(Unsloth: Fast downloading is enabled と出てくるので多分早くなっている) インストールは以下のコマンドで行えます。余談ですが、Unsloth の公式ドキュメントに書かれた LLM のファインチューニングガイド、どのモデルを使うべきか？、LoRA のハイパラのガイドは情報が綺麗にまとまっていて個人的にかな
- AI
- LLM
- OpenAI
- あとで読む
- オープンソース
- 学習
18～19世紀の新聞データ100万ページを英国企業が無償公開　商用利用は条件付きで可
- 64 users
- www.itmedia.co.jp
- 学び
- 2021/08/12
大英博物館と協力して古い新聞をデータ化し、サブスクリプション形式で提供している英Findmypast Newspaper Archiveは8月9日（現地時間）、18～19世紀に刊行された新聞約100万ページのデータを無償公開した。同社が許可すれば商用利用も可能という。非営利の場合は、著作権表示と参照元を明記すれば利用を認める。提供するのは、大英博物館が保存する1720～1880年にかけて刊行された150紙のデータ。新聞のタイトルは、ジャマイカの政治動向を報じる「Royal Gazette of Jamaica」、英国で初めてカラーイラストを採用した「Colored News」など。ユーザーはFindmypast Newspaper Archiveが提供するサブスクリプションサービス「The British Newspaper Archive」のアカウントを作成すれば閲覧できる。無償で閲
GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ
- 61 users
- github.com/japan-opendata
- テクノロジー
- 2024/02/27
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- オープンデータ
- github
- 情報
- 資料
- API
- あとで読む
- 日本
無償入手可能な音声コーパス／音声データベースの一覧 - Qiita
- 61 users
- qiita.com/nakakq
- テクノロジー
- 2021/09/08
無償かつ入手しやすい音声データセットをメモしています。ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。コーパスを探すときに有用なサイトコーパス配布元サイト音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能緩いライセンスのコーパスでなくても良いときはここ自発的発話の日本語音声コーパスはだいたいここにある入手は要申請所属や責任者を記入する必要があるため、研究者や企業でないと厳しい？（この記事では音声資源コンソーシアムのコーパスは未掲載） Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス大量の日本語音声コーパスが配布されている音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情あなたにどうしても伝えたい30の音声コーパス
GitHub - llm-jp/awesome-japanese-llm: 日本語LLMまとめ - Overview of Japanese LLMs
- 59 users
- github.com/llm-jp
- テクノロジー
- 2023/07/16
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- LLM
- 自然言語処理
- Japanese
- 日本語
- 機械学習
- まとめ
- dataset
- 人工知能
アドレス・ベース・レジストリ｜デジタル庁
- 39 users
- www.digital.go.jp
- 政治と経済
- 2022/04/22
アドレス・ベース・レジストリは、ベース・レジストリ※として整備する住所・所在地関係データベースです。 ※法律上におけるベース・レジストリの正式名称は「公的基礎情報データベース」と定義されています。お知らせ2025年8月22日アドレス・ベース・レジストリ（データダウンロードサイト）は現在メンテナンス中のため利用ができません。再開後、本ページにてお知らせします。なおレジストリカタログ（データのダウンロード）は利用可能です。2025年8月13日アドレス・ベース・レジストリのデータについて、レジストリカタログにおいて提供しておりましたが、2025年（令和7年）8月13日からアドレス・ベース・レジストリ（データダウンロードサイト）にて提供します。なお、レジストリカタログにおけるデータ提供は2025年9月16日に終了します。2025年6月30日2025年6月1日に町字データを正式版として公開しま
- gis
- 行政
- dataset
- データ
- 情報
地図作成のための機械学習用データセット（ＧＳＩデータセット）
- 38 users
- gisstar.gsi.go.jp
- 暮らし
- 2022/12/09
概要ＧＳＩデータセット（愛称。正式名称は「CNNによる地物抽出用教師データセット」。以下、「本データセット」といいます）は、地上画素寸法20cm級の空中写真画像を対象として、画像内に写っている地物の範囲を、セマンティックセグメンテーションという手法で抽出する際に用いる機械学習用のデータセットです。道路や建物といった、多くの研究で取り組まれている主要な地物だけでなく、高塔や水制といったマイナーな地物や、広葉樹林や針葉樹林などの自然植生、水田や畑などの既耕地も対象としています。本データセットは、国土地理院の特別研究「ＡＩを活用した地物自動抽出に関する研究（平成30年度～令和４年度）」の研究成果として作成されたものです。このデータセットを使って学習させたモデルによる地物抽出性能が一定以上（抽出性能の評価に用いられる一般的な指標の一つであるＦ値という値が0.600以上となったもの。：当初はＦ≧
LLM のデータセットまとめ｜npaka
- 36 users
- note.com/npaka
- テクノロジー
- 2023/04/03
LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・llm-jp-corpus-v2 (ja) ・llm-jp-corpus-v2 ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・youlery (ja) ・ce-lery/mistral-3b-dataset ・ayousanz/OSCOR-2301-ja-cleaned ・ayousanz/c4-ja-cleaned ・Common Crawl (multilingual) ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh)
グーグル、世界の地表をほぼリアルタイムで監視する「Dynamic World」を公開
- 34 users
- japan.cnet.com
- テクノロジー
- 2022/06/10
Googleの最新のマッピングツール「Dynamic World」は、世界の水、植生、雪や人為的な開発のデータをほぼリアルタイムで表示する。 Dynamic Worldは、洪水、山火事、森林伐採、都市開発などによる環境破壊の影響を把握するのに役立つと、Googleは米国時間6月9日の発表で述べた。地球の環境と開発の問題に取り組む非営利団体で、このツールの開発に協力した世界資源研究所（WRI）の食糧、森林、水、海洋担当バイスプレジデントCraig Hanson氏は次のように述べた。「世界的な土地のひっ迫を受け、よりスマートで効率的かつ持続可能な土地の利用法を見出すよう求める圧力が高まっている。世界が土地から必要なものを生み出し、残された自然を保護し、失われたものをいくらかでも回復させるには、地球のすべての土地に対して、信頼性の高い、ほぼリアルタイムのモニタリングが必要だ」 Googleはこ
- Google
- 地図
- GIS
- 環境
- Map
- dataset
GitHub - JPCERTCC/phishurl-list: Phishing URL dataset from JPCERT/CC
- 34 users
- github.com/JPCERTCC
- テクノロジー
- 2022/08/31
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- JPCERT
- github
- security
- URL
- あとで読む
- dataset
Google Colabを用いたNDLOCRアプリの実行（Google Driveを用いた画像の入力と結果の保存） - デジタルアーカイブシステムの技術ブログ
- 33 users
- nakamura196.hatenablog.com
- テクノロジー
- 2022/04/29
概要ノートブック実行方法入力フォルダの準備ノートブックの実行：1.初期セットアップノートブックの実行：2.設定ノートブックの実行：3.実行まとめ追記 2022.05.02 2022.04.30 概要前回、Google Cloud PlatformのCompute Engineを用いたNDLOCRアプリの実行方法を共有しました。 nakamura196.hatenablog.com ただし、上記の方法は手続きが一部面倒で、かつ費用がかかる方法です。本番環境で使用するには適した方法ですが、小規模に、または試験的に使用するにはハードルが高い方法でした。この課題に対して、 @blue0620 さんがGoogle Colabを用いたNDLOCRアプリの実行方法を作成されました。 https://twitter.com/blue0620/status/151929433215901
- OCR
- google
- jupyter
- 画像
- 技術
- ブログ
- あとで読む
Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita
- 33 users
- qiita.com/peisuke
- テクノロジー
- 2020/12/23
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ABEJAアドベントカレンダー2020の19日目の記事です。この記事は何？結局AIって何個データ必要なの？ってよく聞かれると思います。そんなん知るかこの記事では、ある程度精度が出ている既存のタスクにおいて、どんなデータを、どのくらいの量与えているかを調べた結果です。ちなみに、僕自身、すべてのタスクを扱ったことがあるわけでは無いので、ほぼ一部適当な部分もあるかと思いますが、ご容赦ください。あと、このデータが入ってないよ！ってツッコミも歓迎です。あと、技術は常に進んでいるので、ちゃんと最新技術を追っておけば、より少ないデータで良い
Metaの大規模言語モデル「LLaMA」のトレーニングにも使用されたAIの学習用データセット「Books3」が削除される
- 31 users
- gigazine.net
- テクノロジー
- 2023/08/21
デンマークの著作権侵害対策グループ「Rights Alliance」が、約20万冊にも上る書籍のデータセット「Books3」を削除するよう、ホストする「The Eye」に対して要請し、データセットの削除が行われました。Books3はMetaの開発する大規模言語モデル「LLaMA」のトレーニングにも使用されたデータセットです。 Anti-Piracy Group Takes Prominent AI Training Dataset ''Books3' Offline * TorrentFreak https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/ Revealed: The Authors Whose Pirated Books Are P
- meta
- AI
- Copyright
- 人工知能
- 著作権
- book
自由に使える医療データセットまとめ |
- 27 users
- medtech-today.com
- 世の中
- 2023/06/05
今回はAIが使える、もしくは今後AIを使ってみたいという医療関係者のために、自由に使える医療用データセットをまとめました。
- dataset
- AI
- data
- medical
- 医療
- あとで読む
情報学研究データリポジトリメルカリデータセット
- 26 users
- www.nii.ac.jp
- 学び
- 2022/09/01
株式会社メルカリが国立情報学研究所を通じて研究者に提供しているデータセットです。 2023/09/01 更新データ概要フリマ商品データ株式会社メルカリが運営する，スマートフォン向けフリマアプリ「メルカリ」へ登録されたデータで，個人を特定する情報や非公開情報は含まれません。具体的なデータの内容は以下の通りです。アプリ上に公開されている商品データ（出品状態，商品名，商品の説明，販売価格，カテゴリ，商品の状態，サイズ，ブランド，送料の負担，発送の方法，発送元の地域，発送にかかる日数，いいね！の数，コメントの数，出品日時，更新日時）各商品ページにて公開されているコメントデータ各商品ページにて公開されている画像データ（対象全商品のサムネイル画像／一週間分のオリジナル画像）提供中のデータは2020年1月～12月の1年間に出品された商品が対象です。（データは随時更新される予定です）商品
- mercari
- dataset
- デジタルデータ
- ML
- 研究
Dynamic World - 10m global land cover dataset in Google Earth Engine
- 25 users
- dynamicworld.app
- テクノロジー
- 2022/06/10
Beginning August 14, 2021, the Caldor Fire burned 221,775 acres in El Dorado County, California, destroying over 1,000 structures and displacing thousands of residents. Days after the start of the fire, land cover changed from “trees” to “shrub/scrub” in Dynamic World. Snow is nothing unusual to people living on the Northeast coast. As the saying goes, if you don’t like the weather in New England,
- GIS
- Google
- Map
- 地図
- あとで読む
- dataset
- *あとで読む
GitHub - BandaiNamcoResearchInc/Bandai-Namco-Research-Motiondataset: This repository provides motion datasets collected by Bandai Namco Research Inc
- 24 users
- github.com/BandaiNamcoResearchInc
- テクノロジー
- 2022/04/28
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- 3d
- オープンデータ
- cg
- 3DCG
- github
Wikipediaを用いた日本語の固有表現抽出データセットの公開
- 22 users
- tech.stockmark.co.jp
- テクノロジー
- 2020/12/15
Wikipediaを用いた日本語の固有表現抽出データセットの公開
- 機械学習
- NLP
- 自然言語処理
- Dataset
- あとで読む
- 学習
- 勉強
データセットダウンロード | MADB Lab
- 22 users
- mediag.bunka.go.jp
- 学び
- 2022/10/02
データセットについての説明はこちらを御覧ください。マンガマンガ単行本 json-ld (39.4MB) turtle (35.8MB) マンガ雑誌各号 json-ld (6.8MB) turtle (6.3MB) マンガその他 json-ld (359KB) turtle (344KB) マンガ単行本シリーズ json-ld (14.2MB) turtle (13.0MB) マンガ雑誌 json-ld (423KB) turtle (400KB) マンガ雑誌掲載履歴 json-ld (2.1MB) turtle (1.9MB) マンガ雑誌内容細目 json-ld (23.6MB) turtle (21.3MB) マンガ所蔵 json-ld (18.1MB) turtle (17.3MB) アニメアニメテレビ番組 json-ld (8.7MB) turtle (8.2MB) アニメビデ
- manga
- dataset
- データ
- マンガ
- 技術
- 漫画
- アニメ
- ゲーム
Welcome
- 20 users
- www.floridamuseum.ufl.edu
- 学び
- 2024/03/13
The openVertebrate project, oVert for short, is a new initiative to provide free, digital 3D vertebrate anatomy models and data to researchers, educators, students and the public. X-ray CT allows researchers to visualize and quantify hard-to-measure characteristics. This image shows high and low density areas of the skull of an Angolan burrowing pig-nosed frog. Florida Museum of Natural History im
- database
- データ
- dataset
- アイデア
- 生物
- 科学