無料 BGM・効果音のフリー音源素材 誰でも 報告不要で 商用利用無料! 今すぐ使える BGM・効果音 1,000点以上! 動画制作やイベントに もちろんスプリンギン アプリでも利用可
はじめまして。デジタル庁ファクト&データユニット所属、データエンジニアの長谷川です。 本記事ではデジタル庁内でデータ活用を推進するための組織と分析基盤についてご紹介します。 これまでのデジタル庁noteと比べると、技術寄りの話題が多い記事となりますが、庁内のデータ活用に興味のある方はぜひご覧ください。 デジタル庁のデータ活用組織「ファクト&データユニット」ファクト&データユニットとはデジタル庁の特徴の一つに、デジタル分野において各種の専門性をもつ「民間専門人材」が多く所属していることが挙げられます。 民間の専門人材は、デザイン、プロダクトマネジメント、エンジニアリングなど、領域ごとに「ユニット」と呼ばれる組織を構成しており(参考:デジタル庁 - 組織情報)、必要に応じてさまざまなプロジェクトにアサインされて業務を遂行する、人材プールのような役割を果たしています。 ファクト&データユニットも
個人用メモです。 機械学習は素材集めがとても大変です。 でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類 使い方はExploreから画像セットを探し、ダウンロードするだけ。 他の方法も見つけた open images dataset 「すごい神だな」と思ったのは これもう完成されてますよね もちろんこの認識前の画像もセットでダウンロードできます。 Youtube-8Mとは、画像数を取るか、精度で取るか、という違いでしょうか。 他にも良い素材集を教えていただきました (はてなブックマーク情報 @sek_165 さん )
全国の市区町村の名前とコードをデータベーステーブル化したもの、すなわち市区町村マスタはITシステムを作っていれば何かしらの場面で必要になるものです。 ではその市区町村マスタを作るための元データはどこから手に入れたらいいものか。 そして「作る」というのもありますが、市区町村は再編されるものですから最新の変更にどう追従するか、しかもそれを自動化できるかというのも大いに気になるところですね。 エムスリーエンジニアリンググループ三浦(@[email protected]) [記事一覧 ]です。 Unit1(製薬プロモーション)およびUnit9(治験臨床研究支援)のエンジニアです。 今回は私も皆様とまったく同じように市区町村マスタのデータ源に悩んでいろいろ調べましたので、それで得た知見を共有させていただこうと思います。今回は代表的な3つのデータソースをご紹介し比較していきます。 ほしいのはこんな感じのデ
ライセンスは「CC BY-NC-ND 4.0」で、利用の際にクレジットを表示すること、非営利でのみ利用すること、内容を改変しないことを求めている。 バンダイナムコは、メタバースやXR技術が広まる中、コンテンツ規模が拡大すると従来のモーション制作過程では限界を迎えると予想。AIを活用したキャラクターのモーションを生成する研究を行っている。 一方、AIによるモーション研究はデータセットの入手が難しいため研究開発が進んでいないとして、自社で使っているデータの一部を提供することにしたという。 関連記事 実在しない顔の画像3000点を無償配布、AI学習用データセットに 法人向け・商用利用可 AI活用のコンサルティング事業を手掛けるAPTOなど2社が、AIの学習データとして利用できる、実在しない男女の顔写真3000枚の無償配布を始めた。法人を対象に11月30日までの期間限定で提供し、商用利用も認める。
どうも、まさとらん(@0310lan)です! 今回は、誰でも無料で使える天気予報APIを提供してくれるWebサービスをご紹介します! 面倒なユーザー登録やAPIキーの設定などが不要で、欲しい天気情報のパラメータを含めたURLを好きなように構成するだけで簡単にJavaScriptから制御できるのが特徴です。 日本はもちろん、世界中の詳細な天気情報を取得できるのでご興味ある方はぜひ参考にしてみてください! 【 Open-Meteo 】 ■「Open-Meteo」の使い方 それでは、「Open-Meteo」をどのように使えばいいのか詳しく見ていきましょう! 「Open-Meteo」が提供する天気予報APIを利用するにあたり、何か特別な登録や申請は必要ありません。もっと言えば、ユーザー登録も不要でAPIキーもありません。 非営利プロジェクトであれば誰でも自由に使うことが可能で、以下のエンドポイント
スマートニュースは7月1日、国会の過去20年分以上の議案データ約1万8000件を収集・整理し、オープンデータ化した国会議案のデータベースを、GitHubで無償公開(衆議院、参議院)した。GitHubを利用しない人向けに、閲覧用のWebページ(衆議院、参議院)も公開した。 国会で審議された法案や予算案、条約、決議案といった議案は、衆参両議院のWebサイトに掲載されている。提出者や審議された委員会、賛成・反対した政党(衆院のみ)などの情報も確認できるが、国会の回次ごと、また議案ごとにページが分かれているため、集計や検索、一覧が難しかった。 今回、同社の「メディア研究所」が、各議案のページに掲載されている情報を収集、整理し、CSVファイルとJSONファイル形式で公開。MITライセンスに準拠し、商用・非商用を問わずオープンデータとして誰でも無償で使えるようした。 主に報道機関や研究者に、選挙報道や
2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。 このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。 機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。 リポジトリ : https://github.com/ndl-lab/
国立国会図書館では、さまざまなオープンデータが公開されています。 その中に「図書館及び関連組織のための国際標準識別子(ISIL)」試行版LODがあります。 これは、日本全国の図書館に関する情報が網羅的にまとめられているRDFデータとなります。 提供されているデータはXMLファイルなので個別にデータを取得するためにはプログラムなどで処理する必要があるので、Webブラウザで各データを見やすく提供するWebサイト「図書館施設データポータル」を作成しました。 ここでは、 図書館施設データポータル を紹介します。 図書館及び関連組織のための国際標準識別子(ISIL)」試行版LOD とは 元データは、「図書館及び関連組織のための国際標準識別子(ISIL)」という図書館等につけられる国際的な識別子で、国立国会図書館では、このISILが付与される図書館の情報をオープンデータ(XMLファイルのRDFデータ)
デジタル庁は10月9日までに、AIが法務でどれほど使えるかを測る「日本の法令に関する多肢選択式QAデータセット」を公開した。同データセットは、法令分野に関する4択問題と回答、問題の背景となる法令の抜粋などを含む。行政機関や企業の法務部門でのAI導入に役立てたい考えだ。 同データセットは、複数の大規模言語モデル(LLM)により作成・検証したもの。含まれる問題が選択式のため、AIの回答を自動で採点・評価しやすいのが特徴だ。政府が持つデータのAI開発での活用を目指し、同庁が実施した「政府等保有データのAI学習データへの変換にかかる調査研究」で利用した。 同データセットの主な利用方法として、AIが法務でどれほど使えるかを測る評価データを想定する。また、同庁のテストによると、同データセットをPreferred NetworksのLLM「PLaMo-100B」の継続事前学習と指示学習に利用することで、
rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン“クリフ”チェン、以下rinna社)は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開しました。 ■背景 rinna社は、MicrosoftのAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています
AIの著作権問題に終止符か? 8TBの巨大オープンデータセット「Common Pile」登場、Llama 2に匹敵するLLMもリリース AIは創作物を無断で学習しても許されるのか──。この問いは、生成AIの進化と共に業界全体に重くのしかかる根源的な課題となっている。著作権侵害を主張する訴訟が相次ぎ、AI開発企業は防衛的にそのデータ利用の詳細を固く閉ざすようになった。この「透明性の冬」とも言える状況が、健全な研究の進展を妨げていると懸念する声は少なくない。 そんな中、AI業界の分水嶺となる可能性を秘めた画期的なプロジェクトが姿を現した。 非営利の研究団体EleutherAIと、トロント大学、Hugging Face、Allen Institute for AI (AI2)など多数の組織からなる共同研究チームは、「Common Pile v0.1」と名付けられた、8テラバイト(TB)にも及ぶ巨
特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。 会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。 自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1 名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバ
複雑なプロンプト(命令文)を理解して高度な計算や回答をするAIを実現するためには、数百億~数兆パラメータもの膨大なトレーニングデータを必要とします。基本的にAIが高度になればなるほど多くのトレーニングデータを必要としますが、GoogleはAIモデルの品質を維持したままデータ量を最大1万分の1まで削減できるラーニング手法を発表しました。 Achieving 10,000x training data reduction with high-fidelity labels https://research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/ 膨大な広告案件の中から安全でない広告コンテンツを分類することは、大規模言語モデル(LLM)により発展が期待されるタスクです。しかし、
ブラジルのミナス・ジェライス連邦大学の15人の研究者チームが、研究プロジェクトの一環としてDiscordのスクレイピングを行い、20億件以上のメッセージをデータベース化してオンラインに公開しました。研究チームはデータを匿名化したと伝えています。 Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024) (PDFファイル)https://arxiv.org/pdf/2502.00627 Researchers Scrape 2 Billion Discord Messages and Publish Them Online https://www.404media.co/researchers-scrape-2-billion-discord-messages-and-publish-them-
なお、同データセットは日本の公的な人口・労働関連の統計データに基づいている一方、全てのペルソナは合成によって作成しているため、個人を特定できる情報は含まれていない。また、個人情報保護法(PIPA)の要件も満たしているという。 同データセットは、ソブリンAIの開発での利用を想定している。例えば、日本の文化的な背景を踏まえた回答ができるAIアシスタント向けのトレーニングデータの作成や、AIシステムが日本の地方と都市、異なる年齢層、教育水準の人々に対し、どのように機能するか評価するためなどに利用できるという。 関連記事 OpenAIのアルトマンCEO、AIを基本的人権にする壮大なビジョンを展開 OpenAIのサム・アルトマンCEOが、NVIDIAによる1000億ドル投資発表の翌日、AIインフラを毎週1GW生産する工場建設の構想をブログで公開した。AIへのアクセスは将来の基本的人権になるとし、10
ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。 日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。 音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。
ハーバード大学ロースクール図書館が98万3000冊の書籍からテキストデータを抽出したデータセット「Institutional Books」を公開しました。データセットの作成にはGoogleブックスの成果が活用されています。 Institutional Books | Institutional Data Initiative https://www.institutionaldatainitiative.org/institutional-books Institutional Booksには98万3000冊の書籍のデータが含まれており、総ページ数は3億8600万ページに及びます。また、学習元の書籍に使われていた言語は254種でした。 言語の内訳は以下の通り。最も多いのは英語の43%で、その後にドイツ語(17%)、フランス語(14%)、イタリア語(4%)、ラテン語(3%)、スペイン語(2%
(上記、Github の README.md を一部日本語に翻訳して引用) Unsloth の良い点としては、学習の高速さやVRAM消費量が小さいことに加え、学習の効率化において近似計算を一切使用していないことから、精度低下がゼロと自信を持って書かれていることや、Huggingface において様々な動的量子化/GGUFモデル等を公開していることが挙げられます。 また、Unsloth を用いてLLMのダウンロードを行うと、謎の仕組みで高速に進みます。(Unsloth: Fast downloading is enabled と出てくるので多分早くなっている) インストールは以下のコマンドで行えます。 余談ですが、Unsloth の公式ドキュメントに書かれた LLM のファインチューニングガイド、どのモデルを使うべきか?、LoRA のハイパラのガイド は情報が綺麗にまとまっていて個人的にかな
大英博物館と協力して古い新聞をデータ化し、サブスクリプション形式で提供している英Findmypast Newspaper Archiveは8月9日(現地時間)、18~19世紀に刊行された新聞約100万ページのデータを無償公開した。同社が許可すれば商用利用も可能という。非営利の場合は、著作権表示と参照元を明記すれば利用を認める。 提供するのは、大英博物館が保存する1720~1880年にかけて刊行された150紙のデータ。新聞のタイトルは、ジャマイカの政治動向を報じる「Royal Gazette of Jamaica」、英国で初めてカラーイラストを採用した「Colored News」など。 ユーザーはFindmypast Newspaper Archiveが提供するサブスクリプションサービス「The British Newspaper Archive」のアカウントを作成すれば閲覧できる。無償で閲
無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日本語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス 大量の日本語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス
アドレス・ベース・レジストリは、ベース・レジストリ※として整備する住所・所在地関係データベースです。 ※法律上におけるベース・レジストリの正式名称は「公的基礎情報データベース」と定義されています。 お知らせ2025年8月22日アドレス・ベース・レジストリ(データダウンロードサイト)は現在メンテナンス中のため利用ができません。再開後、本ページにてお知らせします。なおレジストリカタログ(データのダウンロード) は利用可能です。2025年8月13日アドレス・ベース・レジストリのデータについて、レジストリカタログにおいて提供しておりましたが、2025年(令和7年)8月13日からアドレス・ベース・レジストリ(データダウンロードサイト) にて提供します。なお、レジストリカタログにおけるデータ提供は2025年9月16日に終了します。2025年6月30日2025年6月1日に町字データを正式版として公開しま
概要 GSIデータセット(愛称。正式名称は「CNNによる地物抽出用教師データセット」。以下、「本データセット」といいます)は、地上画素寸法20cm級の空中写真画像を対象として、画像内に写っている地物の範囲を、セマンティックセグメンテーションという手法で抽出する際に用いる機械学習用のデータセットです。道路や建物といった、多くの研究で取り組まれている主要な地物だけでなく、高塔や水制といったマイナーな地物や、広葉樹林や針葉樹林などの自然植生、水田や畑などの既耕地も対象としています。 本データセットは、国土地理院の特別研究「AIを活用した地物自動抽出に関する研究(平成30年度~令和4年度)」の研究成果として作成されたものです。このデータセットを使って学習させたモデルによる地物抽出性能が一定以上(抽出性能の評価に用いられる一般的な指標の一つであるF値という値が0.600以上となったもの。:当初はF≧
LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・llm-jp-corpus-v2 (ja) ・llm-jp-corpus-v2 ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・youlery (ja) ・ce-lery/mistral-3b-dataset ・ayousanz/OSCOR-2301-ja-cleaned ・ayousanz/c4-ja-cleaned ・Common Crawl (multilingual) ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh)
Googleの最新のマッピングツール「Dynamic World」は、世界の水、植生、雪や人為的な開発のデータをほぼリアルタイムで表示する。 Dynamic Worldは、洪水、山火事、森林伐採、都市開発などによる環境破壊の影響を把握するのに役立つと、Googleは米国時間6月9日の発表で述べた。 地球の環境と開発の問題に取り組む非営利団体で、このツールの開発に協力した世界資源研究所(WRI)の食糧、森林、水、海洋担当バイスプレジデントCraig Hanson氏は次のように述べた。「世界的な土地のひっ迫を受け、よりスマートで効率的かつ持続可能な土地の利用法を見出すよう求める圧力が高まっている。世界が土地から必要なものを生み出し、残された自然を保護し、失われたものをいくらかでも回復させるには、地球のすべての土地に対して、信頼性の高い、ほぼリアルタイムのモニタリングが必要だ」 Googleはこ
概要 ノートブック 実行方法 入力フォルダの準備 ノートブックの実行:1.初期セットアップ ノートブックの実行:2.設定 ノートブックの実行:3.実行 まとめ 追記 2022.05.02 2022.04.30 概要 前回、Google Cloud PlatformのCompute Engineを用いたNDLOCRアプリの実行方法を共有しました。 nakamura196.hatenablog.com ただし、上記の方法は手続きが一部面倒で、かつ費用がかかる方法です。本番環境で使用するには適した方法ですが、小規模に、または試験的に使用するにはハードルが高い方法でした。 この課題に対して、 @blue0620 さんがGoogle Colabを用いたNDLOCRアプリの実行方法を作成されました。 https://twitter.com/blue0620/status/151929433215901
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ABEJAアドベントカレンダー2020の19日目の記事です。 この記事は何? 結局AIって何個データ必要なの?ってよく聞かれると思います。 そんなん知るか この記事では、ある程度精度が出ている既存のタスクにおいて、どんなデータを、どのくらいの量与えているかを調べた結果です。ちなみに、僕自身、すべてのタスクを扱ったことがあるわけでは無いので、ほぼ一部適当な部分もあるかと思いますが、ご容赦ください。あと、このデータが入ってないよ!ってツッコミも歓迎です。 あと、技術は常に進んでいるので、ちゃんと最新技術を追っておけば、より少ないデータで良い
デンマークの著作権侵害対策グループ「Rights Alliance」が、約20万冊にも上る書籍のデータセット「Books3」を削除するよう、ホストする「The Eye」に対して要請し、データセットの削除が行われました。Books3はMetaの開発する大規模言語モデル「LLaMA」のトレーニングにも使用されたデータセットです。 Anti-Piracy Group Takes Prominent AI Training Dataset ''Books3' Offline * TorrentFreak https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/ Revealed: The Authors Whose Pirated Books Are P
株式会社メルカリが国立情報学研究所を通じて研究者に提供しているデータセットです。 2023/09/01 更新 データ概要 フリマ商品データ 株式会社メルカリが運営する,スマートフォン向けフリマアプリ「メルカリ」へ登録されたデータで,個人を特定する情報や非公開情報は含まれません。 具体的なデータの内容は以下の通りです。 アプリ上に公開されている商品データ(出品状態,商品名,商品の説明,販売価格,カテゴリ,商品の状態,サイズ,ブランド,送料の負担,発送の方法,発送元の地域,発送にかかる日数,いいね!の数,コメントの数,出品日時,更新日時) 各商品ページにて公開されているコメントデータ 各商品ページにて公開されている画像データ(対象全商品のサムネイル画像/一週間分のオリジナル画像) 提供中のデータは2020年1月~12月の1年間に出品された商品が対象です。(データは随時更新される予定です) 商品
Beginning August 14, 2021, the Caldor Fire burned 221,775 acres in El Dorado County, California, destroying over 1,000 structures and displacing thousands of residents. Days after the start of the fire, land cover changed from “trees” to “shrub/scrub” in Dynamic World. Snow is nothing unusual to people living on the Northeast coast. As the saying goes, if you don’t like the weather in New England,
データセットについての説明はこちらを御覧ください。 マンガ マンガ単行本 json-ld (39.4MB) turtle (35.8MB) マンガ雑誌各号 json-ld (6.8MB) turtle (6.3MB) マンガその他 json-ld (359KB) turtle (344KB) マンガ単行本シリーズ json-ld (14.2MB) turtle (13.0MB) マンガ雑誌 json-ld (423KB) turtle (400KB) マンガ雑誌掲載履歴 json-ld (2.1MB) turtle (1.9MB) マンガ雑誌内容細目 json-ld (23.6MB) turtle (21.3MB) マンガ所蔵 json-ld (18.1MB) turtle (17.3MB) アニメ アニメテレビ番組 json-ld (8.7MB) turtle (8.2MB) アニメビデ
The openVertebrate project, oVert for short, is a new initiative to provide free, digital 3D vertebrate anatomy models and data to researchers, educators, students and the public. X-ray CT allows researchers to visualize and quantify hard-to-measure characteristics. This image shows high and low density areas of the skull of an Angolan burrowing pig-nosed frog. Florida Museum of Natural History im
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く