並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 18 件 / 18件

新着順 人気順

apache-arrowの検索結果1 - 18 件 / 18件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

apache-arrowに関するエントリは18件あります。 dataRubyデータ などが関連タグです。 人気エントリには 『Fluentd向けApache Arrowプラグインについて - KaiGaiの俺メモ』などがあります。
  • Fluentd向けApache Arrowプラグインについて - KaiGaiの俺メモ

    構想は半年ほど前?ここ一ヶ月ほど集中して開発に取り組んでいた、Fluentd向けApache Arrowプラグインがようやく動くようになったので、今回はこちらのモジュールについてご紹介します。 そもそもPG-Stromは、IoT/M2M領域で大量に発生するデータを高速に処理できますというのがセールスポイントで、GPU-Direct SQLはじめ、各種の機能によってそれを実現しているワケですが、実際に運用する際には、発生したデータを『どうやってSQLで処理できるようDBにインポートするか?』という問題があります。 例えば、PostgreSQLに一行ずつINSERTするというのも一つの解です。ただし、単純なI/Oに比べると、DBへの書き込みはどうしても処理ボトルネックになりがちです。 そこで、大量に収集するログデータを、少ない時間ロスで(つまり一時ファイルに保存したデータを再度DBにインポート

      Fluentd向けApache Arrowプラグインについて - KaiGaiの俺メモ
    • 事前情報:RubyKaigi Takeout 2021 - Red Arrow - Ruby and Apache Arrow - チケットプレゼントもあるよ #rubykaigi - 2021-08-23 - ククログ

      RubyKaigi Takeout 2021でRed Arrow - Ruby and Apache ArrowというApache ArrowのオフィシャルRubyライブラリーの話をする須藤です。RubyKaigi Takeout 2021での私の話をより理解できるようになるために内容を紹介します。 なお、クリアコードはゴールドスポンサーとしてRubyKaigi Takeout 2021を応援しています。ゴールドスポンサーになるとチケットをもらえるのですが社内では使い切れないので欲しい人にあげます。2名分あります。応募方法はこの記事の最後を参照してください。 関連リンク: 動画(YouTube) スライド(Rabbit Slide Show) スライド(SlideShare) リポジトリー 背景 私はRubyが好きなのでデータ処理をするときもできるだけRubyを使いたいです。が!残念ながら

        事前情報:RubyKaigi Takeout 2021 - Red Arrow - Ruby and Apache Arrow - チケットプレゼントもあるよ #rubykaigi - 2021-08-23 - ククログ
      • RubyKaigi 2022 - Fast data processing with Ruby and Apache Arrow #rubykaigi - 2022-09-13 - ククログ

        株式会社クリアコード > ククログ > RubyKaigi 2022 - Fast data processing with Ruby and Apache Arrow #rubykaigi 関連リンク: スライド(Rabbit Slide Show) スライド(SlideShare) リポジトリー 内容 RubyKaigi Takeout 2021のRed ArrowのトークではRed Arrowを中心にできることをたくさん紹介しました。その発展形として今年は実際に使えそうな感じになっていることを紹介したかったので、高速データ処理機能にフォーカスすることにしました。が、採択されて資料を作り始めてみると「実際に使えそう」というには各機能の実装にもう少しブラッシュアップが必要なことがわかりました。なんと。。。 ということで、Apache Arrowを使って高速にデータ処理できる各種方法につい

          RubyKaigi 2022 - Fast data processing with Ruby and Apache Arrow #rubykaigi - 2022-09-13 - ククログ
        • 代表取締役の須藤がApache ArrowのPMC chairに就任 - 2022-01-27 - ククログ

          Apache Arrowの開発に参加している代表取締役の須藤です。 2016年からかれこれ6年くらい開発に参加しているApache Arrowプロジェクトなんですが、このたび私がPMC chairになりました!すごくない? アナウンスメール:[ANNOUNCE] New Arrow PMC chair: Kouhei Sutou PMC chair Apache Software Foundation傘下のプロジェクトのことを知らない人からすれば「PMC chairってなに?」だと思うので、まずそのへんを説明します。 Apache Software Foundation傘下の各プロジェクトはそれぞれProject Management Committee(プロジェクト管理委員会)が管理することになっています。PMCがすることはコードを書くこと、ではありません!健全なコミュニティーを維持する

            代表取締役の須藤がApache ArrowのPMC chairに就任 - 2022-01-27 - ククログ
          • Apache Arrowの統計情報を使ったログ検索の爆速化 - KaiGaiの俺メモ

            PostgreSQLにはBRINインデックス(Block Range Index)という機能があり、ログデータに付属するタイムスタンプ値など、近しい値を持ったデータが物理的に近接するという特徴を持っているとき、検索範囲を効率的に絞り込むために使用する事ができる。 この機能はPG-Stromでも対応しており、その詳細は以前のエントリでも解説している。 kaigai.hatenablog.com かいつまんで説明すると、時系列のログデータのように大半が追記(Insert-Only)であり、かつタイムスタンプ値のように近しい値同士が近接している場合、1MBのブロック((pages_per_rangeがデフォルトの128の場合、8kB * 128 = 1MB))ごとにその最小値/最大値を記録しておくことで『明らかに検索条件にマッチしない範囲』を読み飛ばす事ができる。 例えば以下の例であれば、WHE

              Apache Arrowの統計情報を使ったログ検索の爆速化 - KaiGaiの俺メモ
            • Apache Arrow の紹介 - GO Tech Blog

              タクシーアプリ『GO』のデータエンジニアをしている牧瀬です。 Apache Arrow という OSS を知り、弊社でも活用できる機会があるのではないかと興味を持ちました。本記事では Apache Arrow の概要を紹介します。 概要 Apache Arrow とは、インメモリのカラムナーフォーマット仕様および、それを操作するための各種プログラミング言語用のライブラリ実装です。 Apache Arrow が作られた目的は、大きなデータセットを高速に処理したり、データセットを異なるシステムやプログラミング言語の間で効率的にやりとりするためです。 なぜインメモリ? 一般的なカラムナーフォーマットの多くはストレージに保存する際のフォーマットですが、Apache Arrow はインメモリの仕様も定められています。 これは 1台のマシン上で異なる言語やプロセスの間でデータをやり取りする際、シリアラ

                Apache Arrow の紹介 - GO Tech Blog
              • Apache Arrowフォーマットはどのようにクエリー結果の転送を高速にしているのか

                Published 10 Jan 2025 By Ian Cook, David Li, Matt Topol, Sutou Kouhei [訳] Translations 原文(English) この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの最初の記事です。 「どうしてこんなに時間がかかるの?」 これはデータを扱っている人がクエリー結果を待っている間によく考える質問です。たくさんの回答が考えられます。もしかしたら、データソースが適切にパーティショニングされていないかもしれません。もしかしたら、SaaSのデータウェアハウスのリソースが足りないのかもしれません。もしかしたら、クエリーオプティマイザーがSQL文を効率的な実行計画に落とし込めなかったのかもしれません。 しかし、驚くほど多くの場合、クエリ結果をクライ

                  Apache Arrowフォーマットはどのようにクエリー結果の転送を高速にしているのか
                • Apache Arrowフォーマットはなぜ速いのか - Kouhei Sutou - Rabbit Slide Show

                  2020年代、ビッグデータをどう扱えばよいか。今は各プロダクト毎に効率的な扱い方を実装していますが、2020年代はそんな時代ではありません!ビッグデータの扱いでも、共通で必要なものはプロダクトを超えて協力して開発して共有する、そんな時代です!ビッグデータのための共通基盤、それがオープンソースのApache Arrowです。AmazonもGoogleもNVIDIAも開発に参加しています。 このセッションではApache Arrow開発チームの主要メンバーがApache Arrowフォーマットがなぜ速いのかを説明します。 Page: 1 Apache Arrowフォーマットは なぜ速いのか 須藤功平 株式会社クリアコード db tech showcase ONLINE 2020 2020-12-08 Apache Arrowフォーマットはなぜ速いのか Powered by Rabbit 3.0

                    Apache Arrowフォーマットはなぜ速いのか - Kouhei Sutou - Rabbit Slide Show
                  • Apache Arrow 鬼はええ! このままCSV全部Parquetに 変換していこうぜ!

                    Apache Arrow 鬼はええ! このままCSV全部Parquetに 変換していこうぜ! 2022-03-19 第97回R勉強会@東京 @eitsupi はじめに 自己紹介 @eitsupi 製造業勤務 Excelが嫌になりRを触り初めて3年 Dockerイメージrocker/r-ver他のメンテナー VSCode派 Remote-Containersばかり使っている このスライドでQuartoに挑戦 今日の話 数十分かけて読み込んでいたCSVファイル群をParquetに置換する際に調べたこと(数十秒~数分で読めるようになった) ArrowとParquetのことを少しでも知ってもらい、試すきっかけになれば……

                    • 「Apache Arrow 3.0.0」リリース、高性能アプリケーション開発プラットフォームの最新版

                      Apache Arrowは、分析アルゴリズムのパフォーマンスと、あるシステムまたはプログラミング言語から別のシステムまたはプログラミング言語へのデータ移動の効率を向上させるよう設計されている。インメモリ列形式を採用しており、計算ルーチンと実行エンジンはデータの大きなチャンクをスキャンして反復する際に、効率を最大化できる。 最新版となる「Apache Arrow 3.0.0」では、Arrow列形式ですでにサポートされていた、Decimal256形式のデータ型が、C++およびJavaで実装されるようになった。 また、FlightについてはC++/Java/Pythonでの認証を見直し、より柔軟な認証方式と標準ヘッダの使用が可能になっており、Cookieのサポートも追加されている。なお、C++/Javaにおける実装は、他のFlight実装との相互運用性を高めるべく、メッセージ解析をより寛容にした

                        「Apache Arrow 3.0.0」リリース、高性能アプリケーション開発プラットフォームの最新版
                      • Introducing Apache Arrow Flight SQL: Accelerating Database Access

                        Introducing Apache Arrow Flight SQL: Accelerating Database Access Published 16 Feb 2022 By José Almeida, James Duong, Vinicius Fraga, Juscelino Junior, David Li, Kyle Porter, Rafael Telles We would like to introduce Flight SQL, a new client-server protocol developed by the Apache Arrow community for interacting with SQL databases that makes use of the Arrow in-memory columnar format and the Flight

                          Introducing Apache Arrow Flight SQL: Accelerating Database Access
                        • OpenTelemetry Protocol with Apache Arrow - Phase 2 Announcement

                          OpenTelemetry Protocol with Apache Arrow - Phase 2 Announcement We are excited to announce the next phase of the OpenTelemetry Protocol with Apache Arrow project (OTel-Arrow). We began this project several years ago with the goal of bridging between OpenTelemetry data and the Apache Arrow ecosystem. Apache Arrow is a framework designed for zero-copy exchange of structured data between column-orien

                            OpenTelemetry Protocol with Apache Arrow - Phase 2 Announcement
                          • GitHub - ballista-compute/ballista: Distributed compute platform implemented in Rust, and powered by Apache Arrow.

                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                              GitHub - ballista-compute/ballista: Distributed compute platform implemented in Rust, and powered by Apache Arrow.
                            • Fast data processing with Ruby and Apache Arrow - Kouhei Sutou - Rabbit Slide Show

                              Description I introduced Ruby and Apache Arrow integration including the "super fast large data interchange and processing" Apache Arrow feature at RubyKaigi Takeout 2021. This talk introduces how we can use the "super fast large data interchange and processing" Apache Arrow feature in Ruby. Here are some use cases: * Fast data retrieval (fast (({pluck}))) from DB such as MySQL and PostgreSQL for

                                Fast data processing with Ruby and Apache Arrow - Kouhei Sutou - Rabbit Slide Show
                              • 【R】Apache Arrowとduckdbを試してみる - Qiita

                                これはR Advent Calendar 2021の24日目の記事です(ということにさっきしました)(遅刻)。 https://qiita.com/advent-calendar/2021/rlang Apache ArrowとDuckDB arrowパッケージ Rのarrowパッケージ(バージョン6.0.0)に遂にjoin系の機能やdplyr::group_by()への対応が入りいよいよ日常的に使っていきたいと思ったのでどのくらい早いのか計ってみようと思います。 私はApache Arrowを最近知り、凄いプロジェクトがあるものだと衝撃を受けたクチです。 https://github.com/apache/arrow Apache Arrowについてはクリアコード社のサイトにて積極的に日本語の情報発信されているのでまずそちらをご覧いただくのも良いと思います。 Apache Arrowのご

                                  【R】Apache Arrowとduckdbを試してみる - Qiita
                                • Apache Arrowの最新情報(2022年5月版) - 2022-05-13 - ククログ

                                  Apache ArrowのPMC chair(プロジェクトリーダーみたいな感じ)の須藤です。2022年5月時点のApache Arrowの最新情報を日本語で紹介します。 2018年から毎年Apache Arrowの最新情報を日本語で紹介しているのですが、これはその2022年版です。2021年も紹介しようと思っていたのですが、気づいたら2021年が終わっていました。。。ということで、2021年と2022年の新情報を紹介します。2020年以前の情報は過去の紹介を参照してください。 Apache Arrowの最新情報(2020年7月版) Apache Arrowの最新情報(2019年9月版) Apache Arrowの最新情報(2018年9月版) 私は、PMCの中では唯一の日本人で、コミット数は3番目に多い1ので、日本ではApache Arrowのことをだいぶ知っている方なはずです。だいぶ知って

                                    Apache Arrowの最新情報(2022年5月版) - 2022-05-13 - ククログ
                                  • Apache Arrow Flight – ビッグデータ用高速データ転送フレームワーク - Kouhei Sutou - Rabbit Slide Show

                                    ビッグデータは現実的な時間で処理できてこそ活きます。処理時間はデータ処理アルゴリズムの計算量だけで決まり…ません!適切なノードにデータを配置しないとそもそもデータ処理できませんが、大量ノードが協調するビッグデータ処理ではデータ移動コストを無視できません。Apache Arrow Flightを使えばネットワーク帯域限界まで高速にデータ転送できます。 このセッションではApache Arrow Flightの仕組みおよび利用例として分散計算プラットフォームApache Arrow Ballistaを紹介します。 Page: 1 Apache Arrow Flight ビッグデータ用高速データ転送フレームワーク 須藤功平 株式会社クリアコード db tech showcase 2021 2021-11-17 Apache Arrow Flight - ビッグデータ用高速データ転送フレームワーク

                                      Apache Arrow Flight – ビッグデータ用高速データ転送フレームワーク - Kouhei Sutou - Rabbit Slide Show
                                    • GitHub - cloudquery/cloudquery: The open source ELT framework powered by Apache Arrow

                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                        GitHub - cloudquery/cloudquery: The open source ELT framework powered by Apache Arrow
                                      1

                                      新着記事