[B! algorithm] adetonのブックマーク

Project Euler - PukiWiki

Project Euler † プログラムで解く数学の問題集です。公式サイト適当に和訳してます。我こそはと思う人はライセンスを確認した上で自由に書いてください。 ↑

adeton 2009/05/25

リンク

情報検索の分野において、tf–idf (または、 TF*IDF、TFIDF、TF–IDF、Tf–idf)は、term frequency–inverse document frequencyの略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量（数値）である[1]。また、tf-idfは情報検索や、テキストマイニング、ユーザーモデリング（英語版）における重み係数（英語版）にもよく用いられる。ある単語のtf-idfの値は文書内におけるその単語の出現回数に比例して増加し、また、その単語を含むコーパス内の文書数によってその増加が相殺される。この性質は、一般にいくつかの単語はより出現しやすいという事実をうまく調整することに役立っている。今日、tf-idfはもっとも有名な語の重みづけ(term-weighting)手法である。2015年に行われた研究

adeton 2009/01/21

リンク

形態素解析と検索APIとTF-IDFでキーワード抽出

形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

adeton 2009/01/21

リンク

形態素解析 - Wikipedia

形態素解析（けいたいそかいせき、（英: morphological analysis）は自然言語の文字列を意味に基づく最小単位へ分割しその品詞を特定する処理である[1]。形態素解析とは、対象言語の文法や単語の品詞等の情報[注 1]にもとづき、文法的な情報の注記の無い自然言語のテキストデータ（文）を単語の列に分割し、各単語の品詞や活用などを判別することで形態素（おおまかにいえば、言語で意味を持つ最小単位）の列を得る作業である[1]。自然言語処理の分野における主要なテーマのひとつであり、機械翻訳やかな漢字変換など応用も多い（もちろん、かな漢字変換の場合は入力が通常の文と異なり全てひらがなであり、その先に続く文章もその時点では存在しないなどの理由で、内容は機械翻訳の場合とは異なったものになる）。もっぱら言語学的な観点を主として言語学で研究されている文法にもとづく解析もあれば、コンピュータ上

adeton 2008/11/10

リンク

ベイジアンフィルタ - Wikipedia

ベイジアンフィルタ (英: Bayesian filter, naive Bayes spam filtering) は単純ベイズ分類器を応用し、対象となるデータを解析・学習し分類する為のフィルタ。学習量が増えるとフィルタの分類精度が上昇するという特徴をもつ。個々の判定を間違えた場合には、ユーザが正しい内容に判定し直すことで再学習を行う[1]。現状ではスパムメール（いわゆる迷惑メール）を振り分ける機能を持つソフトウェア（フィルタリングソフト）で、スパムフィルターでのスパム判定に利用されることが多い[1]。最近[いつ?]ではWeblogのトラックバック用フィルタ（トラックバックスパム対策）にも利用されるようになるなど、その利用範囲は徐々に広がりつつある。ベイジアンフィルタでは、初期状態である程度までの振り分けができるように設定されている。振り分け対象となるデータ（迷惑メールなど）の学習量

adeton 2008/06/11

リンク

粘菌の迷路解答アルゴリズムをゲーム木探索として考えてみよう - 小宮日記

粘菌が、迷路を解く問題を一般化すると分岐粘菌は、分岐を見つけると両方に分岐する。さらに分岐を見つけるとさらに分岐する。己の物理的リソースがある限り分岐可能である。この分岐行為は、時系列では並列処理として行える。分岐評価どちらにより分岐するか、全体でどっちを目指すか？については、光や、経路上に落ちている好物・苦手物の濃度というバイアスがかかるだろう。これらは、オーダリングを実施する評価関数と考えられるだろう（実際はシークエンスではなくパラレルなのでオーダリングではない。そもそも順序はない）末端到達エサに到達すると、「勝ち」　負けは無い。「勝ち」を見つけるまで分岐を繰り返すはずである（袋小路は「負け」と言えるかもしれない）末端に到達した複数のパス末端に到達すると、そこから取り込んだ栄養が、逆に全体に向かって流れ始める。分岐を繰り返す広がっていく方向と、体内で、身体の

adeton 2008/05/29

algorithm

リンク

巡回セールスマン問題 - Wikipedia

英語版記事を日本語へ機械翻訳したバージョン（Google翻訳）。万が一翻訳の手がかりとして機械翻訳を用いた場合、翻訳者は必ず翻訳元原文を参照して機械翻訳の誤りを訂正し、正確な翻訳にしなければなりません。これが成されていない場合、記事は削除の方針G-3に基づき、削除される可能性があります。信頼性が低いまたは低品質な文章を翻訳しないでください。もし可能ならば、文章を他言語版記事に示された文献で正しいかどうかを確認してください。履歴継承を行うため、要約欄に翻訳元となった記事のページ名・版について記述する必要があります。記述方法については、Wikipedia:翻訳のガイドライン#要約欄への記入を参照ください。翻訳後、{{翻訳告知|en|Travelling salesman probl em|…}}をノートに追加することもできます。 Wikipedia:翻訳のガイドラインに、より詳細な翻訳の

adeton 2008/05/08

リンク

単方向linked listの循環参照判定をO(n)で行なう - やねうらおブログ(移転しました)

「諸悪の根源は物理的」より。(id:ladybug:20051116経由) http://www.cotton-tree.com/garyu/archives/2005/11/post_156.html 単方向リンクリスト（連結リスト）がある。ノード数を n とするが、n の値は分からない。リスト中にループ（循環参照）が存在するか否かを O(n) で判定するアルゴリズムを示せ。ただし、リストの各ノードの内容を変更してはならない。つまり、単純にポインタが指したノード全てにマーキングをしておいて、新しいノードに移るたびにマーキングされているかを調べることで判定することは出来ない。 no markingが条件として与えられているが、当然、no labeling,no recursionで求めなければならない。labelingありなら、たとえば以下のように簡単に求まる。 bool isC

adeton 2008/05/08

algorithm

リンク

連載：検索エンジンを作る｜gihyo.jp … 技術評論社

adeton 2008/05/05

リンク

計算複雑性理論 - Wikipedia

計算複雑性理論（けいさんふくざつせいりろん、英: computational complexity theory）とは、計算機科学における計算理論の一分野であり、アルゴリズムのスケーラビリティや、特定の計算問題の解法の複雑性（計算問題の困難さ）などを数学的に扱う。計算量理論、計算の複雑さの理論、計算複雑度の理論ともいう。「計算量」と「計算複雑性」はともに computational complexity に対応する語であるが、個々のアルゴリズムの効率に着目する文脈では「計算量」が広く用いられるのに対し、問題に内在する本質的困難さを表す意識からは「複雑性」「複雑さ」が好まれる傾向がある。計算複雑性理論は計算可能関数の計算の複雑さを扱う。計算理論のもう一つの重要な分野である計算可能性理論では問題の解法があるかどうかだけを扱い、その複雑さや必要とする計算資源量は問わない点が異なる。具体的に

adeton 2008/05/02

リンク

アーリー法 - Wikipedia

アーリー法（英: Earley parser）は、チャートパーサの一種であり、主に計算言語学での構文解析に使われる。名称の由来は発明者の Jay Earley。このアルゴリズムは動的計画法に基づいている。アーリー法は全ての文脈自由言語の構文解析が可能である。アーリー法は通常、入力の3乗の時間がかかり、曖昧でない文法の場合は2乗の時間がかかる。特に左再帰で書かれた生成規則を効率的に解析できる。以下の解説において、α、β、γは任意の終端記号と非終端記号の文字列（空文字列を含む）を表し、X、Y、Z は1つの非終端記号を表し、a は終端記号を表す。アーリー法はトップダウン型の動的計画法である。以下では Earley のドット記法を使用する。生成規則 X → αβ があるとき、X → α • β という表記は、αが既に解析済みで、βをこれから解析しようとしていることを表す。全ての入力位置（字

adeton 2008/05/01

リンク

メモ化 - Wikipedia

メモ化（英: memoization）とは、プログラムの高速化のための最適化技法の一種であり、サブルーチン呼び出しの結果を後で再利用するために保持し、そのサブルーチン（関数）の呼び出し毎の再計算を防ぐ手法である。メモ化は構文解析などでも使われる（必ずしも高速化のためだけとは限らない）。キャッシュはより広範な用語であり、メモ化はキャッシュの限定的な形態を指す用語である。メモ化という用語は、1968年に英国のAI研究者であるドナルド・ミッキーが、ラテン語の memorandum（覚えておく）から作った造語である[1]。memorization（記憶、暗記）は同根語であってよく似ているが、メモ化という言葉は情報工学では特別な意味を持つ。メモ化された関数は、以前の呼び出しの際の結果をそのときの引数と共に記憶しておき、後で同じ引数で呼び出されたとき、計算せずにその格納されている結果を返す。メモ化

adeton 2008/05/01

リンク

動的計画法 - Wikipedia

動的計画法（どうてきけいかくほう、英: Dynamic Programming, DP）は、計算機科学の分野において、アルゴリズムの分類の1つである。対象となる問題を複数の部分問題に分割し、部分問題の計算結果の記録を利用して全体の問題を解く手法を総称してこう呼ぶ。細かくアルゴリズムが定義されているわけではなく、下記2条件を満たすアルゴリズムの総称である。帰納的な関係の利用：より小さな問題例の解や計算結果を帰納的な関係を利用してより大きな問題例を解くのに使用する。計算結果の記録：小さな問題例、計算結果から記録し、同じ計算を何度も行うことを避ける。帰納的な関係での参照を効率よく行うために、計算結果は整数、文字やその組みなどを見出しにして管理される。「動的計画法 (dynamic programming)」という言葉は1940年代にリチャード・E・ベルマンが最初に使いはじめ、1953年に

adeton 2008/05/01

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

algorithmに関するadetonのブックマーク (13)

お知らせ

はてなブックマーク一部機能のメンテナンスに関するお知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

今週のはてなブックマーク数ランキング（2025年11月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス