You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
こんにちは!逆瀬川 ( https://x.com/gyakuse )です! さいきんあんまり記事を上げたりできていなかったのですが、この半年程度、何をしていたかというと、アプリケーションとエージェントとアシスタント開発をしてました。 今日はそれらの紹介を行い、それらをどうやって作ったかというのを書ければと思っています。身を粉末状にして頑張って作りました。ぜひ、読んでもらえれば嬉しいです。 作ったエージェント、アプリケーション Agent Task Agent: Pythonのライブラリで動作するコンパクトなエージェント Computer Agent: Mac/Windows/Linux上のソフトウェアを使い任意のタスクを実行するエージェント RPA Agent: Mac/Windows/Linux上で録画された作業をもとにその作業の続き (または定期的な反復) を行うエージェント App
オープンソースの音声認識モデルのWhisperを使うと、手軽に高品質な音声認識(文字起こし)が可能となる。今回は、Whisperを利用して簡単に使えるリアルタイム音声認識ツールを作ってみよう。 リアルタイム音声認識ツールを実行しているところ 音声認識モデルのWhisperとは 「Whisper」は、ChatGPTで有名なOpenAIが公開しているオープンソースの音声認識モデルだ。高精度な音声認識モデルで、英語だけでなく日本語を含めた多言語の音声をテキストに変換できる。ノイズの多い環境でも高い認識精度を誇り、議事録作成や字幕生成、自動文字起こしなどに活用されている。 Pythonから簡単に扱える点も魅力で、柔軟な応用が可能となっている。そこで、今回は、Pythonでリアルタイムの音声認識ツールを作ってみよう。 音声認識モデルのWhisperを公開しているWebサイト 音声認識に使うライブラリ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く