2025年技術ブログ集

2025年技術ブログ集

faster-whisperの調査

音声認識モデル(faster-whisper)の調査1.faster-whisperとは日経ソフトウェア2025年11月号(P36-P48)で、OpenAIが開発したオープンソースの音声認識モデル「Whisper」を高速化した派生モデルが「...
2025年技術ブログ集

VLMによる伝票処理アプリ

VLMによる伝票処理アプリ1.スキャンPDF画像のOCR課題ローカル生成AIでVLM(Visual Language Model)が画像分類などで有効なことを報告しました。今回は一般的な事務作業での活用検討の報告です。以前、コードレスのAI...
2025年技術ブログ集

機械学習(分類)+LLMアプリ

その1 機械学習による異常検出と分類手法について前回は、機械学習(回帰)+LLMで、なんちゃってAgentを開発しました。今回は、機械学習(分類)+LLMで同じようなアプリを開発したお話です。機械学習では回帰と分類が「Pythonで儲かるA...
2025年技術ブログ集

機械学習(回帰)+LLMアプリ

その1 構造データに対してのLLMの限界 ローカルでもLLMやVLMの性能が上がってきています。Copilotによるとcsv解析に適したLLMとして、「Mixtrail:8x7b」と「DeepSeekV2」があるようです。Mixtrail8...
2025年技術ブログ集

簡便な画像生成アプリ

その1 CPUで動く画像生成アプリの開発(txt2img) Stable-diffusionは画像生成AIとして有名です。GUIとしてはAutomatic1111やComfyUIなどがあります。Automatic1111はtxt2imgの他...
2025年技術ブログ集

チャットボットのカスタマイズ

その1 生成AIアプリの開発(チャットボット) 以前、Llama3.2などの軽量モデルとRAGデータを使って獣医先生と会話する専用チャットボットアプリを作りました。以下に示します。生成AIプリ① | TWINKLE TEC日経ソフトウェア2...
2025年技術ブログ集

画像分類アプリ

その1 画像分類の歴史 2015年Tensorflowがwindows対応し、2017年SonyからNNC(Neural Network Console)がリリースされました。コードレスで画像分類ができる優れものでCNNのほかResnetモ...
2025年技術ブログ集

生成AIプリ①

その1 生成AIアプリの開発(チャットボット) これまでは、OpenwebUIやAutomatic1111などのUIツールを使って生成AIの勉強をしてきましたが、そろそろpythonでアプリを作りたいと思い始めています。色々と書籍を買って読...
2025年技術ブログ集

ローカルVLMの評価

その1 各種ローカルVMと画像診断試験(胸部レントゲン画像) Meta社が提供するllama3.2-visionは軽量(11bで7.8GB)のマルチモーダルモデルです。写真の説明や、表の読み取り、グラフの読み取り、朝食の写真からカロリー計算...
2025年技術ブログ集

ローカル生成AI環境整備状況

その1 パソコンいじりの復活 マイローカル生成AIブームが始まって半年たちました。私のローカル生成AIの環境も省スペース化をはかっています。まず前半はタワーケースからオープンフレームにしたことで40%の省スペース化が出来ることが判り、邪魔に...