Interface編集部

ailia SDKを試す<第20回> QWEN2-VLで画像説明文の生成
名称 (Name) | 内容 (Content) |
---|---|
OS | Ubuntu24 |
CPU | Intel(R) Core(TM) Ultra 7 265K |
RAM | 128GB |
GPU | NVIDIA GrForce RTX 5060 16GB |
Python | python-3.10.11-amd64 |
ailia-SDK | Version 1.5.0.0 |
ailia-models | v1.4.0 (https://github.com/axinc-ai/ailia-models) |
cuda | Cuda compilation tools, release 13.0, V13.0.88 |
表1 検証に使用したシステム構成

環境 | 生成した解説 |
---|---|
env_id: 1 | The image depicts a serene beach scene with a woman and a dog. The woman is sitting on the sand, wearing a plaid shirt and black pants, and appears to be smiling. She is giving a high-five to the dog, which is sitting on the sand next to her. The dog is wearing a colorful harness and appears to be wagging its tail. The background shows the ocean with gentle waves, and the sky is clear with a soft glow, suggesting either sunrise or sunset. The overall atmosphere is peaceful and joyful. |
表2 デフォルト設定での生成結果
●任意の画像を入力して精度を検証
今回の検証には,これまでと同じ新幹線の駅ホーム画像(図1)を用います.駅のホームは安全面や時刻の確認など注意すべき点が多く,生成される説明文の質を評価する題材として適しています.今回の検証では,画像の解像度を変えることで,生成される解説文の内容にどのような違いが出るかを確認します.プロンプトは,
******
Describe this image.
******
です.

解像度 | 処理時間[s] | 生成した解説 |
---|---|---|
320×180 | 19.79 |
The image depicts a high-speed bullet train, specifically a Shinkansen, at a station. The train is sleek and modern, with a white body and a streamlined design. The platform is marked with yellow lines, and there are several passengers visible, including a person standing near the train. The station appears to be well-lit and clean, with a modern design. The overall scene suggests a busy and well-maintained transportation hub. |
1024×576 | 60.86 |
The image depicts a modern bullet train, specifically a high-speed rail vehicle, stationed at a platform in what appears to be a train station. The train is sleek and white, with a streamlined design typical of bullet trains, which are designed to reduce air resistance and increase speed. The train has two large, circular windows on the front, which are likely used for observation and communication purposes. The platform is well-lit and appears to be clean and organized. There are several people visible on the platform, including a person standing near the front of the train, possibly a conductor or a station staff member. The platform has a yellow safety line, which is a standard feature in train stations to indicate the edge of the platform. In the background, there are additional train stations or platforms, suggesting that this is part of a larger network of high-speed rail lines. The architecture of the station is modern, with large glass windows and a clean, functional design. There are also some signs and information boards visible, which are typical in train stations for providing information to passengers. Overall, the image captures a moment in a busy train station, with the bullet train as the central focus. The clean and well-maintained environment indicates a well-organized and efficient transportation system. |
2016×1136 | 110.01 |
The image depicts a modern bullet train, specifically a Shinkansen, stationed at a platform in a train station. The train is sleek and white, with a streamlined design that is characteristic of high-speed rail technology. The front of the train features two large, circular windows and a sleek, aerodynamic nose. The train is labeled “KYUSHU SHINKANSEN 800” and has the number “U007” on its rear. The platform is well-lit and has a yellow safety line, and there are several people visible in the background, including a security guard and other passengers. The station appears to be well-maintained and modern, with a clean and organized layout. |
表3 解像度ごとの生成結果
解像度 | 処理時間[s] | 生成した解説 |
---|---|---|
320×180 | 20.54 | この画像は、日本でよく見かける高速鉄道の車両です。車両は白色で、前方に大きな窓があり、運行速度が速いことを示しています。車両の前面には「SHINKANAN」の文字が書かれています。この車両は「新幹線」の通称で、日本国内の都市間を高速で往復する鉄道です。 |
1024×576 | 61.86 | この画像には、駅のホームに停車中の高速鉄道車両が写っています。車両は白色で、前方には大きな窓があり、車体には文字が書かれています。車両の前面には、2つの大きな窓があり、車体の前面には文字が書かれています。車両の前面には、2つの大きな窓があり、車体の前面には文字が書かれています。車両の前面には、2つの大きな窓があり、車体の前面には文字が書かれています。車両の前面には、2つの大きな窓があり、車体の前面には文字が書かれています。車両の前面には、2つの大きな窓があり、車体の前面には文字が書かれています。車両の前面には、2つの大きな窓があり、車体の前面には文字が書かれています。車両の前面には、2つの大きな窓があり、車体の前面には文字が書かれています。車両の前面には、 |
2016×1136 | 110.01 | この画像には、高速鉄道の車両が写っています。車両は白色で、前方には大きな窓があり、後方には小さな窓があります。車両の名前は「KYUSHU SHINKANSEN 800」で、車両の後ろには「U007」の番号が表示されています。車両の前面には、飛行機の形状を模したデザインが施されています。車両は、駅のホームに停車しています。背景には、駅の構内が見え、人々がいることがわかります。 |
表4 日本語プロンプトによる生成結果
解像度/環境 | 処理時間[s] | 生成した解説 |
---|---|---|
320×180/env_id: 2 | 9.79 | CPU-IntelMK と 同じ内容 |
320×180/env_id: 3 | 4.53 | I’m here. |
1024×576/env_id: 2 | 27 | CPU-IntelMK と 同じ内容 |
1024×576/env_id: 3 | — | It’s a picture of a a a a a a a a a a a a … |
2016×1136/env_id: 2 | — | 中止(コア・ダンプ) |
2016×1136/env_id: 3 | — | 中止(コア・ダンプ) |
表5 GPU実行における生成結果