使用Google Vision API进行计算机视觉图像创意分析

介绍

计算机视觉可以用来从图像、视频和音频中提取有用的信息。它允许计算机看到并理解从视觉输入中可以收集到什么信息。在接收到视觉输入后，它可以在图像中收集有价值的信息，并确定必须采取的下一步。

Google Vision API是一种Google云服务，它允许使用计算机视觉从图像输入中提取有价值的信息。作为初学者，你可以使用此服务获得对图像的有意义的见解。下图显示了Google视觉API的工作原理。

上图显示了Google Vision API的功能。Google Vision API可以识别广告图像中的面部表情、文本和主要颜色。面部表情清楚地显示了一个人的喜悦表情，文字描述了“LEARN MORE”一词，主导色显示了图像中前10个主导色。

我们可以看到，通过利用谷歌视觉API功能，我们可以从图像中获得很多见解。例如，假设我们想知道广告图像中的哪些因素导致客户点击并查看我们的广告。这可以通过使用Google视觉API服务来发现。

本文将主要关注如何在图像中获得洞察力因素，以及我们可以从特定图像中获得什么洞察力。我们不会使用广告图片示例，因为由于公司保密，它无法发布。相反，我们将使用Kaggle数据集中可用于数据分析的产品图像。

数据集

该项目的数据集图像基于Kaggle的时尚产品图像数据集。因为数据集包含大量来自电子商务网站的产品图像，我们只会获取一小部分图像，这些图像可以用于我们的创意分析。此数据集许可证允许你复制、修改、分发和执行工作。

设置Google云视觉API

在开始之前，我们必须首先从GoogleCloud服务配置visionAPI服务。可在此处找到分步说明。但是，为了让事情变得更简单，我们将一步一步地向你展示如何从Google云服务设置API。

（注意：你必须从自己的Google Cloud帐户配置此API；我们不会在本教程中向你提供包含机密Google Cloud密钥的文件）。

步骤1：登录Google Cloud Project，然后从主页选择“转到API概述”。

步骤2：选择“启用APIS和服务”，然后搜索并启用Cloud Vision API。

步骤3:转到凭据，然后单击“创建Credentials”，然后单击服务帐户。

步骤4：输入你的服务帐户信息（你可以跳过可选部分），然后单击“完成”。

步骤5：导航到你创建的服务帐户。转到KEYS，然后“ADD KEY”和“Create new KEY”。

步骤6：创建JSON密钥类型，然后下载JSON文件并将其放置在Python脚本的工作目录中。

安装必要的库

在开始计算机视觉建模之前，我们必须首先安装所需的库。我们将安装的第一个库是google-cloud-vision，它用于计算机视觉模型检测。我们可以在访问Google Cloud Vision API后使用此库。

pip install google-cloud-vision

下一个库是webcolors，当我们需要将颜色检测中的十六进制颜色数转换为我们所知道的最接近的颜色名称时，它非常有用。

!pip install webcolors

导入必要的库

安装必要的库后，我们将它们导入到脚本中。我们将从谷歌云库中导入视觉，用于视觉建模检测。对于数据预处理，使用了Ipython、io和panda等其他库。

from IPython.display import Image

from google.cloud import vision_v1 as vision

import io

import pandas as pd

import os

Webcolors用于将十六进制颜色格式转换为我们熟悉的颜色名称。KDTree用于查找CSS3库中最接近的颜色匹配。KDTree提供了一组k维点的索引，可用于快速查找任何点的最近邻居。

from scipy.spatial import KDTree

from webcolors import hex_to_rgb

from webcolors import CSS3_HEX_TO_NAMES

在python脚本上激活Google视觉API

将JSON文件放入目录后，我们必须在Python脚本中激活GoogleCloudVisionAPI服务。

# Activate Google vision API using service account key

client = vision.ImageAnnotatorClient.from_service_account_json("vision-api.json")

image = vision.types.Image()

标签检测

可以使用标签检测来检测图像中的任何标签。LabelAnnotation可用于标识图像中的常规对象、位置、活动、产品和其他内容。

下面的代码描述了如何从时尚数据集的图像中提取标签信息。

# Import the picture

pics = ["pic/label.png"]

for pic in pics:

print("=" * 79)

print("File:", pic)

display(Image(pic, width = 500))

with io.open(pic, "rb") as image_file:

parse = image_file.read()

query = {"image": {"content": parse},

"features": [{"type_": "LABEL_DETECTION"}]}

response = client.annotate_image(query)

# Label detection

labels = response.label_annotations

print("Labels:")

if labels:

for index, label in enumerate(labels):

if index != len(labels) - 1:

print(label.description, end = ", ")

else:

print(label.description, end = "")

else:

print("[None]", end = "")

===============================================================================

File: pic/label.png

从这张图片中，我们可以看到谷歌视觉API检测到几个通用标签，例如：

· 面部表情（微笑）

· 人体（面部、关节、皮肤、手臂、肩部、腿部、人体、袖子）

· 对象（鞋）

尽管视觉识别了许多标签，但一些一般物体被错误识别，没有被提及。视觉将凉鞋图像误认为鞋子。它也无法识别上图中的衣服、叶子植物、杯子和椅子。

物体检测

对象检测可用于检测图像中的任何对象。与标记不同，对象检测主要关注检测的置信水平。LocalizedObjectAnnotation扫描图像中的多个对象，并显示矩形边界内的对象位置。

# Import the picture

pics = ["pic/object.png"]

for pic in pics:

print("=" * 79)

print("File:", pic)

display(Image(pic, width = 500))

with io.open(pic, "rb") as image_file:

parse = image_file.read()

query = {"image": {"content": parse},

"features": [{"type_": "OBJECT_LOCALIZATION"}]}

response = client.annotate_image(query)

# Object Localization detection

objects = response.localized_object_annotations

if objects:

print("Number of objects found: {}".format(len(objects)))

for obj in objects:

print("{} (Confidence: {})".format(obj.name, obj.score))

print(" Normalized bounding polygon vertices: ")

for vertex in obj.bounding_poly.normalized_vertices:

print(" • ({}, {})".format(vertex.x, vertex.y))

else:

print("[None]")

===============================================================================

File: pic/object.png