实战 | Python 爬虫 + Pandas 打造家装产品智能分析工具

在现代家居电商行业中，竞争愈发激烈，如何从海量的商品信息中提取出有价值的数据，帮助商家做出决策，已成为关键。利用 Python 爬虫 获取产品信息，并结合 Pandas 进行数据分析，能够帮助我们在众多商品中提取出关键指标，如价格走势、销量变化等。本文将带你从零开始，构建一个 家装产品智能分析工具，利用爬虫抓取家装产品数据，并结合 Pandas 进行分析，帮助你洞察市场趋势，提升电商销售策略。

系统架构设计

在实现这个家装产品智能分析工具时，整个流程可以分为以下几个主要步骤：

数据抓取：使用 Python 爬虫从家装电商平台（如淘宝、京东、天猫等）获取商品信息，包括商品名称、价格、销量等。数据存储与清洗：将爬取到的数据进行存储、清洗和处理，去除冗余和无效信息。数据分析：利用 Pandas 库对数据进行深入分析，探索价格、销量等因素的关系，提取出有价值的市场趋势。数据可视化：通过数据可视化工具，如 Matplotlib 或 Plotly，将分析结果以直观的图表呈现出来，帮助决策者做出更精准的判断。

一、数据抓取

我们将以淘宝为例，抓取家装产品的商品名称、价格、销量、评论数等信息。使用 requests 和 BeautifulSoup 两个库来发送 HTTP 请求和解析网页。

1.1 安装所需库


pip install requests
pip install beautifulsoup4
pip install pandas
pip install matplotlib

1.2 示例：抓取家装产品数据


import requests
from bs4 import BeautifulSoup
import pandas as pd

# 发送请求并获取页面内容
def fetch_product_data(page):
    url = f'https://s.taobao.com/search?q=%E5%AE%B6%E8%A3%85&s={page * 44}'  # 模拟分页
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
    response = requests.get(url, headers=headers)
    return response.text

# 解析网页内容并提取商品信息
def parse_product_data(html):
    soup = BeautifulSoup(html, 'html.parser')
    items = soup.find_all('div', class_='item J_MouserOnverReq')

    product_data = []
    for item in items:
        try:
            name = item.find('a', class_='J_ClickStat').text.strip()
            price = item.find('strong').text.strip()
            sales = item.find('div', class_='deal-cnt').text.strip().split('人')[0]
            product_data.append([name, price, sales])
        except AttributeError:
            continue
    return product_data

# 获取并解析数据
product_data = []
for page in range(0, 5):  # 假设爬取前5页的数据
    html = fetch_product_data(page)
    page_data = parse_product_data(html)
    product_data.extend(page_data)

# 将数据保存为DataFrame
df = pd.DataFrame(product_data, columns=['商品名称', '价格', '销量'])
df.to_csv('house_decor_products.csv', index=False)
print(df.head())

在这个例子中，我们通过 requests 获取网页 HTML，使用 BeautifulSoup 解析 HTML 并提取商品名称、价格和销量数据。通过 for page in range(0, 5) 实现分页爬取，每次爬取 44 条数据，并将所有数据保存到 CSV 文件中。

二、数据存储与清洗

爬取到的数据往往是杂乱的，含有许多无效信息，因此数据清洗是非常重要的。我们可以利用 Pandas 库来进行数据的清洗和预处理。

2.1 数据清洗与预处理


# 读取 CSV 文件
df = pd.read_csv('house_decor_products.csv')

# 数据清洗：去除空值、去除不必要的字符
df['价格'] = df['价格'].replace({'¥': '', ',': ''}, regex=True).astype(float)
df['销量'] = df['销量'].replace({'人付款': '', ',': ''}, regex=True).astype(int)

# 查看清洗后的数据
print(df.head())

# 处理缺失值（如果有）
df.dropna(inplace=True)

在数据清洗过程中，我们首先去掉了价格字段中的人民币符号（¥）和千位分隔符（,），然后将它们转换为浮动类型。同样地，我们对销量字段进行了清洗，去掉了“人付款”字样，并将其转换为整数类型。最后，利用 dropna() 方法去除缺失值。

三、数据分析

在数据清洗完成后，我们可以使用 Pandas 来进行更深入的分析。例如，我们可以分析家装产品的价格与销量之间的关系，或者找出最畅销的产品。

3.1 分析价格与销量的关系


# 数据分析：价格与销量的关系
import matplotlib.pyplot as plt

# 画出价格与销量的散点图
plt.figure(figsize=(10, 6))
plt.scatter(df['价格'], df['销量'], alpha=0.5)
plt.title('价格与销量的关系')
plt.xlabel('价格')
plt.ylabel('销量')
plt.show()

# 计算价格与销量的相关系数
correlation = df['价格'].corr(df['销量'])
print(f"价格与销量的相关系数: {correlation}")

通过散点图，我们可以直观地看到价格与销量之间的关系。如果价格较低的商品销量较高，反之则可能销量较低。通过计算相关系数，我们能够进一步量化价格与销量的关系。

3.2 找出最畅销的产品


# 按销量排序，找出最畅销的前10个产品
top_selling_products = df.sort_values(by='销量', ascending=False).head(10)
print(top_selling_products[['商品名称', '销量']])

通过对销量进行排序，我们可以轻松找到最畅销的家装产品，帮助商家和平台了解市场需求，优化库存和营销策略。

四、数据可视化

为了更好地展示分析结果，我们可以利用 Matplotlib 或 Plotly 创建图表和图形，使得数据更加直观。

4.1 使用 Matplotlib 绘制数据可视化图表


# 绘制价格分布直方图
plt.figure(figsize=(10, 6))
plt.hist(df['价格'], bins=30, color='skyblue', edgecolor='black')
plt.title('家装产品价格分布')
plt.xlabel('价格')
plt.ylabel('产品数量')
plt.show()

通过价格分布的直方图，我们能够看到大部分家装产品的价格集中在哪个区间，从而了解市场上常见的价格区间，帮助商家制定定价策略。

4.2 使用 Plotly 创建交互式图表


import plotly.express as px

# 创建交互式散点图
fig = px.scatter(df, x='价格', y='销量', color='销量', title='价格与销量关系图')
fig.show()

Plotly 提供了非常丰富的交互式图表功能，能够更直观地展示分析结果，并且支持在线查看和分享，适合用于展示给团队或客户。

五、总结

通过本教程，我们利用 Python 爬虫 抓取了家装电商平台上的产品数据，使用 Pandas 对数据进行了清洗、分析，并结合 Matplotlib 和 Plotly 进行了可视化展示。整个系统能够帮助商家或电商平台从海量数据中提取有价值的市场信息，为决策提供数据支持。

未来，你可以根据需要扩展该系统，比如加入更多的电商平台、增加更多的分析维度，或者将爬虫数据实时抓取并存入数据库中，进行更加高效的数据处理和分析。

希望这篇文章能够帮助你更好地理解如何使用 Python 爬虫与 Pandas 构建智能分析工具，并在实际工作中为你提供数据驱动的决策支持。