Spider

自己写一个手机菜谱APP

May 18, 2018

总结

RN, Golang, Python, Spider, App

需要的技术及工具：

Python3 + Selenuium
Golang net/http
React-Native 相关（使用了react-navigation）
MongoDB
Redis

代码地址：

github.com/yeqown/recipe

项目构思及构成 #

食谱类型的App，应用市场肯定有更好的的食谱APP。所以自己开发的目的，首先是写代码，其次是定制APP～好的，现在化身产品经理，设计一下APP有哪些功能：

每日菜谱推荐，推荐可更换
每天需要准备的材料提醒
发现更多菜谱
分类筛选菜谱
搜索菜谱
查看菜谱详情
设置（不知道设置啥，提前准备吧）

设计稿？不存在的，随心所欲。

现在分析下我需要做的事情：

能跑起来的APP，与restful web api 交互。
能跑起来的web-api，提供菜谱数据，筛选，推荐，搜索等功能
能跑起来的简易spider，从网上获取菜谱信息。（这个爬虫能解析动态生成网站就够用了，姑且称之为爬虫吧）

没有考虑大量数据，因此爬虫并不通用，只适合特定XX网站。

实战爬虫 #

这个APP里面最重要的就是菜谱数据了，那么开发之前，需要明确的数据格式，如下：

{
    "name": "name",
    "cat": "cat",
    "img": "img_url",
    "mark_cnt": 19101,
    "view_cnt": 181891,
    "setps": [
        {
            "desc": "",
            "img": "",
        },
        // more step
    ],
    "material": {
        "ingredients": [
            {
                "name": "ingredients_name",
                "weight": "ingredients_weight",
            },
            // more ingredients
        ],
        "seasoning": [
            {
                "name": "seasoning_name",
                "weight": "seasoning_weight",
            },
            // more seasoning
        ],
    },
    "create_time": "2018xxxxxx",
    "update_time": "2018xxxxxx",
}

目标 #

前提：无法直接获取到该网站的服务API，才使用爬虫间接获取数据。
...