#collmz

介绍

COLL-MZ项目主要用于采集煎蛋、飞G、妹子图、Xiuren网站以及本地类似图片、视频等文件并展示到浏览器中。

特别申明

该项目主要是个人学习golang而开发的第一个试水程序请勿将该项目用于非法用途。

特点

  • 专为闷骚程序员提供;
  • 采集各大妹子图片数据;
  • 手动采集、定时采集2小时进行一次
  • 在浏览器快速浏览相关采集数据;
  • 可整理本地文件、视频、漫画、文本等数据;
  • sqlite3开放式数据库可自行构建访问方便二次开发
  • 可根据具体需求,构建其他网站的采集程序;
  • 纯Golang实现。

界面预览

浏览界面

采集界面

使用方法

1、下载项目到本地任意文件

2、运行collmz-server-..exe文件

3、通过浏览器访问http://localhost:8888可以看到项目可在./config/config.json文件内自行修改端口

4、初始用户名admin@admin.com密码adminadmin

代码编译环境搭建步骤

1、安装golang语言运行环境配置好环境变量

2、安装gcc编译环境并配置好环境变量推荐使用mingw下载地址https://sourceforge.net/projects/mingw-w64/

3、安装golang第三方库

* goquery
github.com/PuerkitoBio/goquery
* sqlite3
github.com/mattn/go-sqlite3
* session
github.com/gorilla/sessions

4、下载该项目代码到golang工作目录中任意目录建议使用git克隆。

5、因为是在win10 x64下开发、编译的所以只能保证该环境下运行良好其他环境请自行排错。

项目地址

GIthubhttps://github.com/fotomxq/coll-mz

OSchinahttps://git.oschina.net/fotomxq/collmz

项目协议

Apache License

Version 2.0, January 2004

http://www.apache.org/licenses/

FAQ

1、可以不部署代码直接使用么

可以下载整个项目之后运行exe文件即可。项目内的controller文件夹可自行删除。

2、编译失败是什么情况

常见的错误主要出在sqlite3上因为该第三方库是用C实现的需要用到GCC编译器也就是mingw所以如果安装错版本、没有配置对环境变量都会报错。64位系统一定要使用64位的GCC编译。

3、想在此结构上构建其他采集器怎么做

在controller下有coll-children-...go的文件这些文件都是对应的采集器代码可参考这些代码写自己需要的采集项目。

可使用构建好的相关框架首先在coll.go内注册好采集器这样可直接通过浏览器访问到采集器然后自行建立go文件写入代码这样就可以了。

注意如果是正在开发的项目CollChildren.dev尽量等于true这样在浏览器端内容易区分。

CollOperate.Auto...(),这几个方法是集成了大部分情况下采集工作,可以极大方便采集工作。

关于项目逻辑、思维导图

4、采集速度如何

由于sqlite3无法多开线程所以一个采集器只能对应一个并发操作如果发现重复运行、在采集过程中浏览数据会自动阻止。

每个采集器有各自的线程。

5、为什么某些采集器不能用

个别采集器因为国内局域网限制,需要自行解决问题。

其次极个别采集的网站存在JS动态加载功能以及各种阻拦采集工作的功能所以未来看个人开发能力提升后再解决。这类采集器都标记了dev状态你可以在采集界面中看到。

6、如何修改初始用户名和密码

在写这段文本的时候我才想起来没有做这个页面所以暂时请用sqlite工具打开./content/database/coll-mz.sqlite数据库修改其中的user表数据即可。

Description
使用golang实现,采集各种网站妹子图库和本地类似数据的程序,浏览器可访问采集器和相关数据,可部署到服务器或本地直接运行。
Readme Apache-2.0 6.9 MiB
Languages
Go 72.3%
JavaScript 17.2%
HTML 7.3%
CSS 3.2%