Skip to content

1.4-常用数据集使用

智星云盘的使用和公开数据集下载


智星云盘是提供给智星云用户的网络存储服务:

· 免费空间:5GB。(注意: 请勿超额使用,系统会随机自动删除多余文件)

· 如需更多存储空间,可联系客服扩容。(微信: 18116215393)

· 云盘在用户注册后即开启,不随所租用GPU服务器的停止而停止。

· 上传和下载使用SFTP协议,使用sftp软件或者命令行,不通过网页端。

· 用户可以在创建GPU服务器前先将数据传到云盘,再创建GPU服务器,然后把数据从云盘传到GPU服务器。(适合用户自身网络慢的情况)

· 若用户自身网速快,也可以创建GPU服务器后直接上传到GPU服务器上。


云盘登录方式:

地址1(首选): pan.blockelite.cn

地址2: 124.131.239.186

地址3: 60.235.235.22

端口: 15022

用户名:小程序注册的手机号

密码:查看小程序后台右下角,我的 -> 我的云盘 - > 密码

云盘的使用:

  1. 从用户本地上传下载,建议使用Filezilla客户端软件,可断点续传。 官方下载地址:https://www.filezilla.cn/download/client

​ 其它下载地址:请自行搜索

 a.   Filezilla的用法,请查看智星云小程序头条的《智星云GPU使用教程- Ubuntu系统》
  1. 从GPU服务器对云盘数据进行上传下载:

    a. 如果您使用VNC登录GPU服务器,可在左上角菜单栏找到Internet -> Filezilla,使用预装好的Filezilla客户端软件与云盘服务器进行数据传输。

    b. 如果您只使用SSH登录GPU服务器,可以使用sftp命令与云盘进行交互:

    * 登录: sftp -P 15022 <手机号>@pan.blockelite.cn  (-P 是大写)
    
    * 使用 ls 命令列出目录,使用 "cd CloudData" 命令进入数据根目录
    
    * 使用 "get <文件名>", 从云盘下载文件到本地当前目录
    
    * 使用 "get -r <文件夹名>", 从云盘下载目录到本地当前目录
    
    * 使用 "put <文件名>", 把当前目录的本地文件上传到云盘
    
    * 使用 "put  -r <文件夹名>", 把本地当前目录上传到云盘
    
  2. 请将您的数据放在CloudData目录下,根目录没有写入权限。


公开数据集免费下载

为方便深度学习用户,智星云提供了公开数据集的免费下载。公开数据集在您的云盘空间的PUBLIC_DATASET目录。如果您需要的公开数据集不在上述列表中,可联系客服添加。已有数据集列表:

数据集名称 数据集大小 数据集简介
01.DIV2K 7.2G 超分辨图像重建
02.Flickr2K 21G 超分辨图像重建
03.VOC_2012 3.6G 主要是针对视觉任务中监督学习提供标签数据
04.VOC_2007 869M 主要是针对视觉任务中监督学习提供标签数据
05.DeepLesion 222G 最大开源临床医疗图像数据集
06.ImageNet_2012 145G 2012年图像网大规模视觉识别挑战
07.CrowdHuman 14G 旷世发布的用于行人检测的数据集,图片数据大多来自于google搜索
08.Market-1501 1G 行人重识别
09.OpenSLR_12 58G 语音识别
10.OpenSLR_11 5.2G 语音识别
11.Cityscapes 70G 包含大量街道图片、视频用来训练识别的数据集。
12.mnist 12M 提供灰度手写数字图片
13.CUB_200_2011 1.1G 鸟类数据集
14.vision.standford 2.8G
15.LUNA16 49G LUNA16数据集是最大公用肺结节数据集LIDC-IDRI的子集,LIDC-IDRI它包括1018个低剂量的肺部CT影像。LIDC-IDRI删除了切片厚度大于3mm和肺结节小于3mm的CT影像,剩下的就是LUNA16数据集了
16.HIE 1.4G
17.DOTA 19G 目标检测数据集,大量航拍图片
18.COCO_2014 26G 微软发布的 COCO 数据库是一个大型图像数据集, 专为对象检测、分割、人体关键点检测、语义分割和字幕生成而设计
19.COCO_2015 13G 微软发布的 COCO 数据库是一个大型图像数据集, 专为对象检测、分割、人体关键点检测、语义分割和字幕生成而设计
20.COCO_2017 28G 微软发布的 COCO 数据库是一个大型图像数据集, 专为对象检测、分割、人体关键点检测、语义分割和字幕生成而设计
21.sceneflow 104G 所有的数据都是960x540分辨率的立体图片
22.AI_challenge 1G 细粒度用户评论情感分析数据集
22.AI_challenge 22G 细粒度用户评论情感分析数据集
23.KITTI 25G KITTI主要是针对自动驾驶领域的图像处理技术,主要应用在自动驾驶感知和预测方面,其中也涉及定位和SLAM技术
24.cifar-10 163M CIFAR-10是一个更接近普适物体的彩色图像数据集
25.Places 7G 场景识别数据集
26.img_align_celeba 1.4G 人脸数据集
28.mpii_human_pose_v1 12G 人体姿势估计数据集
29.Kinetics-400 132G 包括了四百种的人体动作类别
30.something-somethingV2 19G 大型的带有标签的记录了人类与日常生活中的一些物体之间的动作数据集
32.somethingsomethingV1 24G 大型的带有标签的记录了人类与日常生活中的一些物体之间的动作数据集
33.coco_2018 88G 微软发布的 COCO 数据库是一个大型图像数据集, 专为对象检测、分割、人体关键点检测、语义分割和字幕生成而设计
34.LUSN 157G LSUN Dataset 是一个大规模图像数据集,其基于人类在循环中进行深度学习的构建,包含 10 个场景类别和 20 个对象类别,共计约 100 万张标记图像
35.iccv-workshop 32G
36.multicoil_challenge 56G
37.human3.6m 26G 3D人体姿态估计
38.gat5 58G 深度学习与自动驾驶领域的数据集
39.sceneflow 219G
40.ntu-rgb+d60_skeleton 5.8G 数据集提供了60种动作,3种拍摄角度,多种互动场景和多种演员设置(年龄、性别覆盖比较全面),同一动作可能重复表演(站姿,坐姿)
41.urban3D 18G 城市规模点云数据集
42.Tencent_AILab_ChineseEmbedding 6.4G 腾讯开源词向量