[Перевод] 24 датасета для ритейла и ecommerce

image

Продуктовые датасеты


  • Fashion-MNIST: Идеально подходит для продуктовой категоризации. MNIST содержит почти 60 000 обучающих изображений и 10 000 тестовых изображений продуктов фэшн-индустрии в 10 классах.
  • Innerwear Data from Victoria«s Secret and Others: Данные с 600 000+ товаров нижнего белья, извлеченного из популярных торговых объектов. Включает в себя описание продукта, цену, категорию, рейтинг и многое другое.
  • Electronic Products and Pricing Data: Содержит список из более чем 7000 электронных продуктов.
  • Men«s Shoe Prices: Список содержащий 10 000 мужских ботинок и цен.
  • Women«s Shoe Prices: Список содержащий 10 000 женских туфель и цены.
  • eCommerce Item Data: Подходит для рекомендательных систем. Этот набор данных содержит артикулы и связанные с ними описания продуктов из каталога продукции бренда наружной одежды.
  • Fashion Products on Amazon.com: Это pre-crawled набор данных, созданный путем извлечения данных из Amazon. Он состоит примерно из 22 000 фэшн-товаров на Amazon.
  • E-commerce Tagging for Clothing: Содержит изображения с сайтов ecommerce с ограничивающими рамками, нарисованными вокруг рубашек, пиджаков, солнцезащитных очков и т. д. Он содержит 907 наименований, из которых 504 наименования были помечены вручную.


Датасеты розничных транзакций


  • Online Retail Dataset (UCI Machine Learning Repository): Содержит все транзакции за восьмимесячный период (01/12/2010–09/12/2011) для британской онлайн-розничной компании.
  • Brazilian E-Commerce Public Dataset: содержит более 100 000 анонимизированных заказов из Бразилии, сделанных на Olist (100 тыс. заказов) с 2016 по 2018 год производится на нескольких торговых площадках. Кроме того, он включает в себя множество измерений от статуса заказа, цены, оплаты и эффективности перевозки до реальных письменных отзывов клиентов.
  • Online Auctions Dataset: Датасет из розничной торговли, содержащий данные аукциона eBay по наручным часам Cartier, игровым консолям Xbox, КПК Palm Pilot M515 и бусам Swarovski.
  • Retailrocket Recommender System Dataset: Эти данные были собраны с реального ecommerce веб-сайта в течение 4,5 месяцев. Кроме того, он содержит информацию о поведении посетителей, включая такие события, как клики, добавление в корзину и транзакции.


 

Релевантность поиска в ecommerce


image

  • ECommerce Search Relevance: Содержит URL-адреса изображений, рейтинг на странице, описание каждого продукта, поисковый запрос, который привел к каждому результату, и многое другое из пяти основных англоязычных сайтов электронной коммерции.
  • Best Buy Search Queries NER Dataset: Содержит вручную помеченные поисковые запросы на bestbuy.com в поисковых запросах есть фразы, помеченные различными важными сущностями, такими как бренд, название модели, название категории и т. д.


 

Отзывы покупателей


image

  • Women«s E-Commerce Clothing Reviews: Еще один отличный ресурс для данных электронной коммерции, этот набор данных Kaggle содержит 23 000 реальных отзывов клиентов и рейтингов. Однако, поскольку это реальные коммерческие данные, вся информация была анонимизирована. Из-за этого ссылки на компанию в тексте обзора и теле были заменены на «ритейлер».
  • Amazon Commerce Reviews Set: Этот розничный набор данных используется для идентификации авторства в online Writeprint, который является новой областью исследований в области распознавания образов. Кроме того, чтобы проверить надежность алгоритмов классификации, мы определили 50 наиболее активных пользователей, которые часто публиковали отзывы.
  • Multidomain Sentiment Analysis Dataset: Более старый набор данных, содержащий данные о обзорах товаров по типу продукта и рейтингу. Кроме того, отзывы содержат Звездные оценки (от 1 до 5 звезд), которые при необходимости могут быть преобразованы в бинарные метки.
  • Amazon and Best Buy Electronics: Список из более чем 7000 онлайн-отзывов на 50 электронных продуктов. В дополнение к самому обзору набор данных включает дату, источник, рейтинг, название, метаданные рецензента и многое другое.
  • Grammar and Online Product Reviews: Содержит список из более чем 70 000 обзоров, которые могут быть использованы для нескольких вариантов использования машинного обучения. Например, вы можете оценить, как качество описания влияет на положительные и отрицательные отзывы о продукте в интернете.

Ecommerce


image

  • Annual Retail Trade Survey (ARTS): Содержит национальные оценки общих годовых продаж, операционных расходов и запасов, хранящихся за пределами Соединенных Штатов.
  • Economic Census: Экономическая перепись дает детальный портрет деловой активности в отраслях и сообществах раз в пять лет, начиная с национального и заканчивая местным уровнем.
  • E-Stats: This dataset by the US government reports the value of goods and services sold online whether over open networks such as the Internet. Датасет отчетов правительства США о стоимости товаров и услуг, продаваемых в онлайн через открытые сети (как Интернет).
  • EU External Trade Datasets: Датасет внешней торговли ЕС, содержит информацию о размере импорта, экспорта и торгового профицита, классифицированных по товарам, а также по странам происхождения или назначения.
  • ECommerce Sales by Merchandise Category 1999–2015: Содержит реальные данные переписи, которые показывают общий объем продаж электронной коммерции по товарным позициям и совокупный годовой темп роста с 1999–2015 годов.


image
Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя онлайн-курсы SkillFactory:

Читать еще


© Habrahabr.ru