[Перевод] Как работал компьютеризированный поиск за сорок лет до Google

Чарли Борн был специалистом по компьютеризированному поиску ещё за сорок лет до появления Google. Музей компьютерной истории недавно завершил каталогизацию его уникальной коллекции материалов, документирующих историю систем онлайн-поиска и информации, начиная с 1950-х годов.

Многие считают, что системы поиска и просмотра информации онлайн начали развиваться вместе с вебом в 1990-х, мгновенно перенеся нас от перебирания вручную пыльных карточных каталогов к выдаваемым за миллисекунду ответам современных поисковых движков. Те, кто давно знаком с компьютерами, могут припомнить пару более ранних компьютеризированных сервисов, например LexisNexis для журналистов и юристов или дорогостоящий Dialog.

6g4gcjmppozumxbjcachlrsgy0e.jpeg
LexisNexis
Однако реальная история длиннее и богаче. Прототипы полнотекстового онлайн-поиска появились (частично благодаря работе Чарли) в начале 1960-х, а к концу того же десятилетия уже были коммерциализированы. Однако история докомпьютерного машинного поиска уходит корнями к сортировщикам перфокарт. Они были придуманы в 1830-х и изготавливались в 1890-х, в период активного прогресса в области карточных каталогов и других способов ручного поиска. Интерактивный поиск в реальном времени впервые был реализован в 1920-х, приняв образ встроенного в стол «поискового движка» на основе микроплёнок, изобретённого Эмануэлем Голдбергом.

К концу 1950-х производители продавали правительствам, корпорациям и военным причудливые сочетания технологий хранения и извлечения информации, напоминающие машины Руба Голдберга: Rapid Selectors, способные выполнять поиск 330 страниц в секунду на микроплёнке, магнитные носители или микроплёнка, встроенная в перфокарты, а также различные футуристически выглядящие аппараты для их просмотра. Некоторые из них уже управлялись компьютерами, и начали появляться серьёзные конференции, посвящённые тому, как компьютеры вскоре совершат революцию в этой области.

q20xgjn-j2oumxpvdlbecgftcmi.png


Современная иллюстрация работы концепций 1830-х Семёна Корсакова на основе перфокарт для исследования идей (Идеоскоп). Источник: Википедия

Именно в такой исторической ситуации Чарли Борн, студент выдающегося компьютерного инженера Гарри Хаски, обратился к задаче поиска информации по рекомендации ещё одного своего профессора в Калифорнийском университете Дугласа Энгельбарта. Как мы увидим, бо́льшую часть своей долгой карьеры он занимался пересечением двух областей исследований.

Ранняя история онлайн-информации остаётся неизвестной потому, что в основном она развивалась под эгидой исследований библиотечного дела и профессиональных организаций наподобие Ассоциации информационных наук и технологий (Association for Information Science and Technology, ASIS). Даже в последние десятилетия профессии, связанные с компьютерами и извлечением информации, в основном действовали в параллельных направлениях, время от времени переопыляясь друг от друга — например, когда финансируемый Национальным научным фондом (NSF) проект Digital Library Project привёл к появлению Google1.

4lbrmarbojrmacg8aafuhf6ygdg.jpeg


Принцип работы машины поиска микроплёнок Голдберга, из чертежа к патенту.

После выпуска из университета Чарли устроился на работу в Stanford Research Institute (теперь SRI International), где он производил оценку и писал спецификации для множества систем поиска данных: системы на микроплёнках для обработки трёх миллионов записей для ВВС США, автоматизированной системы координации сбора и перевода литературы стран соцлагеря, базы данных ВМФ США для инвентаризации всех видов радиосигналов вражеского оборудования для применения на судах, и так далее.

Его профессор Дуг Энгельбарт вскоре сам перешёл в SRI, и в 1963 году Чарли помогал ему в передовом эксперименте, описание которого представлено в видео в конце статьи.

Чарли написал спецификацию к тому, что, вероятно, стало самым первым примером современного онлайн-поиска, при котором пользователь ищет полный текст документов на удалённом компьютере. Программированием занималась Линн Чайтин. Удалённый компьютер был одним из тех чудовищ, которые специально изготавливались для системы оповещения о ядерной опасности SAGE. Энгельбарт создал его благодаря финансированию, предоставленному гигантом компьютерных наук Джозефом Ликлайдером из ARPA.

Тест прошёл идеально, позволяя даже использовать булевы квалификаторы наподобие «and» и «or». Сам Ликлайдер проводил исследования, которые в 1965 году превратились в его книгу Libraries of the Future, предсказавшую, что к 2000 году вся литература будет находиться в онлайне, индексированной для поиска, а масштабную задачу каталогизации упростит слабый ИИ.

В 1963 году сам по себе компьютеризированный поиск не был чем-то новым. Все разработанные SRI (и многими другими) функции поиска, которые они тестировали, уже демонстрировались раньше в системах с групповой обработкой на основе перфокарт. Они включали в себя запросы на естественных языках, вычисление релевантности, поиск по основе слова и шаблонов, поиск с расстоянием и фонетический поиск, альтернативные и взвешенные поисковые термины, а также автоматический поиск по синонимам. Новым был поиск в реальном времени в прямой сессии с компьютером вместо загрузки стопки перфокарт и ожидания результата.

Сам Чарли был занят получением в 1963 году степени магистра Стэнфорда, ролью молодого отца и завершением своей первой книги. Methods of Information Handling выиграла награду American Documentation Institute (ADI) в категории «Книга года». В 1966 году Борн ушёл из SRI, став вице-президентом Information General Corporation и активно занимаясь консалтингом в информационной индустрии, что и продолжал делать на протяжении всей своей долгой карьеры.

Одним из первых его клиентов стало ЦРУ, для которого он выполнил оценку огромной компьютеризированной системы автоматического перевода перехваченных русскоязычных документов на английский язык (она ещё была не полностью готова). Среди других клиентов были Stanford University Libraries, ЮНЕСКО, Национальная академия наук США, Библиотека Конгресса, Национальная сельскохозяйственная библиотека США, Патентное ведомство США и ООН. Некоторые из проанализированных Чарли первых систем были полностью компьютеризированными, однако они обрабатывали образы, обычно содержащие аналоговый компонент, например, микроплёнку. До 1980-х годов компьютерная память была слишком дорогой для практической реализации высококачественной графики. Чарли также активно участвовал в работе профессиональных организаций, работая президентом ASIS, где помогал демонстрировать работу Дуга Энгельбарта своим коллегам из областей компьютерных технологий и теории информации.

yr8grfnewhylc__fr321dhs7x10.jpeg


Оборудование для поиска аналоговой информации, из книги Борна Methods of Information Handling.

В 1971 году он стал профессором Школы библиотечного дела и изучения информации Калифорнийского университета (теперь Школа информации), параллельно управляя инновационным Института библиотечных исследований Университета. Он руководил важной работой по переводу карточных каталогов Университета онлайн. Его книга 1980-х годов Technology in Support of Library Science and Information Service написана на основе этих экспериментов.

В 1977 году он перешёл в компанию Dialog Information Services, предоставлявшую передовые услуги онлайн-информации, проделав путь до вице-президента Отдела общей информации. Dialog стала одним из первых важнейших примеров пересечения информационных наук и компьютерной отрасли. Основатель компании Роджер Саммит в середине 1960-х работал в Лаборатории информационных наук Lockheed Missiles and Space Corporation. Он реализовывал свои идеи об итеративном поиске («диалоге» между пользователем и компьютером) в рамках отдельного отдела онлайн-поиска Lockheed. (Такой подход сильно отличался от системы современных поисковых движков, в которых для отсеивания нерелевантных результатов нужно выполнять новый поиск). Dialog лицензировал доступ к ведущим базам данных в различных областях, поиск по которым можно было осуществлять при помощи мощных инструментов компании. Хотя общий объём информации был намного меньше, чем в современном вебе, она была гораздо более релевантной и хорошо упорядоченной.

Однако пользование Dialog часто стоило больше 50 долларов в час (в современном эквиваленте). Даже на фоне снижения цен на компьютерное оборудование с середины 60-х до начала 90-х, основными затратами по-прежнему оставались подписки на увеличивающееся разнообразие баз данных. Dialog и его конкуренты наподобие LexisNexis были рассчитаны на корпоративные бюджеты. Для остальных пользователей такие возможности, как движки поиска по ключевым словам наподобие InfoSeek, AltaVista и Google, а также более традиционные каталоги наподобие ранней Yahoo! и Wikipedia, стали доступными только в эпоху веба.

Чарли уволился из Dialog в 1992 году и продолжил консалтинговую работу, параллельно готовя свою третью книгу. A History of Online Information Services, 1963–1976, выпущенная совместно с Труди Беллардо-Хан, опубликована в 2003 году. Она выиграла награду «Книга года» Association for Information Science and Technology (ASIS&T). Сейчас Чарли проживает в Менло-Парке.

О коллекции


Подробное описание коллекции Чарльза Борна можно найти здесь. Содержимое коллекции собиралось с 1947 по 2016 годы, оно состоит из материалов, относящихся к карьере Борна в сфере баз данных и поиска информации, в том числе его работы в Stanford Research Institute (теперь SRI International), Калифорнийском университете в Беркли и Dialog Information Services. Коллекция содержит папки с личными проектами Борна: статьями, презентациями и другими документами, связанными с его профессиональной работой, в том числе с его книгой A History of Online Information Services, а также с неопубликованной работой Cost Analysis of Library Operations. В коллекции также содержатся папки с размышлениями Борна на разные темы, в том числе об организациях, разрабатывающих поисковые системы, людях, работающих в этой отрасли и поставщиках услуг баз данных. Эти папки содержат технические отчёты, руководства, внутренние отчёты, вырезки, статьи, корреспонденцию, заметки с совещаний, а также фотографии и аудиозаписи. Кроме того, там содержится обширная коллекция периодических изданий, материалов конференций и книг, относящихся к интересам Борна в сфере компьютерных и информационных наук. Также там есть материалы некоторых конференций конца 1950-х и 1960-х по компьютеризированному поиску и просмотру информации.

В дополнение к статьям коллекция содержит примеры множества видов докомпьютерных носителей поиска информации, например, перфокарты со встроенной микроплёнкой.

skoewkk4hipspepz08bruc5tqt4.jpeg


В коллекции Борна есть примеры докомпьютерных носителей поиска информации. Это иллюстрация карт с краевым перфорированием из книги Борна 1963 года Methods of Information Handling.

Примечание о коллекции Борна от профессора Майкла Баклэнда


Майкл Баклэнд из Школы информации Калифорнийского университета в Беркли — ведущий специалист по информации, который познакомил меня с Чарли Борном и предложил Чарли передать свою коллекцию Музею компьютерной истории. Доктор Баклэнд был советником по «мировым мыслителям» докомпьютерной эпохи для веб-галереи нашей постоянной экспозиции Revolution; также он известен во всём мире благодаря своему потрясающему исследованию Zeiss-Ikon Эмануэля Голдберга. Полностью реализованный «поисковый движок» Голдберга 1920-х на микроплёнках на десять с лишним лет обогнал очень похожую на него концепцию Memex Вэнивара Буша.

Чарли Борн и его статьи


Майкл Баклэнд:

Когда я впервые встретил Чарльза Борна пятьдесят лет назад в 1969 году, он уже был ведущей фигурой в мире документации и информационных наук. Он активно работал председателем съезда предстоящего ежегодного собрания American Society for Information Science (ASIS) в Сан-
Франциско. Согласно его личному взгляду, съезд планировался для двух особых задач: приглашение участников из других профессиональных групп, интересы которых были близки ASIS, и привлечение внимания к новым техникам распространения и обмена информацией. К этому же относится внимание к онлайн-системам и к способам сопоставления участников в соответствии с их интересами. Также в то время он был избранным президентом ASIS, и этот статус был уникальным проявлением уважения со стороны его коллег. Позже мне посчастливилось стать одним из его коллег, когда он был профессором Школы библиотечного дела и изучения информации Калифорнийского университета, где он руководил инновационной многодисциплинарной исследовательской организацией Library Research Unit, участвовавшей в широком диапазоне полезных исследований систем хранения и поиска информации.

Чарли заработал свою репутацию не только благодаря своим способностям, но и самоорганизации. Он сделал своим бизнесом поиск людей, заинтересованных в управлении документами и данными, автоматизации библиотек, особенно в применении новых технологий, в том числе перфокарт и фотографии, а также расширяющегося применения цифровых технологий. Работая в SRI, он должен был знать самые современные решения решаемых им задач. Он постоянно стремился к тому, чтобы знать общую картину того, с чем он работает. Его приглашали работать над прикладными исследованиями и консультациями во множестве организаций, как в США, так и за рубежом.

Личные бумаги часто бывают разнородным, неполным и, по сути своей, эклектичным хаосом. Идеал чаще всего достижим, если собиравший их человек обладает тремя характеристиками: во-первых, он должен сохранить коллекцию, которая если не исчерпывающа, то хотя бы обширна. Другими словами, бумаги должны быть относительно полны. Во-вторых, он должен понимать рассматриваемые в бумагах темы и их соотношение с областью в целом. Третье требование: правильное упорядочивание бумаг. Эти качества встречаются нечасто, однако собранные Чарли Борном документы сильны во всех трёх аспектах.

То есть они являются архивом исторических бумаг, богатым и наиболее многообещающим ресурсом для будущего. Но это не только обещание. Уже есть доказательства их исторической ценности, продемонстрированные тем, что документы Чарли Борна стали основой энциклопедической «History of online information services, 1963–1976» (MIT Press, 2003). Благодаря гостеприимству Музея компьютерной истории сведения, полученные при помощи карьеры Чарльза Борна, сохранятся навсегда.

Примечания


  1. Steven Levy, In The Plex (p. 16), 2011, Simon & Schuster, Inc. Kindle Edition.


Дополнительные ресурсы


Интервью с Чарли Борном



На правах рекламы


Эпичные серверы от VDSina — это виртуальные машины с мощными процессорами от AMD и очень быстрым дисковым хранилищем на основе NVMe дисков. Широкий выбор конфигураций с посуточной оплатой. Рекомендуем попробовать прямо сейчас!

8p3vz47nluspfyc0axlkx88gdua.png

© Habrahabr.ru