Реферат «Применение информационных технологий в исследовании и

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Выпускная работа по

«Основам информационных технологий»

Аспирант

филологического факультета

Широкова Екатерина Александровна

Руководители:

д. филол. наук, профессор

Кожинова Алла Андреевна,

старший преподаватель

Апанасевич Татьяна Антоновна

Минск – 2010 г.

Оглавление TOC \o «1-6» \h \z \u

HYPERLINK \l «_Toc259227548» Список условных обозначений PAGEREF _Toc259227548 \h 3

HYPERLINK \l «_Toc259227549» Список иллюстраций PAGEREF _Toc259227549 \h 4

HYPERLINK \l «_Toc259227550» Реферат: «Применение ИТ в исследовании и описании безэквивалентной лексики» PAGEREF _Toc259227550 \h 5

HYPERLINK \l «_Toc259227551» Реферат: «Применение ИТ в исследовании и описании безэквивалентной лексики» PAGEREF _Toc259227551 \h 5

HYPERLINK \l «_Toc259227552» Введение PAGEREF _Toc259227552 \h 5

HYPERLINK \l «_Toc259227553» Глава 1. Обзор используемой литературы. PAGEREF _Toc259227553 \h 8

HYPERLINK \l «_Toc259227554» Глава 2. Описание методов и объектов исследования. PAGEREF _Toc259227554 \h 11

HYPERLINK \l «_Toc259227555» Глава 3. Основные результаты использования информационных технологий в исследовании и описании безэквивалентной лексики. PAGEREF _Toc259227555 \h 15

HYPERLINK \l «_Toc259227556» 3.1 Поисковые системы Google и Яндекс и их сравнительные возможности при поиске литературы по языкознанию. PAGEREF _Toc259227556 \h 16

HYPERLINK \l «_Toc259227557» 3.1.1 Поисковая система Google PAGEREF _Toc259227557 \h 16

HYPERLINK \l «_Toc259227558» 3.1.2 Поисковая система Яндекс PAGEREF _Toc259227558 \h 21

HYPERLINK \l «_Toc259227559» 3.1.3 Сопоставление возможностей поисковых систем Google и Яндекс при анализе литературы по языкознанию. PAGEREF _Toc259227559 \h 26

HYPERLINK \l «_Toc259227560» 3.2 Создание базы данных MS Excel. PAGEREF _Toc259227560 \h 33

HYPERLINK \l «_Toc259227561» 3.2.1 Пример создания таблицы и базы данных MS Excel для последующего использования в написании диссертации. PAGEREF _Toc259227561 \h 36

HYPERLINK \l «_Toc259227562» Заключение PAGEREF _Toc259227562 \h 41

HYPERLINK \l «_Toc259227563» Список литературы к реферату PAGEREF _Toc259227563 \h 43

HYPERLINK \l «_Toc259227564» Предметный указатель к реферату PAGEREF _Toc259227564 \h 45

HYPERLINK \l «_Toc259227565» Интернет ресурсы в предметной области исследования. PAGEREF _Toc259227565 \h 47

HYPERLINK \l «_Toc259227566» Граф научных интересов PAGEREF _Toc259227566 \h 51

HYPERLINK \l «_Toc259227567» Список литературы к выпускной работе PAGEREF _Toc259227567 \h 52

HYPERLINK \l «_Toc259227568» Приложение А PAGEREF _Toc259227568 \h 56

Список условных обозначений

INDEX \h «—A—» \c «2» \z «1049» АРМ XE «АРМ» — Advanced Powerment Management

CompTek XE «CompTek» — Computer Technology

DOC XE «DOC» — Document

DVD XE «DVD» — Digital Versatile/Video Disc

Internet XE «Internet» — Interconnected Networks

MIDAS XE «MIDAS» — Mining Data at Stanford

MS Excel XE «MS Excel» — Microsoft Excel

MS Office XE «MS Office» — Microsoft Office

PDF XE «PDF» — Packade Document Format/Defenition File

VBA XE «VBA» — Visual Basic for Application

XLS XE «XLS» — Excel List Shits

ИТ XE «ИТ» — Информационные Технологии

Список иллюстраций

TOC \h \z \c «Рисунок» HYPERLINK \l «_Toc259739736» Рисунок 1Поисковая система Google PAGEREF _Toc259739736 \h 19

HYPERLINK \l «_Toc259739737» Рисунок 2Поисковая система Яндекс PAGEREF _Toc259739737 \h 25

HYPERLINK \l «_Toc259739738» Рисунок 3Поиск в Google по запросу «языкознание» PAGEREF _Toc259739738 \h 28

HYPERLINK \l «_Toc259739739» Рисунок 4Поиск в Яндекс по запросу «языкознание» PAGEREF _Toc259739739 \h 28

HYPERLINK \l «_Toc259739740» Рисунок 5Поиск в Google по запросу «лексика» PAGEREF _Toc259739740 \h 29

HYPERLINK \l «_Toc259739741» Рисунок 6 Поиск в Яндекс по запросу «лексика» PAGEREF _Toc259739741 \h 29

HYPERLINK \l «_Toc259739742» Рисунок 7Поиск в Google по запросу «безэквивалентная лексика» PAGEREF _Toc259739742 \h 30

HYPERLINK \l «_Toc259739743» Рисунок 8Поиск в Яндекс по запросу «безэквивалентная лексика» PAGEREF _Toc259739743 \h 30

HYPERLINK \l «_Toc259739744» Рисунок 9Поиск в Google по запросу «классификация реалий» PAGEREF _Toc259739744 \h 31

HYPERLINK \l «_Toc259739745» Рисунок 10 Поиск в Яндекс по запросу «классификация реалий» PAGEREF _Toc259739745 \h 31

HYPERLINK \l «_Toc259739746» Рисунок 11Диаграмма безэквивалентной лексики PAGEREF _Toc259739746 \h 37

HYPERLINK \l «_Toc259739747» Рисунок 12MS Excel. Таблица PAGEREF _Toc259739747 \h 38

HYPERLINK \l «_Toc259739748» Рисунок 13MS Excel. Таблица PAGEREF _Toc259739748 \h 38

HYPERLINK \l «_Toc259739749» Рисунок 14MS Excel. Таблица PAGEREF _Toc259739749 \h 39

HYPERLINK \l «_Toc259739750» Рисунок 15MS Excel. Таблица PAGEREF _Toc259739750 \h 39

HYPERLINK \l «_Toc259739751» Рисунок 16База данных «Безэквивалентной лексики» 1 часть PAGEREF _Toc259739751 \h 40

HYPERLINK \l «_Toc259739752» Рисунок 17База данных «Безэквивалентной лексики» 2 часть PAGEREF _Toc259739752 \h 41

Реферат: «Применение информационных технологий XE «ИТ» в исследовании и описании безэквивалентной лексики»

Введение

Развитие и широкое внедрение информационных технологий воздействует на все сферы современной жизни, включая экономику, политику, науку и образование. Формируется новое общество, получившее название информационного: главными ценностями в нем становятся информация и знание.

Становление нового общества характеризуется интенсивным ростом количества информации. Постоянный рост объемов информации, облеченной в традиционную форму, затрудняет эффективную работу с ней (хранение, распространение, поиск, учет и т. д.). Решение этой фундаментальной проблемы заключается в использовании современных средств вычислительной техники и переводе информации в электронную форму. В последние десятилетия так же наблюдается стремительное увеличение количества информации, существующей только в электронном виде или изначально создаваемой в этом виде для последующего выпуска печатных изданий.

Так как главный предмет филологии – тексты, то большая часть накапливаемых электронных информационных ресурсов представляет собой наборы текстов. Современные информационные технологии открывают новые возможности для обработки и анализа текстов и предоставляют разнообразные средства создания, распространения, поиска и учета текстовой информации. С другой стороны, возникает задача изучения текстов, бытующих в новой форме, в новой среде и в новых условиях. В связи с этим можно сделать предварительный вывод: филология и технология заинтересованы в кооперации и взаимопомощи.

Таким образом, можно говорить о необходимости повышения информационной культуры специалистов-филологов. Под «информационной культурой» мы понимаем способность индивидуума и общества эффективно использовать информационные ресурсы и средства информационных коммуникаций, а также применять для этих целей достижения в области информационных технологий». В свою очередь, под средствами информационных ресурсов и технологий здесь понимается программное обеспечение и информационные проекты, которые направлены не столько на обычную публикацию электронных версий трудов, сколько на создание инновационного информационно-научного продукта, зависящего от области исследования. Т.е. при помощи информационных технологий филологи получают возможность не только более эффективно собирать, создавать и хранить информацию, но и проводить разного рода обработку большого количества лексических единиц для последующего использования в научных трудах. Вышеизложенный материал и определяет актуальность данного исследования.

Исследуя такой огромный пласт как безэквивалентная лексика, просто невозможно ограничиться только бумажными носителями информации. Есть необходимость использования разного рода программного обеспечение для обработки и предоставления информации в удобном и компактном виде. Поэтому в данной работе будет проводиться описание глобальной сети Internet XE «Internet» и её возможностей, а так же проведение сравнительного анализа использования электронных систем Google XE «Google» и Яндекс XE «Яндекс» , и их возможностей при поиске литературы по языкознанию.

Второй частью данной работы является анализ эффективности использования табличного редактора MS Excel XE » MS Excel » в сборе, обработке и структурировании данных для последующего применения в написании диссертации.

В связи с этим целью данной работы является выявление степени эффективности использования информационных технологий в работе по сбору, обработке и структурированию данных, взятых как из бумажных, так и из электронных носителей.

Объект исследования: табличный редактор MS Excel XE » MS Excel » ; глобальная сеть Internet XE «Internet» , а именно поисковые системы Google XE «Google» и Яндекс XE «Яндекс» .

Предмет исследования: эффективность использования заявленного редактора в табличной визуализации данных при написании практической части диссертации, а так же эффективность использования заявленных поисковых систем в поиске литературы по языкознанию.

Практическая ценность: использование электронных таблиц и баз данных MS Excel XE » MS Excel » \b \i , а так же данных из поисковых систем, полученных в результате данного исследования, для последующего использования в написании диссертации.

Не исключается возможность предоставления информации такого рода на конференциях, а так же ее использование в виде раздаточного материала.

Глава 1. Обзор используемой литературы.

Для написания данной работы мною было проанализировано много литературных источников. Литература была посвящена как информационным технологиям, так и филологии. Приведу краткий обзор некоторых из них.

Статья «Филология и современные информационные технологии» Вигурского К.В., Пильщикова И.А. посвящена перспективам использования современных информационных технологий в интересах филологического знания. В работе проведен анализ филологических ресурсов русского сектора Интернета и обозначены перспективы, открывающиеся перед гуманитарными науками благодаря применению информационных технологий и вычислительной техники. В статье так же рассмотрены основные филологические проблемы, встающие перед создателями информационных ресурсов, и предложены пути их решения.

Захаров Н.В. «Новые информационные технологии и филологические науки». В этой статье автор делает упор на рассмотрении информационных баз данных в филологии. Он рассматривает проекты по созданию информационных систем и технологий как наиболее перспективные направления в развитии гуманитарного знания и филологических дисциплин в частности. В подтверждение своим словам автор ссылается на количество поддержанных проектов по созданию информационных баз данных Российским гуманитарным научным фондом и приводит ссылки на основные, по его мнению, проекты.

Беляева Л.Н. «Информационное пространство филолога и принципы его организации». В этой статье автор говорит о том, что современный филолог должен не только обладать знаниями и умениями в области информационных технологий, но и иметь возможность доступа к специализированным средствам поддержки его учебной, научной и методической работы. Такие средства необходимы для решения конкретных исследовательских и учебных задач, а именно для анализа и перевода текстов, исследование текстов электронного формата, а так же для проведения исследований на базе больших массивов текстов. Автор поясняет, что обеспечить такую информационную поддержку можно только путем создания специализированного автоматизированного рабочего места (АРМ) филолога. Подобное АРМ XE » АРМ » , разработка которого является ясно осознанной необходимостью, представляет собой комплекс программных, лингвистических и технических средств, обеспечивающий удобство работы и потребности как преподавателей, так и исследователей в различных отраслях этой области знаний (лингвистов, литературоведов, методистов и т. д.).

Вигурский К.В., Пильщиков И.А. «Информатика и филология (Проблемы и перспективы взаимодействия)». В самом начале статьи автор говорит об одной из основных тенденциях развития общества, а именно о небывалом росте производимой информации. В связи с этим появилась возможно говорить о создании информационного общества. Так же ссылаясь на данные UNESCO Statistical Yearbook XE «UNESCO Statistical Yearbook» , автор приводит статистику увеличения объема издаваемых книг в мире начиная с середины 70-х годов. Так же он говорит и о том, что еще более интенсивный рост наблюдается в мире электронной информации: в 2000г. число электронных документов в глобальной компьютерной сети оценивалось примерно в 300 млн., а к концу 2001г. достигло 3 млрд. В статье делаются выводы о том, что работать с такими объемами информации традиционными методами невозможно и предлагаются пути решения данной проблемы путем автоматизации. Во второй части статьи даются определения и пояснения понятиям «филология», «информационные технологии» и «информационные ресурсы».

В заключение автор приводит ряд ссылок на филологические интернет ресурсы, такие как «Фундаментальная Электронная Библиотека», «Русская виртуальная Библиотека» и т.д. Автор так же делает вывод о том, что форма представления и сохранения информации влияет на содержание документа. И в подтверждение этому приводит пример исторического перехода от рукописной формы представления информации к печатной. По мнению автора, то же происходит и при переходе к представлению информации в электронной форме.

Левкович О.А., Шелкоплясов Е.С., Шелкоплясова Т.Н. «Основы компьютерной грамотности. Учебное пособие». Пособие освещает довольно широкий круг вопросов по работе с операционной системой. Включено изучение следующего прикладного программного обеспечения: операционная система Windows XE «Windows» и ее приложения WordPad XE «WordPad» , Paint XE «Paint» ; приложения из пакета Microsoft Office XE «Microsoft Office» ; программы архивирования данных для Windows XE «Windows» ; антивирусные программы. Пособие содержит практические упражнения. Авторы очень подробно разъясняют как простые, так и сложные задания, без употребления сложных технических терминов.

Глава 2. Описание методов и объектов исследования.

В данной работе были использованы такие методы исследования, как качественный, сравнительно-сопоставительный, описательный, технический и экспериментальный.

Качественный метод нацелен на получение развернутой информации о предмете исследования. Опирается на понимание, объяснение и интерпретацию эмпирических данных. Данные, полученные этим методом, не подлежат количественному анализу. Данный метод используется исключительно для сбора информации. Был применен в накоплении информации для написания данной работы.

Сравнительно-сопоставительный метод был применен в сравнении преимуществ использования ИТ XE «ИТ» в написании диссертации по отношению к использованию бумажных носителей.

Описательный метод является самым популярным и широко используемым методом во всех исследованиях. Данный метод требует четкого представления о предмете исследования, последовательность описания, систематизацию, группировку и классификацию материала в соответствии с целью исследования.

Технический метод. Был применен в техническом использовании программного обеспечения MS Office XE «MS Office» для написания как практической, так и теоретической части данной работы.

Экспериментальный метод позволил провести анализ эффективности использования ИТ XE «ИТ» в написании практической части данной работы, а так же в представлении материалов на занятиях по языкознанию в высшей школе не в традиционном виде (учебники, распечатки, дополнительные материалы).

Хотелось бы остановиться так же и на объектах исследования, а именно: табличный редактор MS Excel XE » MS Excel » , глобальная сеть Internet XE «Internet» .

Глобальная сеть Internet XE «Internet» . В сети Internet XE «Internet» можно найти практически любую интересующую вас информацию. Основная проблема с сетью Internet как раз в том, что эту информацию ещё нужно найти. Кто-то назвал Internet XE «Internet» хаосом, который работает и отчасти это верно. Информация содержащаяся в сети не объединена в единую иерархическую структуру, а распределена по большому числу серверов Internet XE «Internet» . Такой подход имеет преимущества и недостатки. Преимущества заключаются в повышении надежности доступа к информации (зеркала сайтов, множественные маршруты между узлами сети), распределении нагрузки между серверами сети и балансировка нагрузки, облегчении публикации информации в сети. Недостатки – в многократном дублировании одной и той же информации, снижении уровня доверия к опубликованной информации, сложности поиска нужной информации.

Для поиска информации в сети можно воспользоваться специализированным каталогом (например, catalog.tut.by) ссылки в который заносят редакторы каталога, на основании изучения соответствующих ресурсов Internet XE «Internet» . Чаще всего ссылка на сайт предоставляется редакторам каталога самими авторами сайта, с указанием категории каталога, в которую они хотят занести свой ресурс, однако редакторы могут и самостоятельно находить подобные ссылки. Ключевым признаком каталога является то, что он составляется и проверяется вручную, что дает хорошие результаты по релевантности содержащейся в нем информации, но не позволяет охватить большое число сайтов, т.к. человеческие возможности ограничены. Гораздо более перспективны в плане поиска информации соответствующие поисковые системы. Поисковые системы обычно состоят из поискового робота, базы данных и интерфейса для задания поисковых запросов [6, 12]. Поисковый робот (паук, краулер) – это специальная программа, которая перемещается по сети, отправляя запросы на получение соответствующих страниц и переходя по гиперссылкам на этих страницах. Полученные страницы индексируются – ключевые слова с этой страницы помещаются в специальную базу данных. Для задания запросов к этой базе данных пользователи используют интерфейс, представляющий из себя обычную гипертекстовую страницу, содержащую форму для ввода ключевых слов. После отправки запроса поисковая система осуществляет поиск по своей базе данных и возвращает пользователю гипертекстовую страницу, содержащую ссылки на соответствующие сайты.

Поскольку индексирование сайтов осуществляется автоматически, создатели поисковых систем разрабатывают достаточно сложные механизмы для повышения релевантности результатов поиска. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие [6, 15]:

количество слов запроса в текстовом содержимом документа;

удельный вес слов, в общем количестве слов документа;

местоположение искомых слов в документе;

как долго страница находится в базе поискового сервера, как давно она не обновлялась;

как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.

Более подробно механизмы повышения релевантности результатов поиска будут рассмотрены ниже для поисковой системы Google XE «Google» .

Основным преимуществом поисковой системы является то, что в отличие от каталога, автоматическое индексирование сайтов позволяет охватить большое число сайтов сети и автоматически находить новые сайты. Кроме того, ссылку на сайт можно отправить поисковой системе вручную – сайт будет проиндексирован не сразу, но все же это быстрее, чем дожидаться пока поисковый робот «наткнется» на сайт. Перечень основных зарубежных, русских и белорусских поисковых систем приведен ниже.

Табличный редактор MS Excel XE «MS Excel» . При написании диссертации на тему безэквивалентной лексики, большую часть всего исследования составляет работа со словарями. Точнее говоря, способ ручной выборки безэквивалентной лексики из всего объема словарей. Даже на начальных этапах исследования структурировать данные на бумажных носителях не представляется возможным. Нужна жесткая табличная систематизация данных в виде оригинал – перевод/описание. Для этой цели наилучшим образом подходит табличный редактор MS Excel XE » MS Excel » . Этот редактор достаточно прост в использовании, но тем не менее является мощной системой электронных таблиц. Excel XE » Excel » имеет большое количество средств для анализа данных. Табличный редактор так же содержит сотни встроенных функций, что позволяет не только заполнять ячейки таблицы текстовыми данными, но и решать самые сложные задачи статистического и финансового анализа, строить более сотни типов различных диаграмм [7, 131].

В Excel XE «Excel» внизу окна находятся ярлыки рабочих листов, которые используются для быстрого переключения и перехода на любой из них, что является весьма удобным. Не требуется лишнего создания нового документа. Excel XE «Excel» так же можно использовать как базу данных и анализировать данные при помощи фильтров.

Глава 3. Основные результаты использования информационных технологий XE «ИТ» в исследовании и описании безэквивалентной лексики.

При написании любого рода работы, связанной с выборкой лексики из большого количества словарей, непременно встает вопрос о её структурировании. В данном случае нас интересует пласт безэквивалентной лексики и то, как она переводится, или передается на другие языки, в частности на английский. Сложность связана с тем, что сначала требуется собрать воедино и структурировать достаточно большой объем лексики, выбранной минимум из 20 словарей, и только после этого представится возможность проводить нужные исследования. Для этого просто необходима программа, которая позволяла бы структурно вносить сами лексические данные, их перевод, возможно примерный год появления в употреблении, трактовку и какие-либо пометки. Возможно, что при работе с лексикой так же появится необходимость алфавитной сортировки, что просто невозможно сделать, имея бумажный носитель. В данном случае и приходится прибегать к помощи ИТ XE «ИТ» , а в частности к табличному редактору MS Excel XE » MS Excel » , который совмещая определенный набор функций, отвечает заявленным требованиям MS Excel XE » MS Excel » .

Написание такого рода работы не сводится только лишь к табличному структурированию данных, большую часть занимает поиск как основной, так и дополнительной информации. Следовательно, при данной работе было бы целесообразно использовать не только табличный редактор, но и электронные поисковые системы, которые позволяли бы найти нужную информацию или уточнить источники её нахождения. Как уже было сказано в предыдущей главе, речь идет о поисковых системах Google XE «Google» и Яндекс XE «Яндекс» и о сравнении их возможностей при поиске литературы по языкознанию.

3.1 Поисковые системы Google XE «Google» и Яндекс XE «Яндекс» и их сравнительные возможности при поиске литературы по языкознанию.

3.1.1 Поисковая система Google XE «Google»

В 1995 г. двое студентов докторантуры Стэндфордского университета -Ларри Пейдж и уроженец Москвы Сергей Брин — занимались различными аспектами управления данными. Оба студента входили в рабочую группу MIDAS XE «MIDAS» (Mining Data at Stanford). Немного позже под управлением Раджива Мотвани, доцента кафедры информатики и вычислительной техники, Пейдж и Брин начали разработку собственной поисковой системы [12, 3]. Уже в то время на Internet XE «Internet» -рынке присутствовали различные компании, предоставляющие услуги поиска, однако проект Google XE «Google» был для создателей своего рода академическим хобби, не имеющего коммерческой направленности (googol XE «googol» – это математический термин, обозначающий единицу со 100 нулями, что символизирует большой объем информации, обрабатываемой поисковой системой). Идея, положенная в основу поисковой машины, достаточно проста: сеть Internet содержит огромное количество информации, и определить релевантность отдельно взятой страницы большинство поисковиков пытаются по наличию в файле ключевых слов, которые пользователь ввел в форму поиска. Google XE «Google» же индексирует гиперссылки, исходящие со страницы, считая каждую ссылку на определенный сайт «голосом», увеличивающим ценность сайта, на который ссылаются. Логично предположить, что на сайт популярный и содержащий полезную информацию ссылаться будут чаще, чем на ресурс бесполезный и неинтересный, соответственно страницы популярного сайта получат более высокий рейтинг (Page Rank XE «Page Rank» ) [13, 21]. Таким образом, одна ссылка на страницу с сервера Yahoo! XE «Yahoo!» может оказаться более ценной, чем сотни ссылок с неизвестных домашних страничек – в этом случае Yahoo! XE «Yahoo!» рассматривается как авторитетный источник. Поисковый сервер Google также анализирует содержание страниц. Выполняется анализ полного содержания страницы и таких факторов, как шрифты, подразделы и точное местоположение каждого слова. Google XE «Google» также анализирует содержание соседних веб-страниц, чтобы обеспечить максимальную релевантность результатов поиска по запросу пользователя.

В 1998 г. Google XE «Google» был запущен на сервере Стэнфордского университета по адресу google.Stanford.edu. В том же году становится понятно, что для того чтобы развивать технологию и дальше, необходимо создать компанию. Пейдж и Брин за полгода до защиты диссертации уходят из Стэнфорда. Хорошей новостью для молодой компании стала поддержка со стороны одного из основателей Sun Microsystems Энди Бехтольшайма, который после расспросов о дальнейших планах предприятия тут же выписал экс-студентам чек на 100 тыс. долл. Плохой новостью стала абсолютная незаинтересованность существующих поисковых систем в новой технологии. Поэтому Google пришлось развиваться самостоятельно. Вместо того чтобы заняться агрессивным маркетингом и продвижением своего проекта, Пейдж и Брин предпочитают нанять на работу около 150 сотрудников, 20 из которых — доктора наук (в настоящее время штат сотрудников компании составляет 4183 человека по всему миру, хотя большая часть работает в штаб-квартире в Маунтин Вью, штат Калифорния, США.). Компания не рекламирует себя, закупая миллионы баннеров, не заботится о бренде и рыночном становлении проекта, не собирается зарабатывать деньги путем показа баннерной рекламы на собственном сайте. В этом плане показательна цитата с сайта самого Google XE «Google» : «Как и в своей технологии, Google XE «Google» предпочитает игнорировать общепринятый подход к ведению дела». Несмотря на такую пассивность с точки зрения маркетолога, известность поисковика продолжает расти, и многие пользователи, привыкшие к обращению к нескольким поисковым системам одновременно, выбирают Google XE «Google» , каждый по каким-либо своим субъективным причинам. Кому-то нравится неброский интерфейс и простота использования, кому-то — скорость работы и не перегруженность сайта рекламой, кому-то — качество результатов поиска. Убедившись в благосклонности пользователей к поисковикам с простым интерфейсом, не перегруженному рекламой и новостями, даже AltaVista XE «AltaVista» пошла по стопам Google, выпустив новую оболочку для своей поисковой машины (Raging Search, http://www.raging.com). Упрощенный вариант пользовательского интерфейса представил российской аудитории и Яндекс XE «Яндекс» , расположив «чистый» интерфейс по адресу http://www.ya.ru. Что касается скорости работы, то Google использует более 4 тыс. компьютеров. Несколько компьютеров поддерживают работу собственно поисковика, обслуживая более 17 млн. запросов в день, остальные же «исследуют» Internet XE «Internet» , занимаясь индексированием страниц и определением их релевантности.

Рисунок SEQ Рисунок \* ARABIC 1 Поисковая система Google

С точки зрения конечного пользователя Google XE «Google» предоставляет множество различных возможностей для поиска информации, включая поиск по web XE «web» -страницам, изображениям, новостям. Особенно интересно то, что Google кэширует проиндексированные страницы, что позволяет получить доступ к информации даже если сайт, на котором она находится, временно недоступен. Для задания дополнительных условий поиска можно воспользоваться ссылкой «Расширенный поиск» (Advanced Search) на основной странице Google. Соответствующая форма позволяет искать все, или любые из слов поискового запроса, точную фразу, страницы, не содержащие заданных слов, осуществлять поиск по определенному сайту, домену или страницам на определенном языке, учитывать дату последнего обновления страниц, искать файлы строго определенного формата (например, DOC XE «DOC» , XLS XE «XLS» , PDF XE «PDF» ), исключать из результатов поиска сайты «сомнительного содержания» (SafeSearch), искать страницы ссылающиеся на определенный сайт и др. Помимо использования формы расширенного поиска можно воспользоваться специальным синтаксисом для формирования более сложных запросов [11,15].

Осуществление поиска.

Так, например, заключение фразы поиска в кавычки, эквивалентно использованию поля «Найти результаты, совпадающие с точной фразой» из формы расширенного поиска. Синтаксис также позволяет получить некоторые дополнительные возможности. Так, например, Google XE «Google» исключает из поиска наиболее общепринятые слова («стоп слова»), даже если эти слова были введены пользователем в строке запроса. Делается это для того, чтобы повысить релевантность результатов, т.к., например, артикль «the» содержится в большом числе страниц, не имеющих ничего общего с тем, что ищет пользователь. Если пользователь все же настаивает на поиске по таким словам, то в строке запроса перед ними необходимо ввести символ “+”: «+where +the hell +is Billy». Также довольно полезен поиск по синонимам слов, для чего необходимо использовать перед словом символ “~”. Так по запросу «~food» будут найдены сайты, содержащие слова food, restaurant, recipe. Для задания интервала числовых значений используются символы «..» Запрос DVD player XE «DVD player» $50..$100 позволяет найти DVD плеер в интервале цен от 50 до 100 $.

Строку поиска Google XE «Google» можно использовать как калькулятор, запрос вида sin(90 degrees)^2+sqrt(4)*5 вернет соответствующий результат вычислений, равный 11. Использованы функции и операторы: sin – синус, ^ – степень, sqrt – квадратный корень [31].

Google XE «Google» может использоваться и для пересчета курса валют. Запрос «2.2 USD per gallon in RUR per litre» позволяет пересчитать 2.2 доллара США за американский галлон в аналогичную сумму в российских рублях за литр (более простым вариантом этого запроса конечно же будет «1 USD in RUR», т.е. перевод 1 доллара США в российский рубль). Используя ключевое слово «movie:» можно найти фильмы, название, сюжет, актерский состав или другая информация о которых содержит заданные ключевые слова. Пример, по запросу movie: cruise будут найдены как фильмы так или иначе связанные с круизами, так и фильмы с участием актера Тома Круза (Tom Cruise). Информация о фильмах сопровождается комментариями и обзорами, подразделенными на положительные, отрицательные и нейтральные. Заслуживает внимания и проект Google по предоставлению on-line полного содержимого книг (http://books.google.com): если в процессе поиска соответствующая книга будет найдена в базе книг Google – то она будет представлена пользователю для прочтения on-line.

Google XE «Google» реализует и множество других функций, часть из которых доступна только пользователям США (например, поиск по телефонному справочнику), однако в целом, функции Google востребованы всеми пользователями в сети.

Отдельное внимание следует уделить работе с морфологией русского языка в Google XE «Google» . Хотя официально о поддержке поиска по различным словоформам не сообщалась, с февраля 2006 г. в Internet XE «Internet» активно циркулирует информация о серьезных шагах Google в этом направлении [14, 7]. По предположениям высказанным в издании «Компьютера» [15] это связано с активизацией продвижения Google своих интересов в Росси (соответствующее российское представительство компании носит название ООО «Гугл»). Проверить эту информацию легко просто введя любой поисковый запрос на сайте www.google.ru (именно ru, на www.google.com русская морфология не активизирована). И хотя, на собственный субъективный взгляд, поддержка морфологии в Google пока еще отстает от аналогичных решений Яндекса, все же положительным следует признать факт, что всемирно известная поисковая система начала работу в этом направлении. Широко известна околокомпьютерная пародия на девиз Яндекса: «Яндекс XE «Яндекс» – найдется все … Google – ничего и не терялось». Единственным серьезным преимуществом Яндекса было и по сей день остается именно качественная работа с русской морфологией в запросах, однако новая инициатива Google, с течением времени, может свести на нет и это преимущество. Тем не менее, в настоящий момент Яндекс занимает лидирующую позицию в Рунете и является абсолютным лидером по использованию в белорусской части сети.

3.1.2 Поисковая система Яндекс XE «Яндекс»

История компании «Яндекс XE «Яндекс» » началась в 1990 году с компании «Аркадия», возглавляемой Аркадием Борковским и Аркадием Воложем, ставшей в 1993 году подразделением CompTek XE «CompTek» [17]. Именно в 1993-1994 гг. были существенно усовершенствованы программные технологии поиска, в частности поиск с учетом морфологии русского языка. В начале 1996 года был разработан алгоритм построения гипотез и морфологический разбор перестал быть привязан к словарю — если какого-либо слова в словаре нет, то находятся наиболее похожие на него слова и по ним строится модель словоизменения.

Первая версия сайта «Яndex XE «Яndex» » появилась в Internet XE «Internet» в 1996 году, после того как руководством CompTek XE «CompTek» и разработчиками системы было принято решение о развитии поисковых технологий, ориентированных не столько на прикладные программные продукты, сколько на гораздо более широкую аудиторию пользователей Internet. Слово «Яndex» придумал за несколько лет до этого один из разработчиков поискового механизма и означает оно «Языковой index», или, если по-английски, «Yandex XE «Yandex» » — «Yet Another indexer». Официально поисковая машина Yandex.Ru и соответствующий Internet-портал были анонсированы 23 сентября 1997 года на выставке Softool [3]. Основными отличительными чертами Yandex.Ru на тот момент были проверка уникальности документов, т.е. исключение копий в разных кодировках; учет морфологии русского языка (поиск по точной словоформе); поиск с учетом расстояния (в том числе в пределах абзаца, точное словосочетание); и тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и «контрастность» слова (его относительную частоту для данного документа).

В ноябре 1997 года был реализован естественно-языковый запрос, позволяющий получать релевантные результаты даже по длинным и специальным образом не сформулированным поисковым запросам типа: «где купить компьютер», «сколько стоит доллар» и т.д.

В 1998 году на Yandex XE «Yandex» .Ru появилась возможность «найти похожий документ», список найденных серверов, поиск в заданном диапазоне дат и сортировка результатов поиска по времени последнего изменения.

В 1999 году Яндекс XE «Яндекс» оптимизировал свой поисковой робот, что позволило ускорить обход сайтов Рунета. Так же предоставил пользователям новые возможности поиска по разным зонам текста (заголовкам, ссылкам, аннотациям, адресам, подписям к картинкам), по ссылкам и изображениям. Так же позволил выделять документы на русском языке, фильтровать результаты поиска от мата и порнографии. В том же году открылся поисковый форум и новый сервис — подписка на запрос, то есть можно оставить свой запрос на Yandex XE «Yandex» .Ru и регулярно получать по электронной почте информацию о появлении новых и/или измененных документов, соответствующих этому запросу. Появился поиск в категориях каталога, и впервые в Рунете была внедрена технология «индекс цитирования».

По аналогии с Google XE «Google» «Индекс цитирования» от Яндекс XE «Яндекс» определяется количеством и качеством внешних ссылок на сайт. На качество ссылки влияет собственный индекс цитирования ресурса, ссылающегося на страницу. При подсчете индекса цитирования не берутся во внимание ссылки с форумов, веб-досок, конференций, с сайтов, расположенных на бесплатных хостингах (если они не описаны в каталоге Яндекса). Естественно, не учитываются ссылки с тех сайтов, которые Яндекс не индексирует (т.е. сайты, не содержащие русского текста).

Благодаря сотрудничеству с ABBY Lingvo XE «ABBY Lingvo» , Яндекс XE «Яндекс» также позволяет осуществлять on-line перевод с/на английский, немецкий, французский, итальянский и испанский языки.

С декабря 2005 года Яндекс XE «Яндекс» ввел службу поиска на местности [18]. Новая служба называется «Яндекс.Адреса» и предназначена для поиска магазинов, гостиниц, предприятий, государственных структур и просто достопримечательностей. В качестве места можно указать район, улицу или даже дом (в этом случае кроме координат организаций выводится и расстояние до них). Информация о найденных объектах включает точное название, почтовый адрес и телефон. Если у Яндекс имеется соответствующая карта места, то она также будет выведена в результатах поиска. Недавним нововведением Яндекса является и возможность поиска по блогам (blog – это web XE «web» -страница, содержащая личные заметки, дневник, или ленту новостей со ссылками, все записи размещены в хронологическом порядке – своего рода личный сетевой дневник). Из проектов Яндекса непосредственно не связанных с поиском, наиболее известен проект предоставления бесплатного хостинга narod.ru.

Компания Яндекс XE «Яндекс» вышла на самоокупаемость в ноябре 2002 года. В 2004 году компания «Яндекс» увеличила продажи до 17 млн. USD, что в десять раз превысило доход 2002 года, а чистая прибыль составила 7 млн. USD [17].

Рисунок SEQ Рисунок \* ARABIC 2 Поисковая система Яндекс

Сам процесс поиска в Яндекс XE «Яндекс» достаточно прост – значительное число пользователей используют именно возможность задавать вопросы на «естественном» языке, однако Яндекс имеет и форму расширенного поиска и специальный язык поисковых запросов [9]. Форма расширенного поиска предусматривает возможность поиска с учетом расположения слов:

— относительно друг друга (подряд, в одном предложении, на одной странице);

— расположения слов на странице (в заголовке, тексте страницы, тексте ссылки);

— языка страниц, их даты или интервала дат, формата документов (doc XE «doc» , pdf XE «pdf» и т.д.);

— географического региона, к которому относится страница сайта или домен, к которому она относится.

Имеется возможность найти все сайты, ссылающиеся на определенную страницу, или похожие на определенную страницу. Язык поисковых запросов требует от пользователя использования специального синтаксиса в запросах, предоставляя взамен дополнительные возможности поиска. Так, например, по запросу « «красная шапочка» » (текст запроса заключен в кавычки) будут найдены страницы, где есть подряд два слова: вначале красная, затем шапочка. Запрос « культура & Китая » найдет страницы, где слова «культура» и «Китай» встречаются в рамках одного предложения. Запрос « великая /2 стена » найдет страницы, где слово «стена» находится не дальше второго слова от слова «великая». Запрос « Китай | рис | Шанхай » найдет страницы с любым из указанных слов. Сложные запросы можно составлять с использованием скобок, например « (Китай | Москва) /2 (пицца | хот-дог) ». Использование символа «!» отключает анализ морфологии (пример, « !Путин ».

3.1.3 Сопоставление возможностей поисковых систем Google XE «Google» и Яндекс XE «Яндекс» при анализе литературы по языкознанию.

Резюмируя сказанное выше можно сделать вывод, что возможности поисковой системы Яндекс XE «Яндекс» в целом схожи с возможностями поисковой системы Google XE «Google» .

Преимущества Яндекса – хорошая работа с русской морфологией, недостаток – ориентация в основном на русскоязычные сайты. Сопоставить степень релевантности информации предоставляемой этими поисковыми системами достаточно сложно, и в любом случае эта оценка будет субъективной. Проведем сопоставление возможностей этих поисковых систем при анализе литературы по языкознанию. Для проведения исследования был сформирован 21 общий поисковый запрос (что наиболее характерно для пользователей без специальной подготовки). Длина поисковых запросов составила от 1 до 5 ключевых слов.

Перечень ключевых слов, использованных в запросах:

«языкознание», «лексика», «безэквивалентная лексика», «примеры безэквивалентной лексики», «классификация безэквивалентной лексики», «реалии», «классификация реалий», «языкознание в ВУЗе», «теория языка», «синхрония», «диахрония», «исследование реалий», «реалии и безэквивалентная лексика», «способы перевода безэквивалентной лексики», «появление безэквивалентной лексики», «специфика реалий», «особенности употребления реалий», «передача реалий», «современный реалии», «устаревшие реалии».

Рисунок SEQ Рисунок \* ARABIC 3Поиск в Google по запросу «языкознание»

Рисунок SEQ Рисунок \* ARABIC 4Поиск в Яндекс по запросу «языкознание»

Рисунок SEQ Рисунок \* ARABIC 5Поиск в Google по запросу «лексика»

Рисунок SEQ Рисунок \* ARABIC 6Поиск в Яндекс по запросу «лексика»

Рисунок SEQ Рисунок \* ARABIC 7Поиск в Google по запросу «безэквивалентная лексика»

Рисунок SEQ Рисунок \* ARABIC 8Поиск в Яндекс по запросу «безэквивалентная лексика»

Рисунок SEQ Рисунок \* ARABIC 9Поиск в Google по запросу «классификация реалий»

Рисунок SEQ Рисунок \* ARABIC 10Поиск в Яндекс по запросу «классификация реалий»

По результатам использования данных запросов в поисковых системах Google XE «Google» и Яндекс XE «Яндекс» , были сделаны следующие выводы:

Google XE «Google» дает более релевантные результаты;

при поиске по русскоязычным сайтам, за счет использования морфологии русского языка, Яндекс XE «Яндекс» дает большее число релевантных ссылок в расчете на один запрос. Аналогичного результата в Google XE «Google» можно достичь, только сформировав вручную большое число запросов по различным словоформам;

упрощает ситуацию использование русской версии поисковой машины www.google.ru. Не смотря на отсутствие официального объявления поддержки русской морфологии, поисковая машина частично поддерживает такую возможность, хотя уровень её реализации все ещё уступает Яндексу;

субъективно Google XE «Google» имеет более удобный интерфейс и более удобную форму расширенного поиска;

существенным преимуществом оказалась возможность Google XE «Google» просматривать страницы из кэша поисковой системы, поскольку ряд высокорелевантных страниц оказались на web XE «web» -серверах не доступных on-line на момент просмотра, или перемещенными в рамках сервера в неизвестном направлении. Информация из кэша Яндекса («сохраненная копия») не удобна для просмотра, т.к. содержит только ключевые слова, без отображения структуры страницы, графического материала и т.д.;

существенным преимуществом Google XE «Google» над Яндексом стала возможность просмотра документов различных форматов (doc, pdf и др.) в виде web XE «web» -документа (формат html). Так, например, на тестовом компьютере не была установлена программа Acrobat reader, необходимая для просмотра pdf XE «pdf» -файлов. Данная программа не входит в состав ОС Windows XE «Windows» или пакета MS Office XE «MS Office» , её необходимо скачать с сайта Adobe и установить отдельно. В описанном случае, Google гарантирует возможность доступа к информации даже для не подготовленных пользователей, не имеющих большого опыта работы с компьютером;

в то время как Google XE «Google» четко разделяет рекламные ссылки и результаты поиска, в результатах поиска Яндекса периодически встречаются ссылки на коммерческие сайты, релевантность информации которых недостаточно высока.

По итогам исследования был сделан следующий вывод: на первоначальном этапе поиска целесообразнее использовать поисковую систему Google XE «Google» , как дающую более релевантные результаты. После того, как направление исследований и структура работы будет намечена, целесообразно результаты Google дополнять результатами поисковой системы Яндекс XE «Яндекс» , как позволяющей быстрее провести поиск в ширину, за счет использования в запросе различных словоформ и схожих по смыслу слов.

3.2 Создание базы данных MS Excel XE » MS Excel » .

Microsoft Excel XE » Microsoft Excel » – программа для работы с электронными таблицами, созданная корпорацией Microsoft XE » Microsoft » . Она предоставляет возможности экономико-статистических расчетов, графические инструменты и макропрограммирование VBA XE » VBA » . Microsoft Excel XE » Microsoft Excel » входит в состав Microsoft Office XE » Microsoft Office » и на сегодняшний день Excel XE » Excel » является одним из наиболее популярных приложений в мире.

База данных (date base) – это совокупность хранимых в памяти компьютера данных, которые отображают состояние некоторой предметной области. Данные взаимосвязаны и специальным образом организованы.

При таком информационном отображении предметных сред упор делается не на сами объекты и их свойства, а на отношения между ними, что соответствует так называемой реляционной точке зрения на базы данных.

Excel умеет складывать, вычитать, умножать, делить и выполнять множество других операций. Excel дает возможность предварительно проанализировать последствия принятия тех или иных решений при конкретных обстоятельствах. Excel позволяет автоматизировать не только расчеты как таковые, но позволяет создавать и работать с разнообразными картотеками, системами учета, базами данных и т.п.

Вопросы сбора данных, их хранения, учета и обработки можно решить, имея систему управления списками. Термин список используется в Excel для обозначения базы данных.

База данных – это особый тип рабочей таблицы, в которой не столько вычисляются новые значения, сколько размещаются большие объемы информации в связанном виде.

Например, можно создать базу данных с фамилиями, именами, адресами и номерами телефонов ваших знакомых или список группы со всей информацией об итогах сессии и о размере соответствующей стипендии или ее отсутствии.

База данных представляет собой последовательность записей, содержащую однозначно определенную по категориям и последовательности информацию. Под каждую категорию данных в записи отводится отдельное поле, которому присваивается имя и отводится столбец.

Не будем вдаваться в детальное описание множества функций данного редактора, т.к. наша работа ограничена вводом текстовых данных. Поэтому, кратко остановимся только на некоторых:

Ячейки рабочего листа могут содержать значения (числа, текст, дату и т.п.) или формулу. Информация вводится и редактируется либо в самой ячейке, либо в стоке формул. По умолчанию все ячейки имеют один и тот же размер, который в случае необходимости можно менять. Так же можно изменять и высоту строки;

Весьма удобной функцией является вставка и удаление ячеек. Excel XE » Excel » может вставлять или удалять строки (столбцы) целиком. Это особенно важно, когда надо вставить или удалить ячейки, оставляя окружающие строки и столбцы не тронутыми;

Excel XE » Excel » дает возможность так же выделять диапазон ячеек и объединять их в одну (используется в названии таблиц, колонок);

Если в ячейку введен слишком длинный текст, то Excel XE » Excel » может перенести текст так, чтобы он соответствовал ширине. При этом высота ячейки автоматически увеличивается до необходимого размера;

Весьма удобным является и то, что табличный редактор предоставляет функцию «Поиск и замена», которая предоставляет возможность быстро находить нужные места в рабочем листе и, в случае необходимости, заменять их на другие значения;

Стоить отметить и то, что в готовых документах может появиться необходимость придать таблице четкость и выразительность. Весьма удобной и простой функцией для этих целей является команда «Автоформат». Так же не исключается и ручное форматирование информации, при помощи меню «Формат».

Создание базы данных обеспечивает интеграцию данных и возможность централизованного управления данными, снабжая информацией определенных пользователей.

Создание базы данных (БД XE «БД» ) начинается с проектирования БД, т.е. с определения ее структуры: количества полей, их имен, типа каждого поля (символьный, числовой, дата), длины каждого поля (максимального количества символов), типа данных (исходные, т.е. неизменяемые, или вычисляемые). Возможность использовать вычисляемые поля – основная особенность баз данных в Excel.

База данных создается в обычной электронной таблице, но с выполнением таких правил:

Строка заголовков столбцов (верхняя строка списка) должна быть заполнена именами полей.

Каждая запись должна размещаться в отдельной строке.

Первую запись необходимо разместить в строке, следующей непосредственно за строкой заголовков.

Следует избегать пустых строк между записями.

Любая информация должна быть упорядочена. Хорошая БД – в том числе. Каждая БД имеет некоторый предпочтительный порядок поддержания и просмотра записей. Записи можно расположить, например, в алфавитном порядке фамилий или названий фирм. Для определения рейтинга студентов список группы удобно расположить по убыванию среднего балла. Однако при добавлении новых записей Excel включает их в самый конец БД, добавляя новые строки и нарушая прежний порядок. Это не единственная проблема с упорядочиванием записей, так как всегда может возникнуть необходимость в другом, особенном порядке. Другими словами, при работе с данными требуется гибкость упорядочения записей для различных целей. Процесс упорядочения БД называется сортировкой.

3.2.1 Пример создания таблицы и базы данных MS Excel XE «MS Excel» для последующего использования в написании диссертации.



Страницы: Первая | 1 | 2 | 3 | Вперед → | Последняя | Весь текст