Развлечения с ЕЯ

Форум для предварительного обсуждения тем.
Прежде чем организовать обсуждение в отдельном форуме, полезно убедиться, что четко понимаешь о чем говоришь.
Locked
Бугульдей
Posts: 172
Joined: Sun Aug 13, 2006 2:29 am
Location: Цыган
Contact:

Post by Бугульдей » Thu Aug 24, 2006 9:31 am

Слава, я тут обнаружил, что свой основной интерес Вы постулируете как "инженерия знаний". В связи с этим вопрос: что можете сказать о результатах науки и технологии, близких к автоматической инженерии знаний/автоматич. созданию онтологий (например, онтологий вроде cyc) -- из корпусов ЕЯ, например, или из других источников (последнее не особо интересно)? Какие важные результаты в смежных областях, или нужных для такой автоматики областях -- на Ваш вкус?

UPDATE
Нашёл развёрнутый обзор области. Прочитаю -- поделюсь.
Меня прот, меня прот, потому как гололёт, потому как снег идёт, меня проот
Голубая Луна - Голубая!

Slava
Posts: 2082
Joined: Tue Apr 20, 2004 9:20 am
Location: Moskow

Post by Slava » Thu Aug 24, 2006 11:23 am

Бугульдей Чт Авг 24, 2006 1:31 pm
<...Слава, я тут обнаружил, что свой основной интерес Вы постулируете как "инженерия знаний"...>

Мы называем это технологиями знаний. Инжененрия знаний исходно определялась как технология выявления и формализации уже существующих у экспертов знаний. Этого мало. Принципиально важными являются возможности, связанные с развитием знаний в паре человек-компутер. Это мы называем партнерской системой.

<...В связи с этим вопрос: что можете сказать о результатах науки и технологии, близких к автоматической инженерии знаний/автоматич. созданию онтологий (например, онтологий вроде cyc) -- из корпусов ЕЯ, например, или из других источников (последнее не особо интересно)? Какие важные результаты в смежных областях, или нужных для такой автоматики областях -- на Ваш вкус?...>

Сказать могу, что королевского пути здесь нет, и система должна быть уже достаточно умной, чтобы развиваться и дальше. Дело - реальное.

<...UPDATE Нашёл развёрнутый обзор области. Прочитаю -- поделюсь...>

Будет интересно узнать свежую точку зрения.
PS ========================

Бугульдей
Posts: 172
Joined: Sun Aug 13, 2006 2:29 am
Location: Цыган
Contact:

Post by Бугульдей » Thu Aug 24, 2006 3:08 pm

Интересная теоретическая фига: "Attempts to acquire knowledge from NL [natural language] assume that the required knowledge can be expressed in [the form of NL]. However, it seems as though certain aspects of human expertise cannot be expressed in this way. For example, complex pattern matching knowledge, which might be crucial to the task in hand, cannot easily be expressed using NL." (link)
Меня прот, меня прот, потому как гололёт, потому как снег идёт, меня проот
Голубая Луна - Голубая!

Slava
Posts: 2082
Joined: Tue Apr 20, 2004 9:20 am
Location: Moskow

Post by Slava » Thu Aug 24, 2006 3:19 pm

Бугульдей Чт Авг 24, 2006 7:08 pm
<...Интересная теоретическая фига: "Attempts to acquire knowledge from NL [natural language] assume that the required knowledge can be expressed in [the form of NL]. However, it seems as though certain aspects of human expertise cannot be expressed in this way. For example, complex pattern matching knowledge, which might be crucial to the task in hand, cannot easily be expressed using NL." (link)...>

Спасибо, Посмотрю позже. Интересно. Но главное - все это возможно лишь под контролем уже существующих в системе представлений и знаний. Так что дешево ни при каком раскладе не получится. С этим нужно смириться. И единственное, что остается, это - создавать и использовать адекватные решаемой проблеме средства. Именно это меня всегда и смущало в ленатовских делах. Если он не врет, то есть серьезные шансы его обойти.
PS ========================

Бугульдей
Posts: 172
Joined: Sun Aug 13, 2006 2:29 am
Location: Цыган
Contact:

Post by Бугульдей » Thu Aug 24, 2006 4:00 pm

"Но главное - все это возможно лишь под контролем уже существующих в системе представлений и знаний."

Не обязательно знаний -- но хотя бы представлений -- например, наборов паттернов или жестких (с малым количеством "дырок") фильтров входной информации. Хотя наличие знаний есть очень полезная вещь в данной задаче.

"Так что дешево ни при каком раскладе не получится. С этим нужно смириться."

Похоже на то. Чорт побери!

Интересна цифра процента верных гипотез, формируемых некоторыми описанными в обзоре системами -- около 30%... Остальные 70% -- мусор.

Никогда не думал, что компьютеры настолько тупы.
Меня прот, меня прот, потому как гололёт, потому как снег идёт, меня проот
Голубая Луна - Голубая!

Slava
Posts: 2082
Joined: Tue Apr 20, 2004 9:20 am
Location: Moskow

Post by Slava » Thu Aug 24, 2006 4:23 pm

Бугульдей Чт Авг 24, 2006 8:00 pm
<...Никогда не думал, что компьютеры настолько тупы...>

Пока тупы, но это скоро кончится. Просто не нужно надеяться на тривиальные решения. Если б все было так, то что мы о самих себе должны были бы думать. А когда поработаешь с настоящими спецами, начинаешь понимать, что мы чего-то стоим. Но дело движется, и результаты уже не за горами.

Сумел, как ни странно, этот pdf перегнать в Ворд. Попчитаю дома, а то уже темнеет. По оглавлению судя, видно, что авторы хорошо постарались. Интересно еще при этом, а что они сами во всем этом понимают.
PS ========================

Бугульдей
Posts: 172
Joined: Sun Aug 13, 2006 2:29 am
Location: Цыган
Contact:

Post by Бугульдей » Thu Aug 24, 2006 6:03 pm

покопался в гугле -- отобрал кучу нечитанных ссылок

"SIGNLL aims to promote research in:

* automated acquisition of syntax, morphology and phonology
* automated acquisition of semantic / ontological structure
* automated acquisition of inter-linguistic correspondences
* learning to recognize or produce spoken and written forms
* modelling human language acquisition theory and processes"

SIGNLL links (многие устаревшие) -- http://ilps.science.uva.nl/~erikt/signll/links/

Links to some online papers on automatic ontology acquisition --
http://www.sekt-project.org/resources/r ... ngList.pdf

***

random links on automatic linguistic info acquisition --

ADIOS http://www.cs.tau.ac.il/~ruppin/solan-revised.pdf -- смесь статистики и рулезов
ADIOS http://www.cs.tau.ac.il/~ruppin/pnas_adios.pdf

http://user.phil-fak.uni-duesseldorf.de ... arning.htm

***

Induction of Linguistic Knowledge Research Group - http://ilk.uvt.nl/publications/ -- в т.ч. много статей о Memory-based процессинге ЕЯ и мало о ontology extraction -- многие названия статей понравились

***

автом. созд. словаря (лексикона) http://www.labri.fr/perso/clement/lefff ... ot-1.0.pdf

***

UPDATES (новые ссылки буду снизу дописывать)

Хмм, не знал что citeseer умеет линки на статьи показывать.. Вот ещё 75 статей automatic knowledge acquisition
и вот ещё статьи - http://www.cnts.ua.ac.be/Publications/index.php?pg=6

Вот кубло SIGNLL/CoNLL - со статьями -- http://www.cnts.ua.ac.be/conll2006/

Обзорная статья по методам shallow (частичного) парсинга -- содержит референс на тему априорного задания лингвистических исключений для лёрнеров грамматик -- http://www.cnts.ua.ac.be/Publications/2 ... hoad02.pdf
Last edited by Бугульдей on Sat Aug 26, 2006 4:12 pm, edited 6 times in total.
Меня прот, меня прот, потому как гололёт, потому как снег идёт, меня проот
Голубая Луна - Голубая!

NO
Posts: 1815
Joined: Fri Jan 30, 2004 7:43 pm
Contact:

Post by NO » Fri Aug 25, 2006 4:48 am

Бугульдей wrote:отобрал кучу
Такую литературу сваливают на citeseer.
Здесь языками занимался Тумик, но он давно не появлялся.

Можно чем-нибудь реально пользоваться из всего этого лингво-процессинга? Right here right now.
Я бы хотел вот по этому длинному списку литературы щелкнуть мышкой и в другом окне увидеть книги собранными по категориям. То есть нужно отпарсить html, выделить повторяющиеся блоки, найти в них поля, по текстовым строкам их общую тематику, уже внутри нее найти самое выразительное разделение на категории. Хотя бы перегруппировать по авторам.

По-моему искать статичную онтологию в языке не правильно. Люди обычно берут один текст и нем и разбираются, обращаются к другим текстам только при необходимости. А не так, что прочитывают горы мукулатуры неизвестно про что, чтобы набраться шаблонов, чтобы потом ими декодировать этот нужный текст. Нужно делать систему которая сможет задать вопрос если ей что не понятно. А отнологическая не поймет что она что-то не поняла.

Бугульдей
Posts: 172
Joined: Sun Aug 13, 2006 2:29 am
Location: Цыган
Contact:

Post by Бугульдей » Fri Aug 25, 2006 7:48 am

на citeseer сваливают выходные данные статей, самих статей там мало.
Меня прот, меня прот, потому как гололёт, потому как снег идёт, меня проот
Голубая Луна - Голубая!

Бугульдей
Posts: 172
Joined: Sun Aug 13, 2006 2:29 am
Location: Цыган
Contact:

Post by Бугульдей » Fri Aug 25, 2006 8:02 am

я думаю, надо построить какую-то базисную мусорную онтологию по петабайтам корпусов, а по ней уже пытатться анализировать входные тексты с полнотой понимания. вроде того.
Меня прот, меня прот, потому как гололёт, потому как снег идёт, меня проот
Голубая Луна - Голубая!

Иван FXS
Posts: 2002
Joined: Thu Jan 15, 2004 11:20 am
Location: Москва - Нижний Новгород
Contact:

Post by Иван FXS » Fri Aug 25, 2006 8:20 am

Бугульдей wrote:построить какую-то базисную мусорную онтологию по петабайтам корпусов
- когда осознаете, что "по петабайтам корпусов" нужно строить не "онтологию", а семантику ... дайте мне знать! ;-)

Бугульдей
Posts: 172
Joined: Sun Aug 13, 2006 2:29 am
Location: Цыган
Contact:

Post by Бугульдей » Fri Aug 25, 2006 10:08 am

NO: я думал над Вашим соображением, и вот к чему пришёл. Первое. Я совершенно согласен, что полнота понимания есть holy grail -- и не такой уж, вроде бы, недостижимый, по кр. мере в своих частях. Второе.

Ребёнок обучается на реальном мире. Symbol grounding, т.е. символы языка, у него заземляются именно в мир. Я раздумывал о том, что может быть миром для компьютера. Процессировать видео и звук довольно тяжело -- пушто объёмы информации огромны. Процессировать ЕЯ гораздо проще с этой точки зрения, и пета-корпуса ЕЯ мне представляются идеальной заменой реальному миру. Это, видимо, не на 100% достаточно, но является вроде бы неплохой заменой полноте воспринимаемой реальности. Именно на этой базе хотелось бы начать строить обучение компьютерного "ребенка", именно в этом коренить/заземлять его языковые символы. Т.е. пета-корпуса для меня несут не "смысл", не "знания" и не "онтологии", но всего лишь обширную мусорную землю _опыта_ ребёнка.

Иван: терминология -- это мусор, тем более такая нечёткая и несформировавшаяся, как "онтологии" и "семантика". Это симулякры -- копии того, чего нет. Осознавать их я не желаю и не смогу, потому как их нет, и Вас бы также осмелился нижайше просить на такие чудо-фантики не опираться. Если у Вас есть что-то по существу вопроса, пишите.

Кроме того, думаю, что в простейшем анализе биграмм непроцессированного ЕЯ никакого нет смысла. Кроме того, думаю, что в картах языка смысла нет тоже -- разные энциклопедии и словари делают то же, что и Ваши карты, но существенно лучше. В юности меня очень привлекала идея карт и удобной навигации по языку, хотелось там что-то найти, сейчас же я считаю, что это решительный мусор, и тратить на это хотя бы малейшее время не следует, потому как ум и мозг -- существенно более хорошая карта, особо в сочетании с энциклопедиями и литературой.
Меня прот, меня прот, потому как гололёт, потому как снег идёт, меня проот
Голубая Луна - Голубая!

Бугульдей
Posts: 172
Joined: Sun Aug 13, 2006 2:29 am
Location: Цыган
Contact:

Post by Бугульдей » Fri Aug 25, 2006 12:26 pm

Неплохо --
ADIOS http://www.cs.tau.ac.il/~ruppin/solan-revised.pdf
ADIOS http://www.cs.tau.ac.il/~ruppin/pnas_adios.pdf

Ещё мне дико нравится достаточно необычный (хотя если подумать, то довольно очевидный и мощный) подход "We believe that polarization between statistical and classical (generative, rule-based) approaches to syntax is counterproductive, because it hampers the integration of the stronger aspects of each method into a common powerful framework." (из 1 статьи).

NO: Возможно, алгоритм "ADIOS" Вам может понравиться, поскольку он работает с любыми входными данными, не только ЕЯ. Выясняет грамматику входных данных. Цитата оттуда: "We remark that the algorithm can work in any language, with any set of tokens, including individual characters – or phonemes, if applied to speech." Из второй статьи: "using corpora of raw symbolic sequential data to infer underlying rules", "Given a corpus of strings (such as text, transcribed speech, chromosome or protein sequence data, sheet music, etc.), our unsupervised algorithm recursively distills from it hierarchically structured patterns." "[ADIOS] has been evaluated on artificial context-free grammars with thousands of rules, on natural languages as diverse as English and Chinese, and on protein data correlating sequence with function." "Weintroduce an unsupervised algorithm that discovers hierarchical structure in any sequence data, on the basis of the minimal assumption that the corpus at hand contains partially overlapping strings at multiple levels of organization."

Если из инглиша выкинуть пробелы, этому алгоритму всё равно хорошо -- он и без пробелов справляется (см. 2 статью) -- и без словаря, конечно.

"We estimate the average-case computational complexity of the ADIOS algorithm empirically to increase linearly with the size of the corpus" (2 статья).

Правда, многие детали их алгоритма не описаны, но что-то в этом есть.

Они свой алгоритм даже на Библии гоняли! (Во второй статье).

"In grammar induction from large-scale raw [unlabeled untagged] corpora, our method achieves precision and recall performance unrivaled by any other unsupervised algorithm." (2 ст.)

***

О других аналогичных алгоритмах (2 статья): "Most existing methods require corpora tagged with part-of-speech information...; the very few exceptions... are not known to scale up."
Меня прот, меня прот, потому как гололёт, потому как снег идёт, меня проот
Голубая Луна - Голубая!

NO
Posts: 1815
Joined: Fri Jan 30, 2004 7:43 pm
Contact:

Post by NO » Fri Aug 25, 2006 3:10 pm

В текстах информация все же очень своеобразная. И есть большая разница между знанием и навыком мышления, использующего это знание. Хотя деление на знание и навыки обычно делают не для мышления, а для какой-нибудь физической работы. Но все равно пропасть. Без этого даже сильно разобранный текст будет лишь индексом, с красивым, но примитивным языком запросов.
Допустим будет создана система прочитавшая все книги. Я у нее первым делом спрошу как она сама это использует, для себя. Если никак, то мне этот "ботаник" не нужен, почти все что я от такой системы смогу получить, я могу получить и в Гугле.
Давно разговаривал с кем-то профессионально работающим с языками, он сказал, что ЕЯ не является неформальным и изучать его нужно по соответствующим учебникам, не по текстам. Вот для меня ЕЯ неформален, я его не знаю, мне по русскому троечку ставили только чтобы школе показатели не портить.
А статистические, марковские и т.п. алгоритмы удобнее пробовать на числах.

Бугульдей
Posts: 172
Joined: Sun Aug 13, 2006 2:29 am
Location: Цыган
Contact:

Post by Бугульдей » Fri Aug 25, 2006 3:25 pm

Что-то я Вашему профессионалу не верю ни на грош. Если он и прав, то весьма и весьма поверхностно. Иными словами: он прав на доли процента.

Кроме того, Ваш профессионал походя засунул в топку всю мировую литературу, которая и формирует язык. Она формальна? Неужели?

Таких профессионалов я весьма не люблю.

ЕЯ никто не знает, не только Вы. У меня всегда пятёрка была за русский. Я в школе по русскому кружок вёл с преподавателем. И я его до сих пор не знаю.
Меня прот, меня прот, потому как гололёт, потому как снег идёт, меня проот
Голубая Луна - Голубая!

Locked

Who is online

Users browsing this forum: No registered users and 5 guests