forum.opennet.ru

Составление сообщения

Исходное сообщение

"Евросоюз финансирует проект открытой системы автоматического..."
Отправлено HardNik, 28-Янв-10 02:01

>Статистические системы переводят с высоким качеством устную речь в текст. Неужели данный
>подход окажется столь слабым и неэффективным для перевода с языка на
>язык?
К сожалению, перлы на перле - детский лепет, по сравнению с фокусами,результатами контекстной зависимости естественных языков.
В русском яязыке 200 000 базовых словоформ, 3 000 000 производных, и 5 200 000 семантических единиц из этих словоформ. Средняя длина предложения 10 слов, средняя длина слова 5 символов(цифра странная, но если учесть кол-во одно-двух-буквенных предлогов и союзов, объяснимая) . Непроективность русского языка (я памятник себе воздвиг нерукотворный;памятник я себе воздвиг нерукотворный;памятник я воздвиг себе нерукотворный;памятник я воздвиг нерукотворный себе; и тд) позволяет тупо дать оценку для разбора 70% предложений, как число упорядоченных сочетаний по 10 из 5200000 ~= 2E12, только для хранения базы потребуется 2байт* 10слов * 5букв * 2Е12= более 100 000 терабайт. И это для одного языка и попадание только 70%.
Так что на свой вопрос можете ответить сами.

Исходное сообщение
"Евросоюз финансирует проект открытой системы автоматического..." Отправлено HardNik, 28-Янв-10 02:01
>Статистические системы переводят с высоким качеством устную речь в текст. Неужели данный >подход окажется столь слабым и неэффективным для перевода с языка на >язык? К сожалению, перлы на перле - детский лепет, по сравнению с фокусами,результатами контекстной зависимости естественных языков. В русском яязыке 200 000 базовых словоформ, 3 000 000 производных, и 5 200 000 семантических единиц из этих словоформ. Средняя длина предложения 10 слов, средняя длина слова 5 символов(цифра странная, но если учесть кол-во одно-двух-буквенных предлогов и союзов, объяснимая) . Непроективность русского языка (я памятник себе воздвиг нерукотворный;памятник я себе воздвиг нерукотворный;памятник я воздвиг себе нерукотворный;памятник я воздвиг нерукотворный себе; и тд) позволяет тупо дать оценку для разбора 70% предложений, как число упорядоченных сочетаний по 10 из 5200000 ~= 2E12, только для хранения базы потребуется 2байт* 10слов * 5букв * 2Е12= более 100 000 терабайт. И это для одного языка и попадание только 70%. Так что на свой вопрос можете ответить сами.

Ваше сообщение

Имя*:

EMail:

Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email).
Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.

Заголовок*:

Сообщение*:

При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.

На сайте действует частичное премодерирование - после публикации некоторые сообщения от анонимов могут автоматически скрываться ботом. После проверки модератором ошибочно скрытые сообщения раскрываются. Для ускорения раскрытия можно воспользоваться ссылкой "Сообщить модератору", указав в качестве причины обращения "скрыто по ошибке".

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру