About SIMAP

About SIMAP

log in

What is SIMAP?
SIMAP is a database of protein similarities and . It contains about all currently published protein sequences and is continuously updated. Protein similarities are computed using the algorithm which provides optimal speed and sensitivity. Protein domains are calculated using the methods and databases. SIMAP is to our knowledge the only project that combines comprehensive coverage with respect to all known proteins and incremental update capabilities.

What is SIMAP used for?
Because of the huge amount of known protein sequences in public databases it became clear that most of them will not be experimentally characterized in the near future. Nevertheless, proteins that have evolved from a common ancestor often share same functions (so-called ). So it is possible to infer the function of a non-characterized protein from an ortholog with known function. A well-known example are the investigations about mouse genes and proteins. Their results are also beeing true for orthologous human genes and proteins in many cases. Protein similarities provide information about relations between proteins and are necessary for the prediction of orthologs.
(often called function domains) are the structural building blocks of proteins. They are responsible for the activities of a certain protein, e.g. binding of small molecules, catalytic reactions or binding other proteins in large complexes. The knowledge about protein domains is stored in huge repositories like the InterPro databases. The prediction of domains in newly sequenced proteins is based on those database and provides a fully-automatic of these proteins. Therefore we calculate protein domains for all proteins in SIMAP, thus providing the largest system for protein function prediction worldwide.
There are many more bioinformatics methods that rely on protein similarity and domains. Our protein similarity database provides pre-computed similarity and domain data and represents the known protein space. This opens completely new perspectives compared to the commonly used method to repeatedly re-calculate such kind of data. SIMAP is regularly updated. The similarity matrix is simply beeing incrementally extended if new sequences occur. The use of SIMAP is completely free for education and public research.

Why do we need distributed computing for SIMAP?
The computational costs to calculate the similarity data depend on the square of the number of contained sequences. So the computational effort for keeping the matrix up-to-date is constantly increasing. Our internal resources that perform calculations for SIMAP since years are not longer sufficient to keep track of all new sequences. That's why we implemented a SIMAP-client for the BOINC platform (Berkeley Open Infrastructure for Network Computing) which is based on the FASTA algorithm to detect sequence similarities.
The situation for proteins domains is different but of similar complexity. The computational costs are proportional to the number of sequences and the number of domain models. Due to the growth of the sequence space and the frequent updates in the domain databases the computational effort for keeping the domain predictions up-to-date is constantly increasing.

What are the institutions behind SIMAP?
SIMAP is a joint project of the GSF National Research Center for Environment and Health, Neuherberg and Technical University Munich, Center of Life and Food Science Weihenstephan (both in Germany). Please contact Thomas Rattei (Department of Genome Oriented Bioinformatics, TU Munich).

Über das SIMAP Projekt

Was ist SIMAP:
SIMAP ist eine Datenbank, in der die Ähnlichkeiten aller derzeit bekannten Proteinsequenzen untereinander sowie deren Domänen gespeichert sind. Man kann sich das als Matrix vorstellen, die quadratisch ist bei einer Kantenlänge von Millionen Proteinsequenzen die wir in SIMAP speichern. Der Inhalt der Matrix ist symmetrisch, das heißt wenn Protein 1 dem Protein 2 ähnlich ist, dann ist es umgekehrt genauso. SIMAP ist weltweit das einzige derartige Projekt, bei dem wirklich alle Proteine einbezogen werden. Das "Konkurrenzprojekt" clustr am European Bioinformatics Institute beschränkt sich derzeit auf ca. 1/5 unserer Datenmenge.

Wem nutzt SIMAP?
Proteinähnlichkeiten geben Hinweise auf die Verwandschaftsverhältnisse zwischen Proteinen. Verwandte Proteine haben oft gleiche oder ähnliche Eigenschaften und Funktionen im Organismus, da sie sich im Lauf der Evolution nur langsam verändern. Da man derzeit viel mehr Proteinsequenzen kennt als man eingehend in Labors untersuchen kann, werden die experimentellen Erkenntnisse über ein Protein auch auf dessen Verwandte übertragen. Ein gutes Beispiel dafür ist die intensive Untersuchung von Mausgenen und -proteinen, deren Ergebnisse oft auch für den Menschen gültig sind.
Proteindomänen sind die strukturellen Bausteine der Proteine und verantwortlich für die Aktivitäten eines bestimmten Domains. So ermöglichen sie z.B. die Bindung kleiner Moleküle, katalytische Reaktionen oder die Zusammenlagerung von Proteinen zu groß:en Komplexen. Das Wissen über Proteindomänen ist in großen Repositorien gespeichert, vor allem in den InterPro-Datenbanken. Die Vorhersage von Proteindomänen in neu sequenzierten Proteinen beruht auf diesen Datenbanken und ermöglicht eine automatische funktionelle Annotation dieser Proteine. Daher berechnen wir die Proteindomänen mit Hilfe der InterPro-Datenbanken für alle Proteine in SIMAP. Somit stellen wir das weltweit umfangreichste System für die Funktionsvorhersage von Proteinen bereit.
Darüber hinaus gibt es noch viele weitere Methoden in der Bioinformatik, die auf Proteinähnlichkeiten basieren. Unsere Proteinähnlichkeitsdatenbank stellt all diesen Methoden die vorberechneten Ähnlichkeiten aller bekannten Proteine zur Verfügung. Dadurch eröffnen sich neuartige Möglichkeiten, denn bislang würden die Ähnlichkeiten immer und immer wieder neu berechnet. SIMAP wird regelmäßig aktualisiert und muss nur neu hinzukommende Sequenzen in die Matrix integrieren (sogenannte inkrementelle updates). SIMAP ist für Forschung und Lehre vollständig kostenlos verfügbar.

BoincSIMAP:
Da der Berechnungsaufwand für eine solche Matrix quadratisch mit der Größe der Matrix steigt, sind unsere internen Resourcen (gridengine-cluster unter Linux) schon lange nicht mehr ausreichend. Daher haben wir eine boinc-Applikation implementiert, die auf den Quellen von FASTA aufbaut, eines heuristischen Programms zur Sequenzähnlichkeitssuche.
Der Berechnungsaufwand für die Proteindomänen ist von vergleichbarer Komplexität, denn er ist sowohl von der Anzahl der Proteinsequenzen in SIMAP als auch von der Anzahl der Domänenmodelle in den InterPro-Datenbanken abhängig. Da sowohl die Anzahl der Proteine ständig wächst als auch die Domänenmodelle immer wieder erweitert und aktualisiert werden, ist der Rechenaufwand für uns nur mit Hilfe eines BOINC-Projektes zu bewältigen.
Die boincsimap-Applikationen sind derzeit Minimal-Programme ohne Screensaver-Grafik etc., da wir erstmal Wert auf die reine Funktionalität gelegt haben.

Wer betreibt SIMAP?
SIMAP ist ein Gemeinschaftsprojekt des GSF-Forschungszentrums für Gesundheit und Umwelt in Neuherberg bei München und der Technischen Universität München, Wissenschaftszentrum Weihenstephan. Ansprechpartner ist Thomas Rattei vom Lehrstuhl für Genomorientierte Bioinformatik.

Au sujet du projet de SIMAP

Qu'est-ce que SIMAP ?
SIMAP est une base de données de similitude entre protéines. Celle-ci rassemble toutes les séquences de protéines actuellement publiées et est continuellement mise à jour. Les similtudes entre protéines sont calculées à l'aide de l'algorithme FASTA qui fournit la vitesse optimale et la sensibilité nécessaire. SIMAP est à notre sens le seul projet qui combine les vastes connaissances de toutes les protéines actuellement connues et la capacité à en découvrir d'autres progressivement.

En quoi SIMAP est-il utile ?
Du fait de la quantité énorme de séquences de protéines connues dans les bases de données publiques, il est devenu clair que la plupart d'entre-elles ne seront pas expérimentalement traitées dans un avenir proche . Néanmoins, les protéines qui se sont développées à partir d'un ancêtre commun partagent souvent les mêmes fonctions (dites orthologues). Donc, il est possible de déduire la fonction d'une protéine orthologue non-caractérisée avec la fonction connue. Un exemple bien connu sont les investigations sur les gènes et les protéines de souris . Leurs résultats valent aussi pour les gènes et les protéines orthologues humains dans de nombreux cas. Les similitudes entre protéines fournissent des informations sur les relations entre elles et sont nécessaires à la prévision d'orthologues. Il y a de nombreuses méthodes bio-informatiques sur lequelles ont peut s'appuyer concernant la similitude entre protéines. Notre base de données de similitude entre protéines fournit des données de similitude pré-calculées et représente l'espace connu de protéines. Cela ouvre vraiment de nouvelles perspectives comparé à la méthode communément utilisée qui consiste à recalculer de manière répétitive ce type de données. SIMAP est régulièrement mis à jour. La matrice de similitude est simplement étendue de manière incrémentale si de nouvelles séquences arrivent. L'utilisation de SIMAP est complètement gratuite pour l'Éducation et la Recherche Publique.

Pourquoi avons-nous besoin du calcul distribué pour SIMAP ?
Les dépenses informatiques pour calculer les données de similitude dépendent de la taille du nombre de séquences contenues. Donc l'effort de calcul informatique pour tenir la matrice à jour augmente constamment . Nos ressources internes qui exécutent des calculs pour SIMAP depuis des années ne sont plus suffisantes pour traiter toutes les nouvelles séquences. C'est pourquoi nous avons mis en oeuvre un client SIMAP compatible avec la plateforme BOINC (Berkeley Open Infrastructure for Network Computing) qui est basé sur l'algorithme FASTA pour détecter des similitudes de séquences. Nous accomplissons maintenant les derniers essais et sommes sur le point de commencer un projet basé sur BOINC qui contribuera bientôt aux calculs de similitude SIMAP.

Quelles sont les institutions à l'origine de SIMAP ?
SIMAP est un projet commun du Centre de Recherches National GSF pour l'Environnement et la Santé, Neuherberg et l'Université Technique de Munich, le Centre de Vie et Science d'Alimentation Weihenstephan (tous basés en Allemagne). Pour toute information, veuillez contacter Thomas Rattei (Département de Génome Bio-informatique Orientée, TU Munich)

Traduit par Nuxi@ pour Le Freenaute.

 

О SIMAP

Что такое SIMAP?
SIMAP - база данных сходств протеинов. Она содержит почти все опубликованные протеиновые последовательности и постоянно обновляется. Протеиновые последовательности вычисляются с использованием алгоритма FASTA, который обеспечивает оптимальные скорость и чувствительность. SIMAP - единственный известный нам проект, совмещающий исчерпывающее покрытие в отношении всех известных протеинов и возможности инкрементального обновления.

Для чего используется SIMAP?
Огромное количество известных протеиновых последовательностей в публичных базах данных не позволит в ближайшем будущем экспериментально описать большинство из них. Тем не менее, протеины, полученные от общего предка, часто имеют те же функции (так называемые ортологи - orthologs). Таким образом оказывается возможным вывести функцию неохаракеризованного протеина из ортолога с известной функцией. Широко известные примеры - исследования генов и протеинов мыши. Их результаты оказались во многих случаях справедливыми и для человеческих генов и протеинов. Сходства протеинов предоставляют информацию о связях между протеинами и необходимы для предсказания ортологов. Существует множество биоинформационных методов, полагающихся на сходства протеинов. Наша база данных сходств протеинов предоставляет предварительно вычисленные данные о сходстве и представляет известное пространство протеинов. Это открывает абсолютно новые перспективы по сравнению с используемыми методами для повторного пересчёта такого рода данных. SIMAP регулярно обновляется. Матрица сходств расширяется по мере появления новых последовательностей. Использование SIMAP полностью бесплатно для образовательных целей и публичных исследований.

Зачем нам нужны распределённые вычисления для SIMAP?
Стоимость вычислений данных о сходствах протеиновых послеовательностей пропорциональна квадрату количества содержащихся последовательностей. Таким образом, вычислительные усилия для поддержания матрицы в актуальном состоянии постоянно растут. Наших внутренних ресурсов, годами выполняющих вычисления для SIMAP, больше не достаточно для отслеживания новых последовательностей. Вот почему мы реализовали SIMAP-клиента для платформы BOINC (Berkeley Open Infrastructure for Network Computing), основанного на алгоритме FASTA для обнаружения сходств последовательностей.

Какие организации стоят за SIMAP?
SIMAP - это совместный проект GSF Национального исследовательского центра окружающей среды и здоровья в Нойерберге под Мюнхеном и Научного центра жизни и питания в Вайенстефане (Германия). Контактное лицо - Томас Раттай (Отдел геном-ориентированной биоинформатики, Технический Университет, Мюнхен).

Перевёл Вит Сердаковский

Translation by "witdba" from the Boinc-Simap forum.

ACERCA DE SIMAP

¿Qué es SIMAP?
SIMAP es una base de datos de similitud de proteínas que contiene casi todas las secuencias proteicas publicadas y está en continua actualización. Las similitud de proteínas es establecida mediante el algoritmo FASTA, el cual proporciona una rapidez y sensibilidad óptimas. SIMAP es, por lo que sabemos, el único proyecto que combina una extensa cobertura de las proteínas conocidas con capacidad de actualización incremental.

¿Cúal es la utilidad de SIMAP?
Debido a la inmensa cantidad de secuencias de proteínas en las bases de datos de dominio público, es obvio que en un futuro cercano la mayoría de ellas no podrán ser caracterizadas experimentalmente. Sin embargo, se ha observado que proteínas que han evolucionado directamente a partir de un ancestro común (los llamados ortólogos) tienden a compartir las mismas funciones. Por lo tanto, es posible inferir la función de una proteína que no haya sido caracterizada a partir de uno de sus ortólogos del que ya se conozca su función. Un ejemplo bien conocido son las investigaciones realizadas en genes y proteínas de ratón, cuyos resultados son en muchos casos extrapolables a sus genes y proteínas homólogas en humanos. La similitud entre proteínas proporciona información sobre las relaciones entre éstas y es necesaria para la predicción de ortólogos. Sin embargo, además del algoritmo FASTA, hay otros muchos métodos bioinformáticos que se basan en la similitud entre secuencias proteicas por lo que SIMAP también proporciona otros datos de similitud precomputables con el fin de representar el espacio conocido de cada proteína. Esta estrategia ofrece una nueva y eficiente perspectiva en comparación con el método usado normalmente que implica recalcular repetidamente este tipo de datos. SIMAP se actualiza regularmente por incremento de la matriz de similitud cada vez que aparece una nueva secuencia. El uso de SIMAP es totalmente gratis para fines educativos y de investigación pública.

¿Por qué el proyecto SIMAP necesita computación distribuida?
Los costes computacionales para calcular la similitud de proteínas son proporcionales al cuadrado del número de secuencias contenidas por lo que el esfuerzo computacional para mantener la matriz actualizada está en aumento constante. Nuestros recursos internos, con los que se han generado los cálculos para SIMAP en los últimos años, ya no son suficientes para afrontar el volumen actual de secuencias disponibles. Por ello, hemos puesto en práctica un cliente SIMAP para la plataforma BOINC (Berkeley Open Infrastructure for Network Computing) con el que detectar similitudes de secuencia mediante el algoritmo FASTA.

¿Qué instituciones están implicadas en SIMAP?
SIMAP es un proyecto conjunto del Centro de Investigación de la Salud y el Medio Ambiente GSF de Neuherberg y del Centro de Ciencias de la Vida y Tecnología de los Alimentos Weihenstephan de la Universidad Técnica de Munich (ambos en Alemania).

Persona de contacto: Thomas Rattei (Departamento de Bioinformática orientada al Genoma, TU Munich).

Translation by Blanca Perez-Revuelta (Laboratory for Alzheimer's and Parkinson's Disease Research, LMU München) and Antonio Martin (TU München)

Progetto SIMAP

Cos'è SIMAP?
SIMAP è un database di similitudini tra proteine. Contiene tutte le sequenze di proteine ad oggi pubblicate e continuamente aggiornate. Le similitudini proteiche vengono individuate usando l'algoritmo FASTA che fornisce la velocità e la sensibilità necessaria. I domini delle proteine sono calcolati usando i database e il metodo InterPro. SIMAP è il solo progetto che combina la vaste conoscenze di tutte le proteine attualmente conosciute e la capacità di scoprirne delle altre in futuro.

Per cosa è usato SIMAP?
L'enorme quantità di sequenze di proteine conosciute presenti nei database pubblici ha reso chiaro che la maggior parte di queste non potranno essere caratterizzate sperimentalmente nel prossimo futuro. Tuttavia, proteine che si sono evolute da un ancestore comune conserveranno la stessa funzione (proteine chiamate ortologhe). Dunque, è possibile dedurre la funzione di una proteina ortologa, non ancora caratterizzata, attraverso la funzione comune. Un esempio, ben documentato, riguarda gli studi sul patrimonio genetico e le proteine del topo. Questi risultati valgono, nella maggior parte dei casi, anche per i geni e le proteine ortologhe umane. Le similitudini tra proteine forniscono delle informazioni sulle relazioni tra loro e sono necessarie per la previsione delle ortologhe. Ci sono numerosi metodi bio-informatici sui quali si può fare affidamento riguardo lo studio di similitudini tra proteine. Il nostro database di similitudini tra proteine fornisce dati di similarità pre-calcolati e rappresenta lo spazio conosciuto delle proteine. Questa strategia offre una nuova ed efficiente prospettiva rispetto col metodo usato normalmente che implica di ricalcolare ripetutamente questi tipi di dati. SIMAP si aggiorna automaticamente incrementando la matrice di similitudine ogni volta che appare una nuova sequenza. L'uso di SIMAP è totalmente gratuito per fini educativi ed è una ricerca pubblica.

Perchè il progetto SIMAP necessita del calcolo distribuito?
I costi computazionali per calcolare la similitudine tra proteine sono proporzionali al quadrato del numero di sequenze contenute, per questo, lo sforzo computazionale per mantenere la matrice aggiornata aumenta costantemente. Le nostre risorse interne che effettuano calcoli per SIMAP non sono già da anni sufficienti per trattare tutte le nuove sequenze proteiche. E' per questo che noi abbiamo creato un client SIMAP compatibile con la piattaforma BOINC (Berkeley Open Infrastructure for Network Computing) che si basa sull'algoritmo FASTA per individuare le similitudini tra le sequenze.

Quali sono le istituzioni implicate nel progetto SIMAP?
SIMAP è un progetto comune del Centro Nazionale delle Ricerche per l'Ambiente e la Salute, Neuherberg e l'Università di Monaco, il Centro di Vita e Scienza dell'alimentazione Weihenstephan (tutti situati in Germania). Per qualsiasi informazione si prega di contattare Thomas Rattei (Department of Genome Oriented Bioinformatics, TU Monaco).

Tradotto da Tommaso Ferrara (italian boinc user)

SIMAPとは?

SIMAPはタンパクの相同性とドメインのデータベースであり、

今日論文で発表されているほとんどすべてのタンパクの配列を含み、定期的にアップデートされている。タンパクの相同性は、最適なスピードと感度をあわせもつFASTAアルゴリズムで計算されている。タンパクドメインは、Interpro法とデータベースをつかって計算されている。我々の知るところでは、すべての既知のタンパクを取り入れ、さらにアップデート能力を組み合わせているプロジェクトはSIMAPだけである。

SIMAPの目的は

公共のデータベース内のタンパク配列の数は膨大であるため、それらのほとんどの性質を近い将来に実験でつきとめることは不可能であろう。それでも、共通の祖先から進化して来たタンパク (オーソログ) はしばしば同じ機能を共有している。そのため、まだ性質のわかっていないタンパクでも、機能がわかっているオーソログから、その機能を推測出来る。よく知られている例は、マウスの遺伝子とタンパクに関する研究である。そうした結果は、多くの場合で、ヒトの遺伝子とタンパクオーソログにもあてはまる。タンパクの相同性は、タンパク間の関連についての情報を提供してくれるし、また、オーソログを予見することにも必要である。タンパクドメイン (しばしば、機能的ドメインとよばれる) は、構造的にタンパクを構築するブロックである。それらは、タンパクによっては、例えば、小分子の結合、触媒反応、巨大複合体における他のタンパクとの結合などの活性のために不可欠である。タンパクドメインについての情報は、interproのような巨大なデータベースに保存されている。新しく配列を決定されたタンパクは、そうしたデータベースにもとづいてドメインの予測が行われ、自動的にタンパクの機能的注釈がつけられる。それゆえ、タンパクの機能予測のための世界で一番大きいシステムを提供できるように、我々はSIMAPにおいてすべてのタンパクにドメインを算出している。タンパクの相同性とドメインに基づく生命情報工学的手法はいくつも存在している。我々のタンパク相同性データベースは、コンピュータによって前もって計算された相同性とドメインデータを提供しており、既知のタンパク空間を代表している。これは、一般に使われている方法がそのたびごとにそうしたデータを繰り返し計算しているのと比較してみても、完全に新しい視点を開くものである。SIMAPは定期的にアップデートされており、新しい配列が現れた場合には、相同性マトリクスは単純に、ますます拡張されていく。

SIMAPの利用は、教育と公共の研究には、完全に無料である。

SIMAP分散コンピューティングはどうして必要か?

相同性データを計算するコンピューティングのコストは、それに含まれる配列数の二乗に依存する。よって、最新のマトリクスを維持するための計算量は持続的に増加している。何年にもわたってSIMAPのための計算を続けて来たが、すべての新しい配列を追い続けるには、研究所内部の計算資源では不十分である。そのため、我々は、FASTAアルゴリズムに基づいて配列相同性を検出するBOINC (Berkeley Open Infrastructure for Network Computing) プラットホームのためのSIMAPクライアントを実行した。タンパクドメインの状態は、異なってはいるが似ているという複雑系である。コンピューティングのコストは、配列数とドメインモデル数に比例する。配列空間の成長、ドメインデータベースの頻繁なアップデートのために、最新のドメイン予測を維持する計算量は常に増加し続けている。

SIMAPの背景にある機関は?

SIMAPGSF 国立環境保健研究センター (ノイヘルベルク) ミュンヘン工科大学、ヴァイエンシュテファン生命食料科学センターの共同研究プロジェクトである (ともにドイツ)。担当者はThomas Rattei (ミュンヘン工科大学、ゲノム指向生命情報工学科)

Translation by Dr. Hiroshi Arakawa (GSF) and Felix Spremberg (LMU München)

O SIMAP

Czym jest SIMAP?
SIMAP jest bazą danych podobieństw protein i domen protein. Zawiera prawie wszystkie aktualnie opublikowane sekwencje protein i jest ciągle uaktualniana. Podobieństwa protein są wyliczane za pomocą algorytmu FASTA który oferuje optymalną prędkość i czułość. Domeny protein są wyliczane przy użyciu metod i baz danych InterPro. SIMAP jest według naszej wiedzy jedynym projektem który łączy wyczerpujący zasięg badań w odniesieniu do wszystkich znanych protein i możliwości uaktualniania przyrostowego.

Do czego jest używany SIMAP?
Z powodu olbrzymich ilości znanych sekwencji protein dostępnych w publicznych bazach danych, stało się jasnym, że większość z nich nie zostanie eksperymentalnie scharakteryzowana w najbliższej przyszłości. Niemniej jednak, proteiny które wywodzą się ze wspólnego przodka często posiadają te same funkcje. Dobrze znanym przykładem są badania dotyczące genów myszy i protein. Wyniki tych badań są również w wielu przypadkach prawdziwe dla ortologicznych genów i protein ludzkich. Podobieństwa protein dostarczają informacji o relacjach pomiędzy proteinami i są niezbędne to przewidywania ortologii pomiędzy nimi.
Domeny protein (często nazywane domenami funkcji) są blokami budującymi struktury protein. Są one odpowiedzialne za działania danej proteiny, na przykład wiązanie małych cząstek, reakcje katalityczne lub wiązanie innych protein w duże kompleksy. Wiedza o domenach protein jest składowana w olbrzymich repozytoriach jak bazy danych InterPro. Przewidywanie domen w nowo odkrytych proteinach jest oparte na tej bazie danych i dostarcza w pełni zautomatyzowanej funkcjonalnej adnotacji tych protein. Dlatego obliczamy domeny protein dla wszystkich protein w SIMAP, i w ten sposób dostarczamy, największego na całym świecie, systemu dla przewidywania funkcji protein.
Istnieje o wiele więcej bioinformatycznych metod które bazują na podobieństwie protein i domen. Nasza baza danych podobieństw protein dostarcza wstępnie obrobionych danych podobieństw oraz domen, i reprezentuje znany zakres protein. To otwiera całkowicie nowe perspektywy w porównaniu do powszechnie używanej metody by wciąż na nowo ponownie przeliczać dane tego typu. SIMAP jest regularnie aktualizowany. Matryca podobieństw jest po prostu poszerzana w miarę pojawiania się nowych sekwencji protein. Użytkowanie SIMAP jest całkowicie darmowe dla celów edukacji i badan publicznych.

Dlaczego potrzebujemy przetwarzania rozproszonego dla SIMAP?
Koszty mocy obliczeniowej do przetwarzania danych podobieństw zależy od kwadratu liczby zawartych sekwencji. Tak więc koszt przetwarzania, by utrzymać aktualną macierz sekwencji, ciągle wzrasta. Nasze wewnętrzne zasoby które wykonują obliczenia dla SIMAP od lat, juz nie wystarczają by śledzić wszystkie nowe sekwencje. Dlatego zaimplementowaliśmy klienta-SIMAP na platformie BOINC (Berkeley Open Infrastructure for Network Computing) która bazuje na algorytmie FASTA by wykrywać podobieństwa sekwencji.
W przypadku domen protein sytuacja jest inna lecz równie skomplikowana. Koszty przetwarzania są proporcjonalne do ilości sekwencji i ilości modeli domen. Z powodu wzrostu przestrzeni sekwencji i częstych aktualizacji w bazie danych domen, koszt przetwarzania, by utrzymać przewidywania domen aktualnymi, ciągle rośnie.

Jakie instytucje stoją za SIMAP?
SIMAP jest wspólnym projektem GSF Narodowego Centrum Badań nad Środowiskiem i Zdrowiem w Neuherberg, uniwersytetu Technicznego w Monachium, Centrum Nauk o Życiu i Żywności w Weihenstephan. Osobą kontaktową jest Thomas Rattei (Wydział Genowo-Zorientowanej BioInformatyki, Uniwersytet Techniczny w Monachium).

Translation by Aleksander Parkitny



Return to SIMAP - Similarity Matrix of Proteins main page


Copyright © 2023 University of Vienna