


Comment puis-je optimiser ma transformation théorique des nombres (NTT) et mon arithmétique modulaire pour une mise au carré rapide de très grands nombres??
Dec 18, 2024 pm 04:56 PMArithmétique modulaire et optimisations NTT (DFT à champs finis)
Problème?: Je voulais utiliser NTT pour une mise au carré rapide (voir Calcul rapide du carré bignum), mais le résultat est lent même pour les très grands nombres .. plus de 12 000 bits.
Ma question est donc?:
- Y a-t-il un moyen d'optimiser mon Transformation NTT ?
Je ne voulais pas l'accélérer par parallélisme (threads)?; il s'agit uniquement d'une couche de bas niveau. - Existe-t-il un moyen d'accélérer mon calcul modulaire??
Voici mon code source (déjà optimisé) en C pour NTT (il est complet et 100% fonctionne en C sans avoir besoin de bibliothèques tierces et doit également être thread-safe. Attention, le tableau source est utilisé comme temporaire !!!, il ne peut pas non plus transformer le tableau en lui-même).
//--------------------------------------------------------------------------- class fourier_NTT // Number theoretic transform { public: DWORD r,L,p,N; DWORD W,iW,rN; fourier_NTT(){ r=0; L=0; p=0; W=0; iW=0; rN=0; } // main interface void NTT(DWORD *dst,DWORD *src,DWORD n=0); // DWORD dst[n] = fast NTT(DWORD src[n]) void INTT(DWORD *dst,DWORD *src,DWORD n=0); // DWORD dst[n] = fast INTT(DWORD src[n]) // Helper functions bool init(DWORD n); // init r,L,p,W,iW,rN void NTT_fast(DWORD *dst,DWORD *src,DWORD n,DWORD w); // DWORD dst[n] = fast NTT(DWORD src[n]) // Only for testing void NTT_slow(DWORD *dst,DWORD *src,DWORD n,DWORD w); // DWORD dst[n] = slow NTT(DWORD src[n]) void INTT_slow(DWORD *dst,DWORD *src,DWORD n,DWORD w); // DWORD dst[n] = slow INTT(DWORD src[n]) // DWORD arithmetics DWORD shl(DWORD a); DWORD shr(DWORD a); // Modular arithmetics DWORD mod(DWORD a); DWORD modadd(DWORD a,DWORD b); DWORD modsub(DWORD a,DWORD b); DWORD modmul(DWORD a,DWORD b); DWORD modpow(DWORD a,DWORD b); }; //--------------------------------------------------------------------------- void fourier_NTT:: NTT(DWORD *dst,DWORD *src,DWORD n) { if (n>0) init(n); NTT_fast(dst,src,N,W); // NTT_slow(dst,src,N,W); } //--------------------------------------------------------------------------- void fourier_NTT::INTT(DWORD *dst,DWORD *src,DWORD n) { if (n>0) init(n); NTT_fast(dst,src,N,iW); for (DWORD i=0;i<N;i++) dst[i]=modmul(dst[i],rN); // INTT_slow(dst,src,N,W); } //--------------------------------------------------------------------------- bool fourier_NTT::init(DWORD n) { // (max(src[])^2)*n < p else NTT overflow can ocur !!! r=2; p=0xC0000001; if ((n<2)||(n>0x10000000)) { r=0; L=0; p=0; W=0; iW=0; rN=0; N=0; return false; } L=0x30000000/n; // 32:30 bit best for unsigned 32 bit // r=2; p=0x78000001; if ((n<2)||(n>0x04000000)) { r=0; L=0; p=0; W=0; iW=0; rN=0; N=0; return false; } L=0x3c000000/n; // 31:27 bit best for signed 32 bit // r=2; p=0x00010001; if ((n<2)||(n>0x00000020)) { r=0; L=0; p=0; W=0; iW=0; rN=0; N=0; return false; } L=0x00000020/n; // 17:16 bit best for 16 bit // r=2; p=0x0a000001; if ((n<2)||(n>0x01000000)) { r=0; L=0; p=0; W=0; iW=0; rN=0; N=0; return false; } L=0x01000000/n; // 28:25 bit N=n; // size of vectors [DWORDs] W=modpow(r, L); // Wn for NTT iW=modpow(r,p-1-L); // Wn for INTT rN=modpow(n,p-2 ); // scale for INTT return true; } //--------------------------------------------------------------------------- void fourier_NTT:: NTT_fast(DWORD *dst,DWORD *src,DWORD n,DWORD w) { if (n<=1) { if (n==1) dst[0]=src[0]; return; } DWORD i,j,a0,a1,n2=n>>1,w2=modmul(w,w); // reorder even,odd for (i=0,j=0;i<n2;i++,j+=2) dst[i]=src[j]; for ( j=1;i<n ;i++,j+=2) dst[i]=src[j]; // recursion NTT_fast(src ,dst ,n2,w2); // even NTT_fast(src+n2,dst+n2,n2,w2); // odd // restore results for (w2=1,i=0,j=n2;i<n2;i++,j++,w2=modmul(w2,w)) { a0=src[i]; a1=modmul(src[j],w2); dst[i]=modadd(a0,a1); dst[j]=modsub(a0,a1); } } //--------------------------------------------------------------------------- void fourier_NTT:: NTT_slow(DWORD *dst,DWORD *src,DWORD n,DWORD w) { DWORD i,j,wj,wi,a,n2=n>>1; for (wj=1,j=0;j<n;j++) { a=0; for (wi=1,i=0;i<n;i++) { a=modadd(a,modmul(wi,src[i])); wi=modmul(wi,wj); } dst[j]=a; wj=modmul(wj,w); } } //--------------------------------------------------------------------------- void fourier_NTT::INTT_slow(DWORD *dst,DWORD *src,DWORD n,DWORD w) { DWORD i,j,wi=1,wj=1,a,n2=n>>1; for (wj=1,j=0;j<n;j++) { a=0; for (wi=1,i=0;i<n;i++) { a=modadd(a,modmul(wi,src[i])); wi=modmul(wi,wj); } dst[j]=modmul(a,rN); wj=modmul(wj,iW); } } //---------------------------------------------------------------------------
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

STD :: Chrono est utilisé en C pour traiter le temps, y compris l'obtention de l'heure actuelle, la mesure du temps d'exécution, le point de fonctionnement et la durée de l'opération et le temps d'analyse de formatage. 1. Utilisez STD :: Chrono :: System_clock :: Now () pour obtenir l'heure actuelle, qui peut être convertie en une cha?ne lisible, mais l'horloge système peut ne pas être monotone; 2. Utilisez STD :: Chrono :: standard_clock pour mesurer le temps d'exécution pour assurer la monotonie, et la convertir en millisecondes, secondes et autres unités via durée_cast; 3. Point de temps (temps_point) et durée (durée) peut être interopérable, mais l'attention doit être accordée à la compatibilité des unités et à l'époque de l'horloge (époque)

Volatile indique au compilateur que la valeur de la variable peut changer à tout moment, empêchant le compilateur d'optimiser l'accès. 1. Utilisé pour les registres matériels, les gestionnaires de signaux ou les variables partagées entre les threads (mais le C moderne recommande Std :: Atomic). 2. Chaque accès est directement lu et écrit de la mémoire au lieu d'être mis en cache dans les registres. 3. Il ne fournit pas d'atomicité ou de sécurité des fils, et garantit seulement que le compilateur n'optimise pas la lecture et l'écriture. 4. Constamment, les deux sont parfois utilisés en combinaison pour représenter des variables en lecture seule mais modifiables à l'extérieur. 5. Il ne peut pas remplacer les mutex ou les opérations atomiques, et une utilisation excessive affectera les performances.

Il existe principalement les méthodes suivantes pour obtenir des traces de pile dans C: 1. Utilisez des fonctions Backtrace et Backtrace_Symbols sur la plate-forme Linux. En incluant l'obtention de la pile d'appels et des informations sur le symbole d'impression, le paramètre -rdynamic doit être ajouté lors de la compilation; 2. Utilisez la fonction CaptureStackBackTrace sur la plate-forme Windows, et vous devez lier dbghelp.lib et vous fier au fichier PDB pour analyser le nom de la fonction; 3. Utilisez des bibliothèques tierces telles que Googlebreakpad ou boost.stackTrace pour multiplateforme et simplifier les opérations de capture de pile; 4. Dans la gestion des exceptions, combinez les méthodes ci-dessus pour produire automatiquement les informations de pile dans les blocs de capture

En C, le type POD (PlainoldData) fait référence à un type avec une structure simple et compatible avec le traitement des données du langage C. Il doit remplir deux conditions: il a une sémantique de copie ordinaire, qui peut être copiée par MEMCPY; Il a une disposition standard et la structure de la mémoire est prévisible. Les exigences spécifiques incluent: tous les membres non statiques sont publics, pas de constructeurs ou de destructeurs définis par l'utilisateur, pas de fonctions virtuelles ou de classes de base, et tous les membres non statiques eux-mêmes sont des pods. Par exemple, structPoint {intx; Inty;} est pod. Ses utilisations incluent les E / S binaires, l'interopérabilité C, l'optimisation des performances, etc. Vous pouvez vérifier si le type est POD via STD :: IS_POD, mais il est recommandé d'utiliser STD :: IS_TRIVIA après C 11.

Pour appeler le code Python en C, vous devez d'abord initialiser l'interprète, puis vous pouvez réaliser l'interaction en exécutant des cha?nes, des fichiers ou en appelant des fonctions spécifiques. 1. Initialisez l'interpréteur avec py_initialize () et fermez-le avec py_finalalize (); 2. Exécuter le code de cha?ne ou pyrun_simplefile avec pyrun_simplefile; 3. Importez des modules via pyimport_importmodule, obtenez la fonction via pyObject_getattrstring, construisez des paramètres de py_buildvalue, appelez la fonction et le retour de processus

FunctionHidingInc se produitwenaderiverivedClassDefinesafonctionWithTheSameAnameasAbaseClassfonction, ce qui fait que la base de la base de la base

Anullpointerinc isasaspecialvalueINDICATINGSTATAPOInterDoOesNotPointToanyValidMemoryLocation, andisesesedTosafelyManageAndcheckpointersBeforedereencing.1.BeForec 11,0orlwasused, butnownullptrisprefort

En C, il existe trois fa?ons principales de passer les fonctions comme paramètres: en utilisant des pointeurs de fonction, des expressions de fonction STD :: et de lambda et des génériques de modèle. 1. Les pointeurs de fonction sont la méthode la plus élémentaire, adaptée à des scénarios simples ou à une interface C compatible, mais une mauvaise lisibilité; 2. STD :: Fonction combinée avec les expressions de lambda est une méthode recommandée dans le C moderne, soutenant une variété d'objets appelées et étant de type type; 3. Template Les méthodes génériques sont les plus flexibles, adaptées au code de la bibliothèque ou à la logique générale, mais peuvent augmenter le temps de compilation et le volume de code. Les lambdas qui capturent le contexte doivent être passés à travers la fonction STD :: ou le modèle et ne peuvent pas être convertis directement en pointeurs de fonction.
